亚洲国产精品无码久久久,偷拍,清纯,欧美,久久精品,亚洲av成人综合网,亚洲av亚洲福利在线观看,午夜一区二区三区亚洲影院电影网

全文搜索引擎中的"機(jī)器人"或"蜘蛛"程序使用了哪種計(jì)算機(jī)技術(shù)( )

時(shí)間:2022-05-19 10:33
瀏覽:567
(使用織夢網(wǎng)搭建網(wǎng)站源碼)第一章 搜索引擎簡史 1.1 前互聯(lián)網(wǎng)搜索時(shí)代 在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針,這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。 所有搜索引擎

全文搜索引擎中的"機(jī)器人"或"蜘蛛"程序使用了哪種計(jì)算機(jī)技術(shù)( )

第一章 搜索引擎簡史

1.1 前互聯(lián)網(wǎng)搜索時(shí)代

在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針,這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。

所有搜索引擎的祖先,是1990年由Montreal的McGill University學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明的Archie(Archie FAQ)。當(dāng)時(shí)World Wide Web還未出現(xiàn)。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會(huì)告訴用戶哪一個(gè)FTP地址可以下載該文件。

Archie工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。由于Archie深受用戶歡迎,受其啟發(fā),美國內(nèi)華達(dá)System Computing Services大學(xué)于1993年開發(fā)了另一個(gè)與之非常相似的搜索工具,不過此時(shí)的搜索工具除了索引文件外,已能檢索網(wǎng)頁。

當(dāng)時(shí),“機(jī)器人”一詞在編程者中十分流行。電腦“機(jī)器人”(Computer Robot)是指某個(gè)能以人類無法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的“機(jī)器人”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜索引擎的“機(jī)器人”程序就被稱為“蜘蛛”程序。由于專門用于檢索信息的Robot程序象蜘蛛(spider)一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜索引擎的Robot程序被稱為spider(SpiderFAQ)程序。世界上第一個(gè)Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追蹤互聯(lián)網(wǎng)發(fā)展規(guī)模。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為也能夠捕獲網(wǎng)址(URL)。

世界上第一個(gè)用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序是Matthew Gray開發(fā)的World wide Web Wanderer。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為能夠檢索網(wǎng)站域名。

與Wanderer相對(duì)應(yīng),1993年10月Martijn Koster創(chuàng)建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相當(dāng)于Archie的HTTP版本。ALIWEB不使用網(wǎng)絡(luò)搜尋Robot,如果網(wǎng)站主管們希望自己的網(wǎng)頁被ALIWEB收錄,需要自己提交每一個(gè)網(wǎng)頁的簡介索引信息,類似于后來大家熟知的Yahoo。
1993年底,一些基于此原理的搜索引擎開始紛紛涌現(xiàn),其中最負(fù)盛名的三個(gè)是:Scotland的JumpStation、Colorado大學(xué)Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering(RBSE)spider。隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難,因此,在Matthew Gray的Wanderer基礎(chǔ)上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。其設(shè)想是,既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。然而Jump Station和WWW Worm只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無信息關(guān)聯(lián)度可言。而RBSE是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。

1993年2月,6個(gè)Stanford(斯坦福)大學(xué)生的想法是分析字詞關(guān)系,以對(duì)互聯(lián)網(wǎng)上的大量信息作更有效的檢索。這就是Excite。后來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile

1994年1月,第一個(gè)既可搜索又可瀏覽的分類目錄EINetGalaxy(Tradewave Galaxy)上線。除了網(wǎng)站搜索,它還支持Gopher和Telnet搜索。

1994年4月,Stanford兩名博士生,美籍華人Jerry Yang(楊致遠(yuǎn))和David Filo共同創(chuàng)辦了Yahoo。隨著訪問量和收錄鏈接數(shù)的增長,Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。搜索效率明顯提高。(Yahoo以后陸續(xù)使用Altavista、Inktomi、Google提供搜索引擎服務(wù))

1994年初,Washington大學(xué)CS學(xué)生Brian Pinkerton開始了他的小項(xiàng)目Web Crawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,Web Crawler正式亮相時(shí)僅包含來自6000個(gè)服務(wù)器的內(nèi)容。Web Crawler是互聯(lián)網(wǎng)上第一個(gè)支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過URL和摘要搜索,摘要一般來自人工評(píng)論或程序自動(dòng)取正文的前100個(gè)字。(后來web crawler陸續(xù)被AOL和Excite收購,現(xiàn)在和excite一樣改用元搜索引擎Dogpile)

注 冊

忘記密碼