全文搜索引擎中的"機(jī)器人"或"蜘蛛"程序使用了哪種計(jì)算機(jī)技術(shù)（）

時(shí)間:2022-05-19 10:33

(使用織夢網(wǎng)搭建網(wǎng)站源碼)第一章搜索引擎簡史 1．1 前互聯(lián)網(wǎng)搜索時(shí)代在互聯(lián)網(wǎng)發(fā)展初期，網(wǎng)站相對(duì)較少，信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展，普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針，這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。所有搜索引擎

第一章搜索引擎簡史

1．1 前互聯(lián)網(wǎng)搜索時(shí)代

在互聯(lián)網(wǎng)發(fā)展初期，網(wǎng)站相對(duì)較少，信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展，普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針，這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。

所有搜索引擎的祖先，是1990年由Montreal的McGill University學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明的Archie（Archie FAQ）。當(dāng)時(shí)World Wide Web還未出現(xiàn)。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序，但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表，用戶必須輸入精確的文件名搜索，然后Archie會(huì)告訴用戶哪一個(gè)FTP地址可以下載該文件。

Archie工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近，它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件，然后對(duì)有關(guān)信息進(jìn)行索引，供使用者以一定的表達(dá)式查詢。由于Archie深受用戶歡迎，受其啟發(fā)，美國內(nèi)華達(dá)System Computing Services大學(xué)于1993年開發(fā)了另一個(gè)與之非常相似的搜索工具，不過此時(shí)的搜索工具除了索引文件外，已能檢索網(wǎng)頁。

當(dāng)時(shí)，“機(jī)器人”一詞在編程者中十分流行。電腦“機(jī)器人”（Computer Robot）是指某個(gè)能以人類無法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的“機(jī)器人”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去，因此，搜索引擎的“機(jī)器人”程序就被稱為“蜘蛛”程序。由于專門用于檢索信息的Robot程序象蜘蛛（spider）一樣在網(wǎng)絡(luò)間爬來爬去，因此，搜索引擎的Robot程序被稱為spider（SpiderFAQ）程序。世界上第一個(gè)Spider程序，是MIT Matthew Gray的World wide Web Wanderer，用于追蹤互聯(lián)網(wǎng)發(fā)展規(guī)模。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量，后來則發(fā)展為也能夠捕獲網(wǎng)址（URL）。

世界上第一個(gè)用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序是Matthew Gray開發(fā)的World wide Web Wanderer。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量，后來則發(fā)展為能夠檢索網(wǎng)站域名。

與Wanderer相對(duì)應(yīng)，1993年10月Martijn Koster創(chuàng)建了ALIWEB（Martijn Koster Annouces the Availability of Aliweb），它相當(dāng)于Archie的HTTP版本。ALIWEB不使用網(wǎng)絡(luò)搜尋Robot，如果網(wǎng)站主管們希望自己的網(wǎng)頁被ALIWEB收錄，需要自己提交每一個(gè)網(wǎng)頁的簡介索引信息，類似于后來大家熟知的Yahoo。
1993年底，一些基于此原理的搜索引擎開始紛紛涌現(xiàn)，其中最負(fù)盛名的三個(gè)是：Scotland的JumpStation、Colorado大學(xué)Oliver McBryan的The World Wide Web Worm（First Mention of McBryan's World Wide Web Worm）、NASA的Repository-Based Software Engineering（RBSE）spider。隨著互聯(lián)網(wǎng)的迅速發(fā)展，使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難，因此，在Matthew Gray的Wanderer基礎(chǔ)上，一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。其設(shè)想是，既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接，那么從跟蹤一個(gè)網(wǎng)站的鏈接開始，就有可能檢索整個(gè)互聯(lián)網(wǎng)。然而Jump Station和WWW Worm只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結(jié)果，因此毫無信息關(guān)聯(lián)度可言。而RBSE是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。

1993年2月，6個(gè)Stanford（斯坦福）大學(xué)生的想法是分析字詞關(guān)系，以對(duì)互聯(lián)網(wǎng)上的大量信息作更有效的檢索。這就是Excite。后來曾以概念搜索聞名，2002年5月，被Infospace收購的Excite停止自己的搜索引擎，改用元搜索引擎Dogpile

1994年1月，第一個(gè)既可搜索又可瀏覽的分類目錄EINetGalaxy（Tradewave Galaxy）上線。除了網(wǎng)站搜索，它還支持Gopher和Telnet搜索。

1994年4月，Stanford兩名博士生，美籍華人Jerry Yang（楊致遠(yuǎn)）和David Filo共同創(chuàng)辦了Yahoo。隨著訪問量和收錄鏈接數(shù)的增長，Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的，所以不能真正被歸為搜索引擎，事實(shí)上只是一個(gè)可搜索的目錄。搜索效率明顯提高。（Yahoo以后陸續(xù)使用Altavista、Inktomi、Google提供搜索引擎服務(wù)）

1994年初，Washington大學(xué)CS學(xué)生Brian Pinkerton開始了他的小項(xiàng)目Web Crawler（Brian Pinkerton Announces the Availability of Webcrawler）。1994年4月20日，Web Crawler正式亮相時(shí)僅包含來自6000個(gè)服務(wù)器的內(nèi)容。Web Crawler是互聯(lián)網(wǎng)上第一個(gè)支持搜索文件全部文字的全文搜索引擎，在它之前，用戶只能通過URL和摘要搜索，摘要一般來自人工評(píng)論或程序自動(dòng)取正文的前100個(gè)字。（后來web crawler陸續(xù)被AOL和Excite收購，現(xiàn)在和excite一樣改用元搜索引擎Dogpile）

相關(guān)閱讀

資訊分類

亚洲国产精品无码久久久,偷拍,清纯,欧美,久久精品,亚洲av成人综合网,亚洲av亚洲福利在线观看,午夜一区二区三区亚洲影院电影网

全文搜索引擎中的"機(jī)器人"或"蜘蛛"程序使用了哪種計(jì)算機(jī)技術(shù)（ ）

全文搜索引擎中的"機(jī)器人"或"蜘蛛"程序使用了哪種計(jì)算機(jī)技術(shù)（）