全文搜索引擎中的"機(jī)器人"或"蜘蛛"程序使用了哪種計(jì)算機(jī)技術(shù)( )
第一章 搜索引擎簡史
1.1 前互聯(lián)網(wǎng)搜索時(shí)代
在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針,這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。
所有搜索引擎的祖先,是1990年由Montreal的McGill University學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明的Archie(Archie FAQ)。當(dāng)時(shí)World Wide Web還未出現(xiàn)。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會(huì)告訴用戶哪一個(gè)FTP地址可以下載該文件。
Archie工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。由于Archie深受用戶歡迎,受其啟發(fā),美國內(nèi)華達(dá)System Computing Services大學(xué)于1993年開發(fā)了另一個(gè)與之非常相似的搜索工具,不過此時(shí)的搜索工具除了索引文件外,已能檢索網(wǎng)頁。
當(dāng)時(shí),“機(jī)器人”一詞在編程者中十分流行。電腦“機(jī)器人”(Computer Robot)是指某個(gè)能以人類無法達(dá)到的速度不間斷地執(zhí)行某項(xiàng)任務(wù)的軟件程序。由于專門用于檢索信息的“機(jī)器人”程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜索引擎的“機(jī)器人”程序就被稱為“蜘蛛”程序。由于專門用于檢索信息的Robot程序象蜘蛛(spider)一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜索引擎的Robot程序被稱為spider(SpiderFAQ)程序。世界上第一個(gè)Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追蹤互聯(lián)網(wǎng)發(fā)展規(guī)模。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為也能夠捕獲網(wǎng)址(URL)。
世界上第一個(gè)用于監(jiān)測互聯(lián)網(wǎng)發(fā)展規(guī)模的“機(jī)器人”程序是Matthew Gray開發(fā)的World wide Web Wanderer。剛開始它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為能夠檢索網(wǎng)站域名。
與Wanderer相對(duì)應(yīng),1993年10月Martijn Koster創(chuàng)建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相當(dāng)于Archie的HTTP版本。ALIWEB不使用網(wǎng)絡(luò)搜尋Robot,如果網(wǎng)站主管們希望自己的網(wǎng)頁被ALIWEB收錄,需要自己提交每一個(gè)網(wǎng)頁的簡介索引信息,類似于后來大家熟知的Yahoo。
1993年底,一些基于此原理的搜索引擎開始紛紛涌現(xiàn),其中最負(fù)盛名的三個(gè)是:Scotland的JumpStation、Colorado大學(xué)Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering(RBSE)spider。隨著互聯(lián)網(wǎng)的迅速發(fā)展,使得檢索所有新出現(xiàn)的網(wǎng)頁變得越來越困難,因此,在Matthew Gray的Wanderer基礎(chǔ)上,一些編程者將傳統(tǒng)的“蜘蛛”程序工作原理作了些改進(jìn)。其設(shè)想是,既然所有網(wǎng)頁都可能有連向其他網(wǎng)站的鏈接,那么從跟蹤一個(gè)網(wǎng)站的鏈接開始,就有可能檢索整個(gè)互聯(lián)網(wǎng)。然而Jump Station和WWW Worm只是以搜索工具在數(shù)據(jù)庫中找到匹配信息的先后次序排列搜索結(jié)果,因此毫無信息關(guān)聯(lián)度可言。而RBSE是第一個(gè)在搜索結(jié)果排列中引入關(guān)鍵字串匹配程度概念的引擎。
1993年2月,6個(gè)Stanford(斯坦福)大學(xué)生的想法是分析字詞關(guān)系,以對(duì)互聯(lián)網(wǎng)上的大量信息作更有效的檢索。這就是Excite。后來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile
1994年1月,第一個(gè)既可搜索又可瀏覽的分類目錄EINetGalaxy(Tradewave Galaxy)上線。除了網(wǎng)站搜索,它還支持Gopher和Telnet搜索。
1994年4月,Stanford兩名博士生,美籍華人Jerry Yang(楊致遠(yuǎn))和David Filo共同創(chuàng)辦了Yahoo。隨著訪問量和收錄鏈接數(shù)的增長,Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。搜索效率明顯提高。(Yahoo以后陸續(xù)使用Altavista、Inktomi、Google提供搜索引擎服務(wù))
1994年初,Washington大學(xué)CS學(xué)生Brian Pinkerton開始了他的小項(xiàng)目Web Crawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,Web Crawler正式亮相時(shí)僅包含來自6000個(gè)服務(wù)器的內(nèi)容。Web Crawler是互聯(lián)網(wǎng)上第一個(gè)支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過URL和摘要搜索,摘要一般來自人工評(píng)論或程序自動(dòng)取正文的前100個(gè)字。(后來web crawler陸續(xù)被AOL和Excite收購,現(xiàn)在和excite一樣改用元搜索引擎Dogpile)
- 成都搜索引擎SEO優(yōu)化排名哪家公司好
- edu和.com是什么意思,有什么區(qū)別?
- nginx可以轉(zhuǎn)發(fā)內(nèi)網(wǎng) url東西嗎?
- 在耐思尼克買了域名,該怎么建站啊
- 如何確定某個(gè)域名服務(wù)器是否工作正常?
- 一級(jí)域名可以打開網(wǎng)站,空間主贈(zèng)送的三級(jí)域名不能打開,域名解析都解析好的,那是什么
- 那里有免費(fèi)的二級(jí)或者三級(jí)域名,可以設(shè)置解析IP的,提供一個(gè),謝謝了
- 域名在什么情形下不需要備案
- host表是什么表?
- www.jf25.com一般域名解析要多久?
- 域名怎么解析到用路由器的服務(wù)器
- 反向綁定域名的方法步驟詳解
- 二級(jí)域名怎么解析
- 電腦不能解析域名?
- 域名怎么樣解析到阿里云服務(wù)器
- 用域名訪問網(wǎng)站到頁面打開過程所用到的協(xié)議?具體過程是怎么樣的
- 將ip地址轉(zhuǎn)換成域名的協(xié)議?
- 如何給主機(jī)分配二級(jí)域名?
- 二級(jí)域名做站有優(yōu)勢嗎?
- 誰能給個(gè)免費(fèi)二級(jí)域名申請(qǐng)網(wǎng)站?現(xiàn)在有效能申請(qǐng)的
-
把網(wǎng)址復(fù)制粘貼到瀏覽器打開并下載 網(wǎng)址在微信上 怎么操作
-
怎樣查詢二級(jí)域名的ip地址?
-
網(wǎng)站一級(jí)域名和二級(jí)域名區(qū)別
-
子域名ip地址查詢?
-
地址發(fā)布頁是什么意思?
-
電腦網(wǎng)頁找不到,出現(xiàn)404,這個(gè)404代表什么意思?
-
有哪個(gè)網(wǎng)站可以免費(fèi)看NBA直播?
-
電腦網(wǎng)頁打開時(shí)出現(xiàn)HTTP404未找到,如何解決?
-
如何建立個(gè)人網(wǎng)站?我想建一個(gè)自己的網(wǎng)站,永久免費(fèi)的?
-
網(wǎng)頁版qq登錄入口
-
http://www.windows.com/stopcode
-
如何給VPS搭建的網(wǎng)站做國內(nèi)CDN加速?
-
shadowrocket怎么架設(shè)服務(wù)器
-
網(wǎng)站域名后面的cn是什么意思?
-
網(wǎng)站推廣關(guān)鍵詞排名優(yōu)化要用那些方法?