美美(15歲)愛(ài)上網(wǎng),通常她就是泡聊天室、看新聞、玩網(wǎng)絡(luò)游戲之類的,時(shí)間一長(zhǎng),覺(jué)得有些無(wú)聊了。這天美美問(wèn):“妮妮表姐,你整天上網(wǎng)做什么呢?”妮妮說(shuō):“上網(wǎng)查資料呀。查資料?”“怎么查?上哪查?……”美美一連串的疑問(wèn)。妮妮說(shuō):“查資料當(dāng)然是要用搜索引擎啊。我平時(shí)寫論文用的資料、做主頁(yè)用的圖片、電腦知識(shí)、甚至電子版的小說(shuō)、最新的CD試聽都是通過(guò)搜索引擎找到的。還有,我的主頁(yè)這半年訪問(wèn)量劇增,也要?dú)w功于搜索引擎啊!
搜索引擎?美美覺(jué)得挺奇怪的:“這搜索引擎有這么大威力?嗯,我也要學(xué)習(xí)用搜索引擎!薄翱梢园。贿^(guò),最近我挺忙的,要不,先讓小張(妮妮的男朋友)教你一些基本知識(shí)吧!
“美美,學(xué)習(xí)使用搜索引擎先要了解一些基本知識(shí),可是有點(diǎn)枯燥哦,要有心理準(zhǔn)備喲!毙?jiān)谂赃吅俸俚男χ。美美嘴里哼了哼:“誰(shuí)怕呀,來(lái)吧。”小張清了清嗓子,開始了講解:
“十幾年前,WWW(World Wide Web,萬(wàn)維網(wǎng))還沒(méi)有出生的時(shí)候,互聯(lián)網(wǎng)上只有冰冷的文字,沒(méi)有圖像和聲音,而且網(wǎng)站數(shù)量也不多,感興趣的網(wǎng)站就那么幾個(gè),可以在很短的時(shí)間內(nèi)就掌握其中的全部信息,搜索引擎完全沒(méi)有出現(xiàn)的必要。1993年,互聯(lián)網(wǎng)上出現(xiàn)了最早的Web瀏覽器Mosaic,次年Netscape推出了Navigator。瀏覽器的發(fā)展促使Web得到迅速推廣,站點(diǎn)數(shù)目以驚人的速度增加,我們?cè)僖膊荒苡脗鹘y(tǒng)記憶方式來(lái)應(yīng)付與日俱增的站點(diǎn)。于是,搜索引擎就誕生了。第一個(gè)搜索引擎的出生地在美國(guó),它的名字叫Archie,是由McGill大學(xué)的一個(gè)小組開發(fā)的!
“早期的搜索引擎是把互聯(lián)網(wǎng)中資源服務(wù)器的地址收集起來(lái),由其提供資源的類型不同而分成不同的目錄,再一層層地進(jìn)行分類。人們要找自己想要的信息可按它們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這種方式,只適用于互聯(lián)網(wǎng)信息并不多的時(shí)候!
“隨著互聯(lián)網(wǎng)的信息按幾何式增長(zhǎng),搜索引擎開始快速發(fā)展。1994年春天,世界上出現(xiàn)了真正意義上的搜索引擎——Lycos。隨著Yahoo!的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代。搜索引擎家族不斷發(fā)展壯大,逐漸分布到信息世界的各個(gè)角落,它們的種類、技術(shù)也在不斷的發(fā)生變化。”
美美聽了半天,嘴越張?jiān)酱螅骸巴,沒(méi)想到搜索引擎也有這樣的歷史呀!
“那當(dāng)然了,別打岔,下面要講搜索引擎的分類及原理了,仔細(xì)聽著。”
“盡管目前存在數(shù)量眾多的搜索引擎,但按照它們信息搜集方法和服務(wù)提供方式的不同,可以大致劃分為三大類型!
“我們先來(lái)講講基于蜘蛛程序的的機(jī)器人搜索引擎,這種搜索引擎由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序自動(dòng)訪問(wèn)Web站點(diǎn),提取站點(diǎn)上的網(wǎng)頁(yè),并根據(jù)網(wǎng)頁(yè)中的鏈接進(jìn)一步提取其它網(wǎng)頁(yè),或轉(zhuǎn)移到其它站點(diǎn)上。由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶!
美美又忍不住了:“太難了,我聽不懂!
“聽起來(lái)感覺(jué)很復(fù)雜吧?簡(jiǎn)單講,就是由程序自動(dòng)抓去網(wǎng)上的信息,‘搜索引擎’這個(gè)詞的原義就是指這種狹義的搜索引擎!
“該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、Excite、Inktomi、FAST、Lycos、Google;國(guó)內(nèi)代表為:百度、OpenFind等!
“哦,我這下我明白了,而且我還知道Google呢,好有名的。呵呵!你接著講吧!泵烂澜K于弄懂了。
“接著給你講引擎目錄式搜索引擎,它是以人工方式或半自動(dòng)方式搜集信息,由編輯人員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的國(guó)外代表是:Yahoo、LookSmart、Open Directory等;國(guó)內(nèi)代表有新浪網(wǎng)、搜狐等的網(wǎng)站目錄!
“美美,美美,哎,你在干嘛喲,睡著了?”
“哪里呀,我只是在想它和前面那種搜索引擎有什么不同嘛!”
“哦,我正要講呢。目錄的數(shù)據(jù)庫(kù)是依靠專職編輯或志愿人員建立起來(lái)的,這些編輯人員在訪問(wèn)了某個(gè)Web站點(diǎn)后撰寫一段對(duì)該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別,把站點(diǎn)的URL和描述放在這個(gè)類別中,當(dāng)用戶查詢某個(gè)關(guān)鍵詞時(shí),搜索軟件只在這些描述中進(jìn)行搜索!
“目錄的用戶界面基本上都是分級(jí)結(jié)構(gòu),首頁(yè)提供了最基本的幾個(gè)大類的入口,用戶可以一級(jí)一級(jí)地向下訪問(wèn),直至找到自己感興趣的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞,不過(guò),由于目錄只在保存的對(duì)站點(diǎn)的描述中進(jìn)行搜索,因此站點(diǎn)本身的動(dòng)態(tài)變化不會(huì)反映到搜索結(jié)果中來(lái),這也是目錄與基于Robot的搜索引擎之間的一大區(qū)別!
“最后要講的是Meta元搜索引擎,它的特點(diǎn)是本身并沒(méi)有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù),當(dāng)用戶查詢一個(gè)關(guān)鍵詞時(shí),它把用戶的查詢請(qǐng)求轉(zhuǎn)換成其它搜索引擎能夠接受的命令格式,并訪問(wèn)數(shù)個(gè)搜索引擎來(lái)查詢這個(gè)關(guān)鍵詞,并把這些搜索引擎返回的結(jié)果經(jīng)過(guò)處理后再返回給用戶。對(duì)于返回的結(jié)果系統(tǒng)會(huì)進(jìn)行重復(fù)排除、重新排序等處理。服務(wù)方式為面向網(wǎng)頁(yè)的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler、InfoMarket等,國(guó)內(nèi)的一網(wǎng)打盡、颶風(fēng)搜索通等提供類似的功能!
“我真不知道搜索引擎還有這么多名堂呀,真是長(zhǎng)了見識(shí)!泵烂栏袊@道。
“呵,這還只是開始呢,今天我們就到這兒了,你也該休息了,下次我們?cè)倮^續(xù)吧!
美美(15歲)愛(ài)上網(wǎng),通常她就是泡聊天室、看新聞、玩網(wǎng)絡(luò)游戲之類的,時(shí)間一長(zhǎng),覺(jué)得有些無(wú)聊了。這天美美問(wèn):“妮妮表姐,你整天上網(wǎng)做什么呢?”妮妮說(shuō):“上網(wǎng)查資料呀。查資料?”“怎么查?上哪查?……”美美一連串的疑問(wèn)。妮妮說(shuō):“查資料當(dāng)然是要用搜索引擎啊。我平時(shí)寫論文用的資料、做主頁(yè)用的圖片、電腦知識(shí)、甚至電子版的小說(shuō)、最新的CD試聽都是通過(guò)搜索引擎找到的。還有,我的主頁(yè)這半年訪問(wèn)量劇增,也要?dú)w功于搜索引擎啊。”
搜索引擎?美美覺(jué)得挺奇怪的:“這搜索引擎有這么大威力?嗯,我也要學(xué)習(xí)用搜索引擎!薄翱梢园。贿^(guò),最近我挺忙的,要不,先讓小張(妮妮的男朋友)教你一些基本知識(shí)吧!
“美美,學(xué)習(xí)使用搜索引擎先要了解一些基本知識(shí),可是有點(diǎn)枯燥哦,要有心理準(zhǔn)備喲!毙?jiān)谂赃吅俸俚男χ。美美嘴里哼了哼:“誰(shuí)怕呀,來(lái)吧!毙埱辶饲迳ぷ,開始了講解:
“十幾年前,WWW(World Wide Web,萬(wàn)維網(wǎng))還沒(méi)有出生的時(shí)候,互聯(lián)網(wǎng)上只有冰冷的文字,沒(méi)有圖像和聲音,而且網(wǎng)站數(shù)量也不多,感興趣的網(wǎng)站就那么幾個(gè),可以在很短的時(shí)間內(nèi)就掌握其中的全部信息,搜索引擎完全沒(méi)有出現(xiàn)的必要。1993年,互聯(lián)網(wǎng)上出現(xiàn)了最早的Web瀏覽器Mosaic,次年Netscape推出了Navigator。瀏覽器的發(fā)展促使Web得到迅速推廣,站點(diǎn)數(shù)目以驚人的速度增加,我們?cè)僖膊荒苡脗鹘y(tǒng)記憶方式來(lái)應(yīng)付與日俱增的站點(diǎn)。于是,搜索引擎就誕生了。第一個(gè)搜索引擎的出生地在美國(guó),它的名字叫Archie,是由McGill大學(xué)的一個(gè)小組開發(fā)的!
“早期的搜索引擎是把互聯(lián)網(wǎng)中資源服務(wù)器的地址收集起來(lái),由其提供資源的類型不同而分成不同的目錄,再一層層地進(jìn)行分類。人們要找自己想要的信息可按它們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這種方式,只適用于互聯(lián)網(wǎng)信息并不多的時(shí)候。”
“隨著互聯(lián)網(wǎng)的信息按幾何式增長(zhǎng),搜索引擎開始快速發(fā)展。1994年春天,世界上出現(xiàn)了真正意義上的搜索引擎——Lycos。隨著Yahoo!的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代。搜索引擎家族不斷發(fā)展壯大,逐漸分布到信息世界的各個(gè)角落,它們的種類、技術(shù)也在不斷的發(fā)生變化。”
美美聽了半天,嘴越張?jiān)酱螅骸巴,沒(méi)想到搜索引擎也有這樣的歷史呀。”
“那當(dāng)然了,別打岔,下面要講搜索引擎的分類及原理了,仔細(xì)聽著!
“盡管目前存在數(shù)量眾多的搜索引擎,但按照它們信息搜集方法和服務(wù)提供方式的不同,可以大致劃分為三大類型。”
“我們先來(lái)講講基于蜘蛛程序的的機(jī)器人搜索引擎,這種搜索引擎由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序自動(dòng)訪問(wèn)Web站點(diǎn),提取站點(diǎn)上的網(wǎng)頁(yè),并根據(jù)網(wǎng)頁(yè)中的鏈接進(jìn)一步提取其它網(wǎng)頁(yè),或轉(zhuǎn)移到其它站點(diǎn)上。由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶。”
美美又忍不住了:“太難了,我聽不懂!
“聽起來(lái)感覺(jué)很復(fù)雜吧?簡(jiǎn)單講,就是由程序自動(dòng)抓去網(wǎng)上的信息,‘搜索引擎’這個(gè)詞的原義就是指這種狹義的搜索引擎!
“該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、Excite、Inktomi、FAST、Lycos、Google;國(guó)內(nèi)代表為:百度、OpenFind等。”
“哦,我這下我明白了,而且我還知道Google呢,好有名的。呵呵!你接著講吧!泵烂澜K于弄懂了。
“接著給你講引擎目錄式搜索引擎,它是以人工方式或半自動(dòng)方式搜集信息,由編輯人員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的國(guó)外代表是:Yahoo、LookSmart、Open Directory等;國(guó)內(nèi)代表有新浪網(wǎng)、搜狐等的網(wǎng)站目錄!
“美美,美美,哎,你在干嘛喲,睡著了?”
“哪里呀,我只是在想它和前面那種搜索引擎有什么不同嘛!”
“哦,我正要講呢。目錄的數(shù)據(jù)庫(kù)是依靠專職編輯或志愿人員建立起來(lái)的,這些編輯人員在訪問(wèn)了某個(gè)Web站點(diǎn)后撰寫一段對(duì)該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別,把站點(diǎn)的URL和描述放在這個(gè)類別中,當(dāng)用戶查詢某個(gè)關(guān)鍵詞時(shí),搜索軟件只在這些描述中進(jìn)行搜索。”
“目錄的用戶界面基本上都是分級(jí)結(jié)構(gòu),首頁(yè)提供了最基本的幾個(gè)大類的入口,用戶可以一級(jí)一級(jí)地向下訪問(wèn),直至找到自己感興趣的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞,不過(guò),由于目錄只在保存的對(duì)站點(diǎn)的描述中進(jìn)行搜索,因此站點(diǎn)本身的動(dòng)態(tài)變化不會(huì)反映到搜索結(jié)果中來(lái),這也是目錄與基于Robot的搜索引擎之間的一大區(qū)別。”
“最后要講的是Meta元搜索引擎,它的特點(diǎn)是本身并沒(méi)有存放網(wǎng)頁(yè)信息的數(shù)據(jù)庫(kù),當(dāng)用戶查詢一個(gè)關(guān)鍵詞時(shí),它把用戶的查詢請(qǐng)求轉(zhuǎn)換成其它搜索引擎能夠接受的命令格式,并訪問(wèn)數(shù)個(gè)搜索引擎來(lái)查詢這個(gè)關(guān)鍵詞,并把這些搜索引擎返回的結(jié)果經(jīng)過(guò)處理后再返回給用戶。對(duì)于返回的結(jié)果系統(tǒng)會(huì)進(jìn)行重復(fù)排除、重新排序等處理。服務(wù)方式為面向網(wǎng)頁(yè)的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler、InfoMarket等,國(guó)內(nèi)的一網(wǎng)打盡、颶風(fēng)搜索通等提供類似的功能!
“我真不知道搜索引擎還有這么多名堂呀,真是長(zhǎng)了見識(shí)!泵烂栏袊@道。