互聯(lián)網(wǎng)在全球范圍內(nèi)的迅速發(fā)展與成熟,促使社會(huì)各領(lǐng)域信息飛速膨脹,為人們查找、獲取
有用信息提供了豐富的信息源,但也給信息的準(zhǔn)確定位提出了挑戰(zhàn)。提供網(wǎng)上資源的檢索是
網(wǎng)絡(luò)信息服務(wù)的重要內(nèi)容之一,加之現(xiàn)代人也對(duì)信息把握的正確性和全面性提出了越來(lái)越高
的要求,因此,當(dāng)務(wù)之急是開(kāi)發(fā)性能優(yōu)越的網(wǎng)絡(luò)信息檢索工具。
1993年,第一批搜索引擎誕生后,發(fā)展至今已經(jīng)逐漸走向成熟,伴隨著計(jì)算機(jī)智能化研究的
不斷發(fā)展,具有適應(yīng)性和學(xué)習(xí)性特征的智能代理技術(shù)也正從試驗(yàn)階段過(guò)渡到實(shí)際應(yīng)用。目前
,搜索引擎(search engine)與智能代理(intelligent agent)已經(jīng)成為網(wǎng)絡(luò)信息搜索的關(guān)鍵
技術(shù)與核心思想。
1 搜索引擎技術(shù)的發(fā)展現(xiàn)狀
1.1 搜索引擎技術(shù)
目前,網(wǎng)絡(luò)信息檢索技術(shù)最主要的是搜索引擎技術(shù),搜索引擎實(shí)際上是一個(gè)專(zhuān)用的WWW服務(wù)
器,也可以說(shuō)是因特網(wǎng)上的一類(lèi)網(wǎng)站,這類(lèi)網(wǎng)站與一般的網(wǎng)站不同,其主要工作是收集網(wǎng)絡(luò)
上成千上萬(wàn)的網(wǎng)站和網(wǎng)頁(yè)信息,組成龐大的索引數(shù)據(jù)庫(kù)。使用優(yōu)秀的搜索引擎可以達(dá)到事半
功倍的效果。目前網(wǎng)絡(luò)上大約有3000多種搜索引擎,我們較為熟悉的提供中文搜索引擎的站
點(diǎn)有sina、sohu、 Yahoo、netease和中文Excite等。
一般來(lái)說(shuō),搜索引擎主要采取兩種方式實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息資源的檢索,一是采用分類(lèi)主題目錄
形式,將網(wǎng)站進(jìn)行樹(shù)狀的分類(lèi),所鏈接的網(wǎng)站必須至少歸屬于其中一個(gè)類(lèi)別,形成類(lèi)似圖書(shū)
館目錄一樣的分類(lèi)主題目錄,用戶(hù)通過(guò)逐級(jí)瀏覽這些目錄來(lái)找尋自己需要的內(nèi)容,采用這種
檢索方式的搜索引擎有Yahoo、sohu等,由于使用了專(zhuān)家進(jìn)行歸納和分類(lèi),為信息導(dǎo)航帶來(lái)
了極大的方便,但這種方式在分類(lèi)和目錄整理中需要大量的人力;二是使用關(guān)鍵詞匹配方式
,其處理對(duì)象主要是文本,它能夠?qū)Υ罅课臋n建立由字(詞)到文檔的索引庫(kù),在此基礎(chǔ)上,
用戶(hù)使用關(guān)鍵詞對(duì)網(wǎng)頁(yè)進(jìn)行搜索時(shí),系統(tǒng)將會(huì)顯示含有該檢索用詞的所有網(wǎng)站、網(wǎng)頁(yè)和新聞
等匹配信息。關(guān)鍵詞檢索能解決對(duì)網(wǎng)頁(yè)細(xì)節(jié)的檢索問(wèn)題,只要用戶(hù)輸入關(guān)鍵詞,系統(tǒng)通過(guò)蜘
蛛機(jī)器人自動(dòng)在選定的范圍內(nèi)進(jìn)行檢索,并將所檢索到的信息自動(dòng)標(biāo)引導(dǎo)入索引數(shù)據(jù)庫(kù)中,
匹配所檢范圍中的網(wǎng)頁(yè),就能得到檢索結(jié)果。
1.2 搜索引擎使用的信息檢索技術(shù)及其不足
目前搜索引擎使用的信息檢索技術(shù)主要有:Robot技術(shù)、索引技術(shù)、翻譯技術(shù)、轉(zhuǎn)換技術(shù)、過(guò)濾技術(shù)、數(shù)據(jù)庫(kù)技術(shù)、結(jié)果處理技術(shù)等。搜索引擎的最大優(yōu)點(diǎn)是:信息的覆蓋面較大,信息
新穎,而且對(duì)搜索結(jié)果的相關(guān)性排列上,搜索引擎將其認(rèn)為相關(guān)性高的檢索結(jié)果排列在前。
但由于搜索引擎使用的信息檢索技術(shù)智能水平的限制,以及對(duì)自然語(yǔ)言理解的制約,對(duì)網(wǎng)絡(luò)
信息的檢索存在許多不足之處。主要有如下幾方面。
(1)現(xiàn)在的搜索引擎主要通過(guò)Robot將網(wǎng)頁(yè)的全部或部分內(nèi)容下載到自建索引庫(kù)中,由于下載的頁(yè)面許多是無(wú)用或暫時(shí)信息,既影響檢索速度,也增加了用戶(hù)檢索負(fù)擔(dān)。
(2)由于搜索引擎一般都采用關(guān)鍵詞檢索方式,但許多情況下,用戶(hù)很難簡(jiǎn)單地用關(guān)鍵詞或
關(guān)鍵詞之間的組配來(lái)準(zhǔn)確地表達(dá)真正需要的信息內(nèi)容,表達(dá)困難導(dǎo)致檢索困難。
(3)每個(gè)引擎的覆蓋面都相當(dāng)有限。經(jīng)考察研究發(fā)現(xiàn),沒(méi)有一個(gè)搜索引擎的索引量超過(guò)整個(gè)
網(wǎng)頁(yè)的1/6。
(4)搜索的結(jié)果不精確。搜索結(jié)果的精確性是由查詢(xún)?cè)~與網(wǎng)頁(yè)的相關(guān)性來(lái)確定的,常常輸入
一個(gè)單一的查詢(xún)?cè)~能返回?cái)?shù)萬(wàn)篇結(jié)果,或者零篇結(jié)果。
2 智能代理技術(shù)
2.1 智能代理
智能代理又稱(chēng)智能體,是人工智能研究的新成果,它是在用戶(hù)沒(méi)有明確具體要求的情況下,根據(jù)用戶(hù)需要,代替用戶(hù)進(jìn)行各種復(fù)雜的工作,如信息查詢(xún)、篩選及管理,并能推測(cè)用戶(hù)的意圖,自主制定、調(diào)整和執(zhí)行工作計(jì)劃。具有智能性,是可進(jìn)行高級(jí)、復(fù)雜的自動(dòng)處理的代理軟件。智能代理可應(yīng)用于廣泛的領(lǐng)域,是人工智能領(lǐng)域近年來(lái)研究的一個(gè)熱點(diǎn),應(yīng)用于信息檢索領(lǐng)域之后,成為開(kāi)發(fā)智能化、個(gè)性化信息檢索的重要技術(shù)之一。
2.2 智能代理的特點(diǎn)
①智能性。具有豐富的知識(shí)和一定的推理能力,能揣測(cè)用戶(hù)的意圖,并能處理復(fù)雜的難度高的任務(wù),對(duì)用戶(hù)的需求能分析地接收,自動(dòng)拒絕一些不合理或可能給用戶(hù)帶來(lái)危害的要求,而且具有從經(jīng)驗(yàn)中不斷學(xué)習(xí)的能力,適當(dāng)?shù)剡M(jìn)行自我調(diào)節(jié),提高處理問(wèn)題能力。
②代理性。在功能上是用戶(hù)的某種代理,它可以代替用戶(hù)完成一些任務(wù),并將結(jié)果主動(dòng)反饋給用戶(hù)。
③移動(dòng)性?梢栽诰W(wǎng)絡(luò)上漫游到任何目標(biāo)主機(jī),并在目標(biāo)主機(jī)上進(jìn)行信息處理操作,最后將結(jié)果集中返回到起點(diǎn),而且能隨計(jì)算機(jī)用戶(hù)的移動(dòng)而移動(dòng)。
④主動(dòng)性。能根據(jù)用戶(hù)的需求和環(huán)境的變化,主動(dòng)向用戶(hù)報(bào)告并提供服務(wù)。
⑤協(xié)作性。能通過(guò)各種通信協(xié)議和其他智能體進(jìn)行信息交流,并可以相互協(xié)調(diào)共同完成復(fù)雜的任務(wù)。
3 搜索引擎技術(shù)與智能代理技術(shù)的結(jié)合
搜索引擎與智能代理技術(shù)有著各自的優(yōu)勢(shì)與不足,把這兩種技術(shù)結(jié)合起來(lái),將為開(kāi)發(fā)新一代功能更強(qiáng)大的網(wǎng)上信息搜索系統(tǒng)提供廣闊的天地。智能代理主要集成客戶(hù)端特殊的環(huán)境,配合用戶(hù)興趣完成搜索。它對(duì)用戶(hù)信息需求、偏好進(jìn)行甄別、歸納、總結(jié),分析用戶(hù)的興趣愛(ài)好,并借助學(xué)習(xí)好的規(guī)則,自動(dòng)、獨(dú)立地代理用戶(hù)查找其感興趣的信息。將搜索引擎與智能代理技術(shù)結(jié)合起來(lái)是建立新的檢索模式的必然趨勢(shì)。
3.1 服務(wù)器端的個(gè)性化服務(wù)的引入
在服務(wù)器端吸收智能代理技術(shù)的思想,引入個(gè)性化和人性化服務(wù)的思想。引入用戶(hù)反饋機(jī)制來(lái)完善檢索機(jī)制、提高檢索命中率,同時(shí)也可以提供面向個(gè)人的特殊檢索服務(wù)。這種方式可以通過(guò)帳號(hào)制形式來(lái)實(shí)現(xiàn),即為每一位用戶(hù)提供一個(gè)帳號(hào)(類(lèi)似于個(gè)人郵箱),以記錄該用戶(hù)查詢(xún)蹤跡,從而在用戶(hù)再次登錄時(shí)結(jié)合以往的用戶(hù)檢索記錄來(lái)配合提供相關(guān)的檢索服務(wù)。
這種模式體現(xiàn)了個(gè)性化服務(wù)的特色,對(duì)于用戶(hù)一貫查詢(xún)的信息就可以直接從用戶(hù)的信息庫(kù)中提取,避免了重復(fù)查詢(xún)。另外,通過(guò)對(duì)用戶(hù)的反饋意見(jiàn)進(jìn)行跟蹤,獲取用戶(hù)對(duì)結(jié)果的評(píng)價(jià),據(jù)此提高檢索質(zhì)量。檢索入口的自然語(yǔ)言化發(fā)展將有助于優(yōu)化檢索界面,提高界面的人性化。
3.2 客戶(hù)端智能代理技術(shù)的拓展
以智能搜索代理技術(shù)為主,結(jié)合搜索引擎“面向主題”的檢索模式,在密切關(guān)注個(gè)體需求、提高信息與用戶(hù)需求相關(guān)系統(tǒng),彼此間可以通過(guò)統(tǒng)一的傳輸協(xié)議進(jìn)行溝通,交換信息,從而使更多的信息得以挖掘,以彌補(bǔ)智能代理信息搜索范圍有限的缺陷。
這種模式充分利用了智能搜索代理的流動(dòng)性、交互性、智能性特點(diǎn),同時(shí)又吸取了搜索引擎的主題相關(guān)的思想,為高質(zhì)量的信息個(gè)性化檢索服務(wù)提供了新的模式。
搜索引擎技術(shù)與智能代理技術(shù)在網(wǎng)絡(luò)信息檢索上的結(jié)合發(fā)展?jié)摿κ蔷薮蟮模嬲龑?shí)現(xiàn)兩者結(jié)合的各項(xiàng)優(yōu)勢(shì),還有待在機(jī)器學(xué)習(xí)、相關(guān)度分析等方面進(jìn)行逐漸的研究和改進(jìn)。在知識(shí)經(jīng)濟(jì)時(shí)代,人們?cè)絹?lái)越需要個(gè)性化信息的提供,作為網(wǎng)絡(luò)信息檢索的前沿技術(shù),智能代理技術(shù)將受廣大用戶(hù)的青睞,相信它的發(fā)展前景是非常廣闊的。
(來(lái)稿時(shí)間:2002年3月)
參考文獻(xiàn):
1.張惠文.網(wǎng)絡(luò)信息檢索技術(shù)的智能化趨勢(shì).情報(bào)理論與實(shí)踐,2001(1)(6)447-450
2.黃NFEE2.網(wǎng)絡(luò)搜索引擎與智能代理的對(duì)比研究.圖書(shū)情報(bào)工作,2001(10)53-57
3.馬靜.網(wǎng)上信息資源及其檢索技術(shù)智能化研究.圖書(shū)情報(bào)工作,2001(1)56-58
4.楊濤.中文智能搜索引擎淺析.圖書(shū)情報(bào)工作,2002(1)62-65
On the Network Search Engine and Intelligent Acting Technology
Liu Yan (Fushun City Library)
〔Abstract〕 This paper discusses the principles of the netw
ork search engine and intelligent acting technology and their important role.
〔作者簡(jiǎn)介〕 劉艷,館員,畢業(yè)于北京大學(xué)信息管理系,現(xiàn)任撫順市圖書(shū)館副館長(zhǎng)。