中文字幕在线直播,成人免费图片免费观看,国内精品国语自产拍在线观看,国产欧美精品区一区二区三区

GooglePageRank排名新算法(二)
時(shí)間:2006年12月14日 內(nèi)容來(lái)源: 互諾科技 瀏覽量:0
做拋磚引玉之用。 

2-1. Google的主題性趨向 

2-1-1. 關(guān)于頁(yè)面級(jí)別(PageRank)及Google的舊算法出現(xiàn)問(wèn)題的原因  

頁(yè)面級(jí)別(PageRank)計(jì)算系統(tǒng)所遵循的思路是:通過(guò)一個(gè)經(jīng)由互聯(lián)網(wǎng)的“隨機(jī)運(yùn)動(dòng)”來(lái)告訴你哪些站點(diǎn)是最重要的。該系統(tǒng)模擬的是一個(gè)隨機(jī)沖浪者跟進(jìn)點(diǎn)擊某頁(yè)面上的隨機(jī)鏈接,至最深層頁(yè)面時(shí)按“返回”按鈕這一過(guò)程。頁(yè)面的等級(jí)越高,則隨機(jī)網(wǎng)絡(luò)沖浪者發(fā)現(xiàn)它的機(jī)率亦越高。 

這種思路其實(shí)相當(dāng)富有創(chuàng)意。一個(gè)網(wǎng)頁(yè)的外部鏈接越多,則對(duì)任意網(wǎng)絡(luò)沖浪者來(lái)說(shuō),發(fā)現(xiàn)它的機(jī)會(huì)也就越大。同時(shí),在頁(yè)面級(jí)別算法系統(tǒng)中,頁(yè)面越流行,則其導(dǎo)入鏈接就越能從鏈接中受益—這是由于任意網(wǎng)絡(luò)沖浪者發(fā)現(xiàn)這些鏈接的機(jī)會(huì)就越大。 

在特定領(lǐng)域的研究論文查詢方面,頁(yè)面級(jí)別系統(tǒng)幾乎無(wú)可挑剔。例如,如果用戶查詢關(guān)于素粒子物理學(xué)研究方面的論文(或網(wǎng)頁(yè))文獻(xiàn)集,則對(duì)于一個(gè)給定條件的查詢,頁(yè)面級(jí)別的算法可以很快告訴你,哪些論文才是與該特定查詢條件最相關(guān)及最重要的論文,其原因就在于這些論文較其它論文的引用次數(shù)要多。 

若互聯(lián)網(wǎng)上的資源具有同一主題性,那么這種工作可說(shuō)是盡善盡美了。但正如我們所知道的,互聯(lián)網(wǎng)上的資源涵蓋了上百萬(wàn)甚至更多的主題,而且在人們的實(shí)際生活中,查詢用戶所尋找的往往是一些具有特定主題的信息。所以雖然頁(yè)面級(jí)別系統(tǒng)考慮了所有鏈接,但卻忽視了鏈接頁(yè)面的主題性。 

Google已試圖將鏈接的文本內(nèi)容計(jì)入排名算法來(lái)克服這一局限性。但精明的搜索引擎營(yíng)銷商卻通過(guò)在網(wǎng)絡(luò)上到處建立充盈關(guān)鍵詞的鏈接來(lái)欺騙Google的排名算法。一種新的作坊式行業(yè)也隨著PageRank應(yīng)運(yùn)而生—即有償交換和交易一些來(lái)自較高“頁(yè)面級(jí)別”頁(yè)的鏈接。 

如果網(wǎng)站能夠從毫不相關(guān)的站點(diǎn)購(gòu)買或交易導(dǎo)入鏈接而使網(wǎng)站排名得到提升的話,那么頁(yè)面級(jí)別技術(shù)已然無(wú)法為絕大多數(shù)查詢條件提供高質(zhì)量的搜索結(jié)果了。我們有理由相信,當(dāng)Google這個(gè)世界最頂級(jí)的搜索引擎一旦發(fā)現(xiàn)其搜索結(jié)果的質(zhì)量開始惡化時(shí),它是不會(huì)坐視不管的。 

2-1-2. 新技術(shù)閃亮登場(chǎng):主題性頁(yè)面級(jí)別技術(shù)(Topic-Sensitive PageRank)  

2002年,斯坦福大學(xué)的一名博士生塔赫爾。哈維利瓦拉(Taher H. Haveliwala)發(fā)表了一篇非常有意思的論文,名為“Topic-Sensitive PageRank(主題性頁(yè)面級(jí)別計(jì)算系統(tǒng))”。而更加有趣的是,一年之后哈維利瓦拉成了Google的一份子。 

“主題性頁(yè)面級(jí)別計(jì)算系統(tǒng)”通過(guò)對(duì)隨機(jī)查詢用戶的隨機(jī)運(yùn)動(dòng)增加一個(gè)“偏差”來(lái)處理基本的頁(yè)面級(jí)別計(jì)算系統(tǒng)所存在的問(wèn)題。這個(gè)新的隨機(jī)查詢用戶具有明確的查詢目的,并更感興趣于跟進(jìn)那些具有某個(gè)特定主題的相關(guān)網(wǎng)頁(yè)上的相關(guān)鏈接。這是一個(gè)相對(duì)而言較為新穎的思路,它解決了搜索結(jié)果的質(zhì)量性方面的一系列關(guān)鍵性問(wèn)題。 

毫無(wú)疑問(wèn),哈維利瓦拉將成為搜索引擎業(yè)界中一個(gè)舉足輕重的角色。他已經(jīng)在搜索技術(shù)的其它領(lǐng)域方面進(jìn)行了一些實(shí)質(zhì)性的研究工作,包括如何更有效計(jì)算頁(yè)面級(jí)別方面的一些比較有趣的研究。 

在最初的研究論文中,哈維利瓦拉描述了他是如何利用斯坦福大學(xué)的網(wǎng)絡(luò)數(shù)據(jù)庫(kù),對(duì)應(yīng)于ODP(開放目錄)的16個(gè)頂級(jí)目錄的16個(gè)主題來(lái)計(jì)算“主題性”頁(yè)面級(jí)別得分。雖然該研究的主題和數(shù)據(jù)數(shù)量(8千萬(wàn)個(gè)網(wǎng)頁(yè))十分有限,但能夠看出這種新系統(tǒng)可改善搜索結(jié)果,且具備對(duì)查詢用戶感興趣于何種主題的理解能力。 

就在去年,當(dāng)我回過(guò)頭來(lái)再閱讀這篇論文時(shí),我注意到哈維利瓦拉所描述的這種系統(tǒng)對(duì)搜索引擎來(lái)說(shuō)還存在著兩個(gè)問(wèn)題。不過(guò)下面我們將會(huì)看到,這兩個(gè)問(wèn)題現(xiàn)在都能得到妥善解決了。 

第一個(gè)問(wèn)題是充分拓展主題的數(shù)量。要想改善搜索結(jié)果,16個(gè)主題自然是遠(yuǎn)遠(yuǎn)不夠的。但由于Google的頁(yè)面級(jí)別計(jì)算系統(tǒng)的代價(jià)非常之高,因而除非新系統(tǒng)能夠提供一些改進(jìn)的措施,否則Google不大可能實(shí)施這個(gè)新系統(tǒng)。但隨著這一領(lǐng)域在過(guò)去的一年中的深遠(yuǎn)發(fā)展,因而我相信現(xiàn)在在主題數(shù)量上已不是大問(wèn)題了。 

第二個(gè)問(wèn)題就是如何決定一個(gè)查詢條件可能對(duì)應(yīng)的主題–- 當(dāng)用戶輸入諸如“自行車”一類的查詢條件時(shí),這個(gè)用戶是想買自行車呢,還是想騎自行車旅游呢?下面我將為大家簡(jiǎn)單闡述一下Google可能會(huì)怎樣匹配一給定查詢條件以最恰當(dāng)?shù)闹黝},以及為什么一些查詢條件更容易受到影響的原因。 

2-1-3. 關(guān)于Applied Semantics公司及其專利技術(shù)CIRCA  

Applied Semantics網(wǎng)絡(luò)廣告軟件公司是互聯(lián)網(wǎng)廣告方面的專家,于2003年4月份被Google收購(gòu)。Google此舉旨在加強(qiáng)搜索和廣告功能。如今該公司的技術(shù)已對(duì)Google產(chǎn)生了深遠(yuǎn)的影響。例如在Google的Adwords關(guān)鍵詞廣告系統(tǒng)中,為PPC廣告客戶提供基于內(nèi)容的廣告就是采用了Applied Semantics的AdSense技術(shù)。 

事實(shí)上Google在這次收購(gòu)中獲利的還不止AdSense技術(shù),AdSense的后臺(tái)技術(shù)其實(shí)就是Applied Semantics公司所擁有的專利技術(shù)CIRCA。 

CIRCA技術(shù)所基于的是一個(gè)獨(dú)立語(yǔ)言并具有高度擴(kuò)展性的本體論,這個(gè)本體論中包含了上百萬(wàn)詞語(yǔ),詞語(yǔ)含義及這些詞語(yǔ)與其它自然語(yǔ)言中的詞語(yǔ)之間的概念性關(guān)系。由復(fù)雜的搜索技術(shù)所支持的本體論是對(duì)詞語(yǔ)的多樣性含義的概念性理解的基礎(chǔ),它能夠使計(jì)算機(jī)對(duì)信息進(jìn)行更加有效的管理和檢索,從而為搜索用戶更好的提供探索知識(shí)的機(jī)會(huì)。 

CIRCA技術(shù)的作用就在于它可以確定對(duì)特定詞語(yǔ)或短語(yǔ)的相關(guān)概念。該技術(shù)目前被用來(lái)從眾多內(nèi)容中為廣告客戶提供相關(guān)廣告服務(wù),亦可應(yīng)用于Google的關(guān)鍵詞詞根還原系統(tǒng)。 

尤其值得一提的是:CIRCA能夠計(jì)算“短語(yǔ)A”對(duì)“概念B”的相關(guān)程度。例如,如果用戶查詢“Colorado bicycle trips”,CIRCA能夠?qū)⑵渑c“Colorado”地域,“騎車”,“旅游”等主題概念性地聯(lián)系起來(lái)。這意味著它們能夠計(jì)算其數(shù)據(jù)庫(kù)中不同的概念與用戶查詢條件之間的“距離”。這一點(diǎn)十分重要。 

2-1-4. 二者的有機(jī)結(jié)合:主題性搜索引擎的實(shí)現(xiàn) 

現(xiàn)在我們對(duì)主題性頁(yè)面級(jí)別和CIRCA都有了一定的了解,那么接下來(lái)的問(wèn)題就是:這二者之間是如何有機(jī)聯(lián)系的?換言之,Google如何結(jié)合這些技術(shù)來(lái)產(chǎn)生一個(gè)更好的搜索引擎呢? 

首先,讓我們來(lái)設(shè)想一下:假如對(duì)于大量的(上百直至上千個(gè))主題或概念,Google已然解決了如何計(jì)算其主題性頁(yè)面級(jí)別的問(wèn)題。 

在Google過(guò)去所使用的頁(yè)面級(jí)別系統(tǒng)中,計(jì)算結(jié)果的精準(zhǔn)性是相當(dāng)重要的。但隨著主題性算法的發(fā)展,不久我們就可能看到,也許速度快而且效果良好的近似計(jì)算結(jié)果才是他們所需要的。從上述論文中我們不難看出這一點(diǎn)已然頗具可行性。 

現(xiàn)在,如果用戶再查詢的話,則查詢條件中的詞語(yǔ)將至少與CIRCA數(shù)據(jù)庫(kù)中若干主題緊密匹配。Google完全能夠基于用戶所使用的查詢條件及數(shù)據(jù)庫(kù)中所包含的主題之間的“距離”來(lái)提供“主題性頁(yè)面級(jí)別”得分,從而向用戶提供更好的搜索結(jié)果。查詢與主題的關(guān)系越密切,則主題性頁(yè)面級(jí)別得分效果越佳。 

由于一個(gè)給定的搜索查詢條件有可能與數(shù)據(jù)庫(kù)中的多個(gè)主題匹配,所以頁(yè)面級(jí)別計(jì)算中出現(xiàn)的任何小錯(cuò)誤都將由影響該查詢條件的多個(gè)主題性頁(yè)面級(jí)別得分平攤,因而只需近似的主題性頁(yè)面級(jí)別得分就足以提供高質(zhì)量的搜索結(jié)果了。 

當(dāng)數(shù)據(jù)庫(kù)中無(wú)任何主題與用戶的查詢條件匹配時(shí),則Google可使用原來(lái)的頁(yè)面級(jí)別系統(tǒng)。若與查詢條件匹配的主題太多,則仍使用新系統(tǒng)計(jì)算主題性頁(yè)面級(jí)別得分,盡管新算法可能會(huì)與原算法得出的分?jǐn)?shù)相似。如果匹配主題與查詢條件之間的相關(guān)度很低,則效果亦會(huì)大打折扣。 

2-1-5. 安然接受和理解算法的改變 

可能某些查詢條件返回的搜索結(jié)果有較大的變動(dòng)-–但原來(lái)在搜索結(jié)果中排名在前100位的網(wǎng)頁(yè)全都被刷下去的情形卻少之又少。 

有效數(shù)據(jù)所面臨的一個(gè)大問(wèn)題在于:對(duì)于發(fā)生搜索結(jié)果改變較大的報(bào)告呈上升趨勢(shì)。從這些“自述”數(shù)據(jù)之中我們可以看到Google的很多搜索結(jié)果發(fā)生了徹底的改變。而造成我們看到這種局面的原因恰好在于,這些“自述”數(shù)據(jù)中的絕大部分都是由那些排名被刷下來(lái)的網(wǎng)站提供的。 

我們并未從這些“自述”變化著手,而是采用了另外一種途徑,即從若干可用的網(wǎng)上資源中記錄下最近時(shí)間內(nèi)發(fā)生的搜索,然后觀察搜索結(jié)果中的變化。 

我們隨機(jī)(沒(méi)有任何成見地)研究了上百個(gè)人們?nèi)粘J褂玫恼鎸?shí)存在的查詢條件,并標(biāo)識(shí)出其中每個(gè)查詢條件的改變總數(shù),然后我們發(fā)現(xiàn)改變的程度在總體上仍保持著一貫的干凈局面。在實(shí)際生活中,這種根本性的改變只是發(fā)生的例外,把它當(dāng)成規(guī)則就大錯(cuò)特錯(cuò)了。 

2-1-6. 主題并非關(guān)鍵詞... 亦并非十全十美 

千萬(wàn)不要把“主題”和“關(guān)鍵詞”相混淆。主題代表的是一個(gè)綜合性題目,例如“計(jì)算處理”、“市場(chǎng)營(yíng)銷”等等。而特定的查詢條件(關(guān)鍵詞),如“筆記本電腦租賃”,“電子郵件營(yíng)銷”等,將與更多的綜合性主題聯(lián)系起來(lái)。 

但從Google目前所提供的一些搜索結(jié)果來(lái)看,不難發(fā)現(xiàn)其中的部分搜索結(jié)果所匹配的主題是錯(cuò)誤的。例如對(duì)”laptop rental”,用戶搜索“筆記本租賃”往往是想租賃一臺(tái)筆記本電腦,但在Google返回的搜索結(jié)果中,排在前面的卻是大學(xué)里面的筆記本租賃信息-- www.google.com/search?sourceid=navclient&q=laptop+rental。 

這是怎么回事呢?只要看看鏈接到這些網(wǎng)頁(yè)上的鏈接,就可以發(fā)現(xiàn)這些鏈接大都具有相似的主題性,如Computing,Housing(學(xué)生在校園里出租住處),等等。大家可以用其它詞語(yǔ)進(jìn)行查詢,然后分析排名靠前的那些頁(yè)面上的外部鏈接,就會(huì)更容易理解為什么“l(fā)aptop rentals”會(huì)有如此的搜索結(jié)果了。 

Google仍有可能提供不夠理想的搜索結(jié)果,當(dāng)然也有可能再次受到蒙騙,只是這種機(jī)率越來(lái)越小而已。同時(shí)我們相信Google會(huì)多花一些時(shí)間來(lái)修正這些問(wèn)題。 

2-1-7. 為什么只有部分搜索結(jié)果頁(yè)發(fā)生了根本的改變? 

我們不必理會(huì)那些對(duì)Google新算法的非議,只要再來(lái)看看真實(shí)的數(shù)據(jù),你就不難理解為什么有些查詢條件較其它查詢條件更易受到影響。 

我們以“Real Estate”為例,依照Scroogle.org的方法論,有77個(gè)原來(lái)排名在前100位的網(wǎng)頁(yè)排名降到了100名之后。而對(duì)于更為具體的查詢條件“Colorado Real Estate”,有24個(gè)排名在前100名的網(wǎng)站受到了影響。 

而在那些被刷下來(lái)的網(wǎng)頁(yè)中,我第一個(gè)看到的是一個(gè)標(biāo)題為“Southern California Real Estate”的頁(yè)面。有趣的是,倘若用“Southern California Real Estate”進(jìn)行更具體的查詢,你會(huì)發(fā)現(xiàn)它排名高踞第二位。換言之,這些網(wǎng)頁(yè)并不是受到了Google的處罰,而只是由于缺乏對(duì)查詢條件的相關(guān)主題性而使排名掉下來(lái)罷了。 

也有極少數(shù)競(jìng)爭(zhēng)性很強(qiáng)的查詢關(guān)鍵詞對(duì)搜索結(jié)果的排名沒(méi)有造成什么影響。這種現(xiàn)象已被用作對(duì)Google排名算法的各種猜測(cè)的正確性與否的一個(gè)依據(jù)。但我認(rèn)為對(duì)這種現(xiàn)象的解釋其實(shí)也很簡(jiǎn)單--以“search engine optimization”為例,在返回的搜索結(jié)果中,前30個(gè)網(wǎng)頁(yè)列表幾乎沒(méi)什么變化。如果對(duì)排在榜首的頁(yè)面進(jìn)行分析的話,就可以發(fā)現(xiàn)這些網(wǎng)頁(yè)上的外部鏈接都具有良好的相關(guān)性,這樣的網(wǎng)頁(yè)在一個(gè)主題性頁(yè)面級(jí)別的計(jì)算系統(tǒng)下也會(huì)做的很好。 

可能Google采用的新算法與我的猜測(cè)大相徑庭,不過(guò)目前為止我尚未發(fā)現(xiàn)比這更好的猜測(cè)。不過(guò)這些并不重要,我們只要清楚一點(diǎn):不管Google怎么改變它的算法,成功的秘訣其實(shí)相當(dāng)簡(jiǎn)單--勝出的往往是那些擁有大量?jī)?nèi)容和大量相關(guān)鏈接(包括導(dǎo)入鏈接和導(dǎo)出鏈接)的站點(diǎn)。而那些使用門頁(yè)(Doorway Page)和鏈接交換的網(wǎng)站就不會(huì)再這么好運(yùn)氣了。