新聞發(fā)布
管理系統(tǒng)據(jù)統(tǒng)計(jì)表明,近似重復(fù)網(wǎng)頁(yè)的數(shù)量占總網(wǎng)頁(yè)數(shù)量的比例高達(dá)全部頁(yè)面的29%,而完全相同的頁(yè)面大約占全部頁(yè)面的22%,即互聯(lián)網(wǎng)頁(yè)面中有相當(dāng)大的比例的內(nèi)容是完全相同或者大體相近的重復(fù)網(wǎng)頁(yè)有多種類型,這些重復(fù)網(wǎng)頁(yè)有的是沒(méi)有一點(diǎn)兒改動(dòng)的副本,有的在內(nèi)容上稍做修改,比如同一文章的不同版本,一個(gè)新一點(diǎn),一個(gè)老一點(diǎn),有的則僅僅是網(wǎng)頁(yè)的格式不同(如HTML、Postscript)。內(nèi)容重復(fù)可以歸結(jié)為以下4種類型。
· 類型一:如果兩篇文檔內(nèi)容和布局格式上毫無(wú)差別,則這種重復(fù)可以叫做完全重復(fù)頁(yè)面。
· 類型二:如果兩篇文檔內(nèi)容相同,但是布局格式不同,則叫做內(nèi)容重復(fù)頁(yè)面。
· 類型三:如果兩篇文檔有部分重要的內(nèi)容相同,并且布局格式相同,則稱為布局重復(fù)頁(yè)面。
· 類型四:如果兩篇文檔有部分重要的內(nèi)容相同,但是布局格式不同,則稱為部分重復(fù)頁(yè)面。
所謂近似重復(fù)網(wǎng)頁(yè)發(fā)現(xiàn),就是通過(guò)技術(shù)手段快速全面發(fā)現(xiàn)這些重復(fù)信息的手段,如何快速準(zhǔn)確地發(fā)現(xiàn)這些內(nèi)容上相似的網(wǎng)頁(yè)已經(jīng)成為提高搜索引擎服務(wù)質(zhì)量的關(guān)鍵技術(shù)之一。
發(fā)現(xiàn)完全相同或者近似重復(fù)網(wǎng)頁(yè)對(duì)于搜索引擎有很多好處。
1. 首先,如果我們能夠找出這些重復(fù)網(wǎng)頁(yè)并從數(shù)據(jù)庫(kù)中去掉,就能夠節(jié)省一部分存儲(chǔ)空間,進(jìn)而可以利用這部分空間存放更多的有效網(wǎng)頁(yè)內(nèi)容,同時(shí)也提高了搜索 引擎的搜索質(zhì)量和用戶體驗(yàn)。
2. 其次,如果我們能夠通過(guò)對(duì)以往收集信息的分析,預(yù)先發(fā)現(xiàn)重復(fù)網(wǎng)頁(yè),在今后的 網(wǎng)頁(yè)收集過(guò)程中就可以避開(kāi)這些網(wǎng)頁(yè),從而提高網(wǎng)頁(yè)的收集速度。有研究表明重 復(fù)網(wǎng)頁(yè)隨著時(shí)間不發(fā)生太大變化,所以這種從重復(fù)頁(yè)面集合中選擇部分頁(yè)面進(jìn)行 索引是有效的。
3. 另外,如果某個(gè)網(wǎng)頁(yè)的鏡像度較高,往往是其內(nèi)容比較受歡迎的一種間接體現(xiàn)也就預(yù)示著該網(wǎng)頁(yè)相對(duì)重要,在收集網(wǎng)頁(yè)時(shí)應(yīng)賦予它較高的優(yōu)先級(jí),而當(dāng)搜索引擎系統(tǒng)在響應(yīng)用戶的檢索請(qǐng)求并對(duì)輸出結(jié)果排序時(shí),應(yīng)該賦予它較高的權(quán)值。
4. 從另外一個(gè)角度看,如果用戶點(diǎn)擊了一個(gè)死鏈接,那么可以將用戶引導(dǎo)到一個(gè)內(nèi)容相同頁(yè)面,這樣可以有效地增加用戶的檢索體驗(yàn)。因而近似重復(fù)網(wǎng)頁(yè)的及時(shí)發(fā)現(xiàn)有利于改善搜索引擎系統(tǒng)的服務(wù)質(zhì)量。
實(shí)際工作的搜索引擎往往是在爬蟲(chóng)階段進(jìn)行近似重復(fù)檢測(cè)的,下圖給出了近似重復(fù)檢測(cè)任務(wù)在搜索引擎中所處流程的說(shuō)明。當(dāng)爬蟲(chóng)新抓取到網(wǎng)頁(yè)時(shí),需要和已經(jīng)建立到索引內(nèi)的網(wǎng)頁(yè)進(jìn)行重復(fù)判斷,如果判斷是近似重復(fù)網(wǎng)頁(yè),則直接將其拋棄,如果發(fā)現(xiàn)是全新的內(nèi)容,則將其加入網(wǎng)頁(yè)索引中。