新聞發(fā)布
管理系統(tǒng)搜索引擎從輸入關(guān)鍵字,到列出搜索結(jié)果的過程,往往只需要一秒不到。那么百度是怎么做到在這么短的時(shí)間內(nèi)將相關(guān)的網(wǎng)站展示給用戶看的呢?
其實(shí)搜索引擎為用戶展示的每一條搜索結(jié)果,都是對(duì)應(yīng)著互聯(lián)網(wǎng)上一個(gè)真實(shí)存在的頁面。搜索引擎在收集每一條結(jié)果都需要經(jīng)過四個(gè)過程:抓取-過濾-建立索引-輸出結(jié)果。
第一步、抓取
百度蜘蛛或baiduspider就是百度的一個(gè)程序,他的工作就是搜集互聯(lián)網(wǎng)上,搜索引擎會(huì)通過復(fù)雜的計(jì)算,來決定對(duì)哪些網(wǎng)站進(jìn)行頁面抓取,以及抓取的頻率和內(nèi)容。而且搜索引擎在計(jì)算過程中會(huì)參考你網(wǎng)站的歷史表現(xiàn)記錄。比如更新時(shí)間,內(nèi)容質(zhì)量,是否有對(duì)用戶不友好的設(shè)置等。
當(dāng)你的網(wǎng)站產(chǎn)生新的頁面的時(shí)候,百度蜘蛛會(huì)通過互聯(lián)網(wǎng)上的鏈接指向進(jìn)行訪問和抓取,如果你沒有設(shè)置任何外部鏈接指向網(wǎng)站中的新增內(nèi)容,那么百度蜘蛛就不會(huì)及時(shí)的進(jìn)行抓取。對(duì)于已經(jīng)被抓取過的頁面內(nèi)容,搜索引擎會(huì)對(duì)抓取的頁面進(jìn)行記錄,并根據(jù)這些頁面對(duì)用戶的重要程度計(jì)算出不同頻率的抓取更新工作。
但是需要注意的是,有些抓取軟件為了達(dá)到某種目的而偽裝成各種蜘蛛對(duì)網(wǎng)站進(jìn)行抓取,如果你在網(wǎng)站日志中發(fā)現(xiàn)這種情況,要學(xué)會(huì)判斷蜘蛛的真?zhèn)蝸聿扇〈胧?,防止網(wǎng)站的正常運(yùn)行受到影響。
第二步、過濾
在百度抓取回來的頁面中,不是所有的頁面都是對(duì)用戶有用的,比如一些明顯欺騙用戶的頁面,死鏈接,空白頁,抄襲內(nèi)容等。這些頁面對(duì)于用戶來說都是沒有意義的,因此百度會(huì)自動(dòng)對(duì)這些內(nèi)容頁面進(jìn)行過濾,刪除那些低質(zhì)量的網(wǎng)頁,網(wǎng)百度收錄的頁面盡可能的是對(duì)用戶有效的。這樣才能保證百度給用戶展示的頁面都是優(yōu)質(zhì)的頁面。提升他自己的用戶體驗(yàn)。
第三步、建立索引
搜索引擎會(huì)對(duì)蜘蛛抓取回來的頁面內(nèi)容進(jìn)行逐一標(biāo)記和識(shí)別,將這些標(biāo)記進(jìn)行存儲(chǔ)為結(jié)構(gòu)化數(shù)據(jù),比如頁面的基本title信息,tag,discripition,keywords,網(wǎng)頁外鏈描述,抓取記錄等一系列內(nèi)容。以便在用戶搜索的時(shí)候提供匹配的內(nèi)容頁面。
第四步、輸出結(jié)果
當(dāng)用戶在搜索框輸入關(guān)鍵詞的時(shí)候,百度會(huì)對(duì)其進(jìn)行復(fù)雜的算法,并更具分析結(jié)果,在索引庫中尋找為匹配的一系列網(wǎng)頁。按照用戶的需求強(qiáng)弱和網(wǎng)頁的質(zhì)量來進(jìn)行打分,而終根據(jù)分?jǐn)?shù)進(jìn)行排列,來展現(xiàn)優(yōu)質(zhì)的內(nèi)容給用戶。