新聞發(fā)布
管理系統(tǒng)搜索引擎工作原理一個SEO從業(yè)者應該了解的基礎課程,但是有人卻說搜索引擎工作原理對于新手來說是不容易理解的,因為工作原理太抽象,而且搜索引擎的變化無常,無論誰都不能真正認識搜索工作原理
我想說的是無論搜索引擎怎樣變化,大概的收錄原理是不會變的
1、找到網(wǎng)站的URL并下載頁面
2、判斷頁面質(zhì)量是否達到收錄標準收錄頁面,否則刪除
3、判斷收錄頁面是否更新,更新頁面快照
以上三條是搜索引擎收錄頁面基本的規(guī)律,無論百度還是谷歌都不會違背 那么我們就可以以以上三條作為依據(jù)詳細的解釋一下搜索引擎的工作原理
首先搜索引擎的組成
圖1
如圖1所示 搜索引擎可以分為基本的五大部分,既抓取網(wǎng)頁系統(tǒng),數(shù)據(jù)分析系統(tǒng),存儲數(shù)據(jù)系統(tǒng),緩存系統(tǒng),展示系統(tǒng)
1、抓取網(wǎng)頁系統(tǒng) 分為探測系統(tǒng)和下載系統(tǒng),探測系統(tǒng)就是我們平常說的蜘蛛,蜘蛛在互聯(lián)網(wǎng)上爬行時探測到一個網(wǎng)站的URL,就會把URL所指向的頁面利用下載系統(tǒng),下載到搜索引擎的服務器上,然后將頁面交給數(shù)據(jù)分析系統(tǒng)
2、數(shù)據(jù)分析系統(tǒng) 分為數(shù)據(jù)分析和數(shù)據(jù)處理兩個系統(tǒng),當數(shù)據(jù)分析系統(tǒng)從抓取網(wǎng)頁系統(tǒng)那獲取到被下載的頁面,首先進行數(shù)據(jù)分析去除不相關(guān)的文字或網(wǎng)站重復內(nèi)容,進行頁面文字的處理,然后對處理過后的頁面內(nèi)容進行判斷,是否達到收錄標準,達到交給存儲系統(tǒng),沒有達到刪除
3、存儲數(shù)據(jù)系統(tǒng) 將收錄的頁面進行保存,然后定時進行判斷存儲的頁面是否有更新
4、緩存系統(tǒng) 存儲搜索引擎認為高價值的內(nèi)容,當用戶搜索某個關(guān)鍵詞時經(jīng)??吹绞珍浟坑袔浊f,但是搜索引擎顯示的只有1000條,這也就是說只有1000條被放在了緩存系統(tǒng)上,用戶可以快速的查找到他們想要的內(nèi)容
5、展示系統(tǒng) 用戶搜索返回到顯示器上的信息
這是搜索引擎的系統(tǒng)的組成,那么一個頁面是如何被搜索引擎發(fā)現(xiàn)并收錄的呢???
圖2
圖2,蜘蛛在整個互聯(lián)網(wǎng)上爬行遇見你網(wǎng)站的一個URL,首先把URL提取出來根據(jù)網(wǎng)站權(quán)重和相關(guān)性插入到URL隊列中,然后是判斷你網(wǎng)站的這條URL是否能夠解析成功,如果能解析成功,蜘蛛會爬到你網(wǎng)站,這里需要說一下,蜘蛛并不是直接去分析你網(wǎng)頁的內(nèi)容,而是去尋找你網(wǎng)站robots文件,根據(jù)你網(wǎng)站的robots規(guī)則判斷是否抓取你這個頁面,如果robots文件不存在,則會返回一個404錯誤,但是搜索引擎已經(jīng)會繼續(xù)抓取你的網(wǎng)站內(nèi)容
搜索引擎抓取了網(wǎng)頁內(nèi)容之后會對網(wǎng)頁進行一個簡單的判斷是否達到了收錄標準,如果不符合則繼續(xù)把URL加入到URL 隊列中,如果符合收錄就會下載網(wǎng)頁內(nèi)容
當搜索引擎拿到下載網(wǎng)頁內(nèi)容的時候,會提取出頁面上的URL,繼續(xù)插入到URL隊列中,然后把頁面上的數(shù)據(jù),進行進一步分析,判斷網(wǎng)頁內(nèi)容是否達到收錄標準,如果達到收錄標準則把頁面存儲到硬盤中
當用戶搜索某個關(guān)鍵詞時,搜索引擎為了減少查詢時間,將一部分相關(guān)性比較高的內(nèi)容放到臨時緩存區(qū),大家都知道從計算機的緩存中讀取數(shù)據(jù),比在硬盤中讀取數(shù)據(jù)快很多 所以搜索引擎只將緩存中的一部分顯示給用戶 被存儲在硬盤中的頁面,搜索引擎會根據(jù)網(wǎng)站權(quán)重定時對其進判斷是否有更新,是否達到了放入緩存區(qū)的標準,如果搜索引擎在判斷是否有更新的同時發(fā)現(xiàn)網(wǎng)站頁面被刪除或網(wǎng)頁達不到被收錄的標準也會被刪除