以下內容是百茗網絡為您分析的:
一、抓取:其實在抓取前面還有一個過程沒有描述在內,那就是爬行,也就是搜索引擎程序發(fā)現(xiàn)新網址的過程,只是這個過程大多伴隨著抓取,除非你的這個URL上的內容沒有什么價值而被搜索引擎抓取程序直接跳過。搜索引擎爬行程序以數據表中已存在或新提交的鏈接順藤摸瓜式地進行爬行以不斷發(fā)現(xiàn)新的URL,抓取程序在分析并確定該URL的頁面內容有價值后,便將其整個頁面抓取下來放入到龐大的信息數據表中。
二、索引:在談這個過程前,我們首先要理清搜索引擎索引數據表與信息數據表之間的關系,其實搜索引擎底層的數據存儲本身就是一個關系數據庫,索引數據表和信息數據表是兩個獨立的表,只是索引數據表和信息數據表是一對多的關系,這樣或許更好理解。那么搜索引擎為什么需要索引數據表呢?我們不妨從信息量這個角度分析一下,就目前來看,搜索引擎的信息量在百億級,而用戶搜索某個關鍵字時響應速度在短短的2、3秒內,在這短短的2、3內不僅僅要完成數據的查詢,而且還要完成數據的排序。如果每次都要從這百億級的數據中查詢用戶請求并處理排序,不僅減慢響應速度,而且還浪費了大量的計算資源,對服務器的壓力也會更大。
三、排名:闡述這一原理,不得不說下搜索引擎爬行、抓取過程,影響關鍵詞排名的因素很多,北京建站最難理解的可能就是外鏈這一塊兒,因為在抓取網頁時,搜索引擎是捕捉不到他的導入鏈接的,其實搜索引擎在抓取一個頁面時,已經將該頁面的導出鏈接投票計算到了相應的頁面,并將這一有效投票寫入到了所指向的URL字段中,便于排名程序加以計算。影響排名的因素很多,排名計算的具體方式我們也無從得知,因此這些不在我們的討論之列。關于排名,大家可能還有一個問題,就是每個詞語的排名是事先排序好了,還是當用戶搜索時才進行排序,筆者給出的答案是后者,或許這一個現(xiàn)象可以揭秘筆者的答案:每一天甚至每一小時關鍵字排名都會出現(xiàn)波動。