搜索引擎工作的(de)原理(lǐ)_巧易網絡【官網】

搜索引擎工作的(de)原理(lǐ)大緻可(kě)以分為(wèi)三步

1、抓取信息，搜索引擎蜘蛛通過跟蹤鏈接發現和(hé)訪問頁面，讀取頁面代碼，存入到數據庫

2、預處理(lǐ)，索引程序對抓取來的(de)頁面進行整理(lǐ)，提取、分析、排序的(de)處理(lǐ)，以備有搜索需求的(de)時候進行調用。

3、排名，用戶搜索之後，排名程序會調用處理(lǐ)好的(de)數據，進行計算相關性，展現成搜索結果。

一(yī)、抓取信息

1、蜘蛛：搜索引擎用來抓取和(hé)訪問頁面的(de)程序我們稱之為(wèi)蜘蛛（spider）。

1）會先訪問robots.txt文件，是一(yī)種協議，讓蜘蛛不要抓取的(de)鏈接。

2）百度蜘蛛（baiduspider）、360蜘蛛（360spider）、搜狗蜘蛛（sogou+web+robot）

二、跟蹤鏈接

為(wèi)了抓取網上盡量多的(de)頁面，蜘蛛會跟蹤網頁面上的(de)鏈接，從一(yī)個頁面的(de)鏈接抓取到另外一(yī)個鏈接上面。這也是蜘蛛名稱的(de)由來，像蜘蛛爬行蜘蛛網一(yī)樣。

這裏可(kě)以分為(wèi)兩種：

1、深度鏈接：一(yī)直向前爬去(qù)、爬去(qù)到最後沒有的(de)時候，再回到第一(yī)個鏈接開始爬行第二個。

2、廣度鏈接：一(yī)層一(yī)層的(de)爬去(qù)。

（Ps做(zuò)圖講解）

所以，我們為(wèi)了自(zì)己網站更好的(de)被收錄，盡量做(zuò)好深度鏈接和(hé)廣度鏈接的(de)處理(lǐ)。不要讓鏈接斷掉。也要采用不同的(de)方法來吸引蜘蛛來抓取。

1、網頁的(de)質量與權重。質量越高(gāo)的(de)網站，爬行的(de)深度也越深，內(nèi)頁收錄的(de)更好

2、頁面的(de)更新。需要不斷的(de)給網站增加新的(de)頁面，給蜘蛛養成一(yī)個習慣，如(rú)果說來你網站抓取的(de)時候，內(nèi)容一(yī)直是一(yī)樣的(de)。那麽，以後就會分析出來，沒有來的(de)必要了。就不會有新的(de)收錄。（和(hé)給蜘蛛網投食一(yī)個道(dào)理(lǐ)）

3、導入鏈接。從别的(de)有蜘蛛抓取的(de)網頁上面導入一(yī)個鏈接到你想要被抓去(qù)的(de)頁面上，有利于抓取。

4、與首頁的(de)距離(lí)，距離(lí)首頁越近，抓取的(de)越頻繁，收錄的(de)也越好。

5、提交地(dì)址，可(kě)以通過sitemap和(hé)提交，讓蜘蛛抓取的(de)速度比正常抓取稍微快一(yī)點。

6、避免重複內(nèi)容，重複的(de)是沒有必要的(de)。

三、預處理(lǐ)

網上信息量巨大，不可(kě)能在你查詢的(de)時候實時的(de)給出來符合你要求的(de)信息。所以會提前處理(lǐ)好信息以作備用。這也就是為(wèi)什麽在站長(cháng)裏面顯示有收錄，但是網頁搜索反饋的(de)時候是沒有的(de)原因。

1、提取文字

搜索引擎會從代碼裏面提取出來文字、标簽、alt屬性文字、title文字、錨文字（加了鏈接的(de)文字），其他沒有的(de)一(yī)些程序會在提取的(de)過程中去(qù)掉。

2、分詞，因為(wèi)英文單詞都是有空格的(de)，中文分割沒有那麽明顯。程序會根據自(zì)己的(de)詞庫和(hé)網民搜索去(qù)區分，如(rú)果說，你的(de)關鍵詞有可(kě)能會導緻百度分詞不當的(de)話，我們可(kě)以給這個關鍵詞加粗，表明是一(yī)個詞。

3、去(qù)一(yī)些沒有必要的(de)動詞助詞。比如(rú)：啊，的(de)，得之類對整個頁面沒有實際意義的(de)詞，蜘蛛會給去(qù)除掉，提取有用信息。

4、去(qù)重複信息。如(rú)果說網頁上有兩篇一(yī)樣的(de)文章(zhāng)，一(yī)樣的(de)頁面。所以，我們搜索某一(yī)個東西的(de)時候，在百度上不會看見兩篇一(yī)模一(yī)樣的(de)信息的(de)網頁。

5、索引排序

轉載請注明本文來源地(dì)址：www.qiaoyiwangluo.com

問題相關

搜索引擎工作的(de)原理(lǐ)

最新資訊

最熱新聞

相關資訊