搜索引擎工作的(de)原理(lǐ)大緻可(kě)以分為(wèi)三步
1、抓取信息,搜索引擎蜘蛛通過跟蹤鏈接發現和(hé)訪問頁面,讀取頁面代碼,存入到數據庫
2、預處理(lǐ),索引程序對抓取來的(de)頁面進行整理(lǐ),提取、分析、排序的(de)處理(lǐ),以備有搜索需求的(de)時候進行調用。
3、排名,用戶搜索之後,排名程序會調用處理(lǐ)好的(de)數據,進行計算相關性,展現成搜索結果。
一(yī)、抓取信息
1、蜘蛛:搜索引擎用來抓取和(hé)訪問頁面的(de)程序我們稱之為(wèi)蜘蛛(spider)。
1)會先訪問robots.txt文件,是一(yī)種協議,讓蜘蛛不要抓取的(de)鏈接。
2)百度蜘蛛(baiduspider)、360蜘蛛(360spider)、搜狗蜘蛛(sogou+web+robot)
二、跟蹤鏈接
為(wèi)了抓取網上盡量多的(de)頁面,蜘蛛會跟蹤網頁面上的(de)鏈接,從一(yī)個頁面的(de)鏈接抓取到另外一(yī)個鏈接上面。這也是蜘蛛名稱的(de)由來,像蜘蛛爬行蜘蛛網一(yī)樣。
這裏可(kě)以分為(wèi)兩種:
1、深度鏈接:一(yī)直向前爬去(qù)、爬去(qù)到最後沒有的(de)時候,再回到第一(yī)個鏈接開始爬行第二個。
2、廣度鏈接:一(yī)層一(yī)層的(de)爬去(qù)。
(Ps做(zuò)圖講解)
所以 ,我們為(wèi)了自(zì)己網站更好的(de)被收錄,盡量做(zuò)好深度鏈接和(hé)廣度鏈接的(de)處理(lǐ)。不要讓鏈接斷掉。也要采用不同的(de)方法來吸引蜘蛛來抓取。
1、網頁的(de)質量與權重。質量越高(gāo)的(de)網站,爬行的(de)深度也越深,內(nèi)頁收錄的(de)更好
2、頁面的(de)更新。需要不斷的(de)給網站增加新的(de)頁面,給蜘蛛養成一(yī)個習慣,如(rú)果說來你網站抓取的(de)時候,內(nèi)容一(yī)直是一(yī)樣的(de)。那麽,以後就會分析出來,沒有來的(de)必要了。就不會有新的(de)收錄。(和(hé)給蜘蛛網投食一(yī)個道(dào)理(lǐ))
3、導入鏈接。從别的(de)有蜘蛛抓取的(de)網頁上面導入一(yī)個鏈接到你想要被抓去(qù)的(de)頁面上,有利于抓取。
4、與首頁的(de)距離(lí),距離(lí)首頁越近,抓取的(de)越頻繁,收錄的(de)也越好。
5、提交地(dì)址,可(kě)以通過sitemap和(hé)提交,讓蜘蛛抓取的(de)速度比正常抓取稍微快一(yī)點。
6、避免重複內(nèi)容,重複的(de)是沒有必要的(de)。
三、預處理(lǐ)
網上信息量巨大,不可(kě)能在你查詢的(de)時候實時的(de)給出來符合你要求的(de)信息。所以會提前處理(lǐ)好信息以作備用。這也就是為(wèi)什麽在站長(cháng)裏面顯示有收錄,但是網頁搜索反饋的(de)時候是沒有的(de)原因。
1、提取文字
搜索引擎會從代碼裏面提取出來文字、标簽、alt屬性文字、title文字、錨文字(加了鏈接的(de)文字),其他沒有的(de)一(yī)些程序會在提取的(de)過程中去(qù)掉。
2、分詞,因為(wèi)英文單詞都是有空格的(de),中文分割沒有那麽明顯。程序會根據自(zì)己的(de)詞庫和(hé)網民搜索去(qù)區分,如(rú)果說,你的(de)關鍵詞有可(kě)能會導緻百度分詞不當的(de)話,我們可(kě)以給這個關鍵詞加粗,表明是一(yī)個詞。
3、去(qù)一(yī)些沒有必要的(de)動詞助詞。比如(rú):啊,的(de),得之類對整個頁面沒有實際意義的(de)詞,蜘蛛會給去(qù)除掉,提取有用信息。
4、去(qù)重複信息。如(rú)果說網頁上有兩篇一(yī)樣的(de)文章(zhāng),一(yī)樣的(de)頁面。所以,我們搜索某一(yī)個東西的(de)時候,在百度上不會看見兩篇一(yī)模一(yī)樣的(de)信息的(de)網頁。
5、索引排序
轉載請注明本文來源地(dì)址:www.qiaoyiwangluo.com