seo基礎(chǔ)篇:搜索引擎的蜘蛛是怎么樣抓取網(wǎng)頁的

2019-09-26 09:16 優(yōu)化推廣

　日常SEO優(yōu)化里，我們都會去關(guān)注收錄，而收錄的前提則是搜索引擎蜘蛛對你站點進行抓取，那么這里的蜘蛛是什么？難道搜索引擎的蜘蛛真的會像蜘蛛一樣嗎？

　　學過SEO的同學們都知道蜘蛛有兩種爬行方式：深度和廣度，又叫橫向抓取和縱向抓取，那么這個蜘蛛到底是怎么運作的呢？是爬完第一個頁面再去爬第二個頁面嗎？那第二個頁面又是從哪里找到的呢？

　　如果真的想要了解這方面的東西，就必須要了解程序，做為一個合格的SEO，程序設(shè)計是你必修的一門課程。即然涉及到程序，必然少不了數(shù)據(jù)庫，編程語言。以PHP為例，其中有一個函數(shù)叫作file_get_contents，這個函數(shù)的作用就是獲取URL里面的內(nèi)容，并以文本的方式返回結(jié)果，當然也可以用CURL。

　　然后，就可以利用程序里面的正則表達式，對A鏈接的數(shù)據(jù)進行提取、合并、去重等復雜操作，并將數(shù)據(jù)存入數(shù)據(jù)庫。數(shù)據(jù)庫有很多，比如：索引庫、收錄庫等等。為什么索引和收錄數(shù)量不一致？當然是因為不在同一個庫里嘛。

　　當抓取數(shù)據(jù)完成上面操作后，自然也就得到了數(shù)據(jù)庫里面不存在的鏈接，接著，程序會發(fā)出另一個指令，抓取這些庫里面沒存的URL。直致頁面全部完成抓取。當然更有可能的是抓取完成后，不再抓取。

　　在百度站長平臺會有抓取頻次及抓取時間的數(shù)據(jù)，你應該可以見到，每個蜘蛛抓取是毫無規(guī)律可言，但你通過日常觀察可以發(fā)現(xiàn)，頁面深度越深，被抓取到的概率越低。原因很簡單，蜘蛛并不會一直圍繞著你的站點爬到所有網(wǎng)站，而是有間隔性的、隨機性的來抓取。

　　也就是說，搜索引擎的蜘蛛抓取是有隨機性和時效性的，而我們SEO的目的是盡快的完成頁面及內(nèi)容的呈現(xiàn)，尤其是我們認為最有價值的內(nèi)容。所以就會演變成，如何在有限數(shù)量的蜘蛛抓取中展現(xiàn)更多的內(nèi)容呢？當然就是盡可能的降低頁面深度，增加頁面寬度，在《SEO實戰(zhàn)密碼》中有關(guān)于頁面深度方面的優(yōu)化方法，所以在此不再做過多的描述。有需要的可以搜索一下電子書，當然更建議人手一本。

　　蜘蛛雖然有隨機性和時效性，但也還是有許多規(guī)律可尋，比如流量對于蜘蛛有非常直接的正向作用，所以日常的操作當中你也會發(fā)現(xiàn)，一旦有流量進入到站點，蜘蛛也會隨著增多，這種蜘蛛表現(xiàn)尤其是在一些違規(guī)操作里面表現(xiàn)的更為明顯，比如百度刷排名！

　　除了時效性和隨機性以外，蜘蛛還有一個特性就是喜新厭舊，一個時刻變化的站點，是非常受蜘蛛喜愛的，哪怕他沒有任何的意義！當然，這也算是搜索引擎的一個BUG，只是這種BUG沒辦法修復，或者說很難修復。所以就有許多人利用BUG開發(fā)一系列的軟件，比如蜘蛛池，蜘蛛池頁面每次打開都內(nèi)容不一樣，利用文字段落隨機組合進行內(nèi)容構(gòu)造，對蜘蛛進行欺騙。然后再輔以大量的域名（一般幾百個）形成一個新內(nèi)容庫，圈住蜘蛛。當然圈住蜘蛛肯定不是目的，圈蜘蛛的目的是為了放蜘蛛，那怎么來放呢？成幾百萬、幾千萬的頁面，每個頁面嵌入一個外連，蜘蛛自然隨著外鏈就可以引導到你想讓他去的站點。這樣就達到了頁面的高頻蜘蛛訪問。

　　當一個頁面蜘蛛去的多了，收錄自然不再會是問題。那蜘蛛對收錄有正向幫助，對于排名有幫助嗎？通過我們的研究發(fā)展，百度蜘蛛、百度排名、自然流量這三者的關(guān)系非常的微秒，每一項的變動都會涉及到其它兩項的變動。只不過有的變化大，有的變化小。

　　所以SEOer請一定重視蜘蛛方面的研究，這是你成為合格SEO的必經(jīng)之路！努力吧，騷年！

免费国产欧美国日产_少妇AV一区二区三区无码_蜜桃精品av无码喷奶水小说_jk18禁网站视频_精产国品一二三级产品区别_被夫の上司に犯波多野结衣_78m成人手机免费看_最爽最刺激18禁视频_偷偷色噜狠狠狠狠的777米奇

幫助

seo基礎(chǔ)篇:搜索引擎的蜘蛛是怎么樣抓取網(wǎng)頁的

相關(guān)推薦

產(chǎn)品

服務

幫助

關(guān)于