欧美一级视-欧美一级视频高清片-欧美一级视频免费-欧美一级视频免费观看-午夜激情视频在线播放-午夜激情视频在线观看

百度搜索引擎抓取原理之抓取Spider建庫
  • 更新時間:2025-09-29 04:29:45
  • 網站優化
  • 發布時間:6年前
  • 3604

?????? 互聯網信息爆發式增長,如何有效的獲取并利用這些信息是搜索引擎工作中的首要環節。數據抓取系統作為整個搜索系統中的上游,主要負責互聯網信息的搜集、保存、更新環節,它像蜘蛛一樣在網絡間爬來爬去,因此通常會被叫做“spider”。例如我們常用的幾家通用搜索引擎蜘蛛被稱為:Baiduspdier、Googlebot、Sogou Web Spider等。
??????Spider抓取系統是搜索引擎數據來源的重要保證,如果把web理解為一個有向圖,那么spider的工作過程可以認為是對這個有向圖的遍歷。從一些重要的種子 URL開始,通過頁面上的超鏈接關系,不斷的發現新URL并抓取,盡最大可能抓取到更多的有價值網頁。對于類似百度這樣的大型spider系統,因為每時 每刻都存在網頁被修改、刪除或出現新的超鏈接的可能,因此,還要對spider過去抓取過的頁面保持更新,維護一個URL庫和頁面庫。

??????下圖為spider抓取系統的基本框架圖,其中包括鏈接存儲系統、鏈接選取系統、dns解析服務系統、抓取調度系統、網頁分析系統、鏈接提取系統、鏈接分析系統、網頁存儲系統。Baiduspider即是通過這種系統的通力合作完成對互聯網頁面的抓取工作。

1.jpg

Baiduspider 主要抓取策略類型
??????上圖看似簡單,但其實Baiduspider在抓取過程中面對的是一個超級復雜的網絡環境,為了使系統可以抓取到盡可能多的有價值資源并保持系統及實際環境中頁面的一致性同時不給網站體驗造成壓力,會設計多種復雜的抓取策略。以下做簡單介紹:
1、抓取友好性
??????互聯網資源龐大的數量級,這就要求抓取系統盡可能的高效利用帶寬,在有限的硬件和帶寬資源下盡可能多的抓取到有價值資源。這就造成了另一個問題,耗費被抓網站的帶寬造成訪問壓力,如果程度過大將直接影響被抓網站的正常用戶訪問行為。因此,在抓取過程中就要進行一定的抓取壓力控制,達到既不影響網站的正常用戶訪問又能盡量多的抓取到有價值資源的目的。
??????通常情況下,最基本的是基于ip的壓力控制。這是因為如果基于域名,可能存在一個域名對多個ip(很多大網站)或多個域名對應同一個ip(小網站共享ip)的問題。實際中,往往根據ip及域名的多種條件進行壓力調配控制。同時,站長平臺也推出了壓力反饋工具,站長可以人工調配對自己網站的抓取壓力,這時百度spider將優先按照站長的要求進行抓取壓力控制。
??????對同一個站點的抓取速度控制一般分為兩類:其一,一段時間內的抓取頻率;其二,一段時間內的抓取流量。同一站點不同的時間抓取速度也會不同,例如夜深人靜月黑風高時候抓取的可能就會快一些,也視具體站點類型而定,主要思想是錯開正常用戶訪問高峰,不斷的調整。對于不同站點,也需要不同的抓取速度。
2、常用抓取返回碼示意
??????簡單介紹幾種百度支持的返回碼:
??????1、最常見的404代表“NOT FOUND”,認為網頁已經失效,通常將在庫中刪除,同時短期內如果spider再次發現這條url也不會抓取;
??????2、503代表“Service Unavailable”,認為網頁臨時不可訪問,通常網站臨時關閉,帶寬有限等會產生這種情況。對于網頁返回503狀態碼,百度spider不會把這條url直接刪除,同時短期內將會反復訪問幾次,如果網頁已恢復,則正常抓取;如果繼續返回503,那么這條url仍會被認為是失效鏈接,從庫中刪除。
??????3、403代表“Forbidden”,認為網頁目前禁止訪問。如果是新url,spider暫時不抓取,短期內同樣會反復訪問幾次;如果是已收錄url,不會直接刪除,短期內同樣反復訪問幾次。如果網頁正常訪問,則正常抓取;如果仍然禁止訪問,那么這條url也會被認為是失效鏈接,從庫中刪除。
??????4、301代表是“Moved Permanently”,認為網頁重定向至新url。當遇到站點遷移、域名更換、站點改版的情況時,我們推薦使用301返回碼,同時使用站長平臺網站改版工具,以減少改版對網站流量造成的損失。
3、多種url重定向的識別
??????互聯網中一部分網頁因為各種各樣的原因存在url重定向狀態,為了對這部分資源正常抓取,就要求spider對url重定向進行識別判斷,同時防止作弊行為。重定向可分為三類:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical標簽,在效果上可以認為也是一種間接的重定向。
4、抓取優先級調配
??????由于互聯網資源規模的巨大以及迅速的變化,對于搜索引擎來說全部抓取到并合理的更新保持一致性幾乎是不可能的事情,因此這就要求抓取系統設計一套合理的抓取優先級調配策略。主要包括:深度優先遍歷策略、寬度優先遍歷策略、pr優先策略、反鏈策略、社會化分享指導策略等等。每個策略各有優劣,在實際情況中往往是多種策略結合使用以達到最優的抓取效果。
5、重復url的過濾
??????spider在抓取過程中需要判斷一個頁面是否已經抓取過了,如果還沒有抓取再進行抓取網頁的行為并放在已抓取網址集合中。判斷是否已經抓取其中涉及到最核心的是快速查找并對比,同時涉及到url歸一化識別,例如一個url中包含大量無效參數而實際是同一個頁面,這將視為同一個url來對待。
6、暗網數據的獲取
??????互聯網中存在著大量的搜索引擎暫時無法抓取到的數據,被稱為暗網數據。一方面,很多網站的大量數據是存在于網絡數據庫中,spider難以采用抓取網頁的方式獲得完整內容;另一方面,由于網絡環境、網站本身不符合規范、孤島等等問題,也會造成搜索引擎無法抓取。目前來說,對于暗網數據的獲取主要思路仍然是通過開放平臺采用數據提交的方式來解決,例如“百度站長平臺”“百度開放平臺”等等。
7、抓取反作弊
??????spider在抓取過程中往往會遇到所謂抓取黑洞或者面臨大量低質量頁面的困擾,這就要求抓取系統中同樣需要設計一套完善的抓取反作弊系統。例如分析url特征、分析頁面大小及內容、分析站點規模對應抓取規模等等。
Baiduspider抓取過程中涉及的網絡協議
??????剛才提到百度搜索引擎會設計復雜的抓取策略,其實搜索引擎與資源提供者之間存在相互依賴的關系,其中搜索引擎需要站長為其提供資源,否則搜索引擎就無法滿足用戶檢索需求;而站長需要通過搜索引擎將自己的 內容推廣出去獲取更多的受眾。spider抓取系統直接涉及互聯網資源提供者的利益,為了使搜素引擎與站長能夠達到雙贏,在抓取過程中雙方必須遵守一定的 規范,以便于雙方的數據處理及對接。這種過程中遵守的規范也就是日常中我們所說的一些網絡協議。
以下簡單列舉:
??????http協議:超文本傳輸協議,是互聯網上應用最為廣泛的一種網絡協議,客戶端和服務器端請求和應答的標準。客戶端一般情況是指終端用戶,服務器端即指網 站。終端用戶通過瀏覽器、蜘蛛等向服務器指定端口發送http請求。發送http請求會返回對應的httpheader信息,可以看到包括是否成功、服務 器類型、網頁最近更新時間等內容。
??????https協議:實際是加密版http,一種更加安全的數據傳輸協議。
??????UA屬性:UA即user-agent,是http協議中的一個屬性,代表了終端的身份,向服務器端表明我是誰來干嘛,進而服務器端可以根據不同的身份來做出不同的反饋結果。
??????robots協議:robots.txt是搜索引擎訪問一個網站時要訪問的第一個文件,用以來確定哪些是被允許抓取的哪些是被禁止抓取的。robots.txt必須放在網站根目錄下,且文件名要小寫。詳細的robots.txt寫法可參考 http://www.robotstxt.org 。百度嚴格按照robots協議執行,另外,同樣支持網頁內容中添加的名為robots的meta標 簽,index、follow、nofollow等指令。
Baiduspider抓取頻次原則及調整方法
??????Baiduspider根據上述網站設置的協議對站點頁面進行抓取,但是不可能做到對所有站點一視同仁,會綜合考慮站點實際情況確定一個抓取配額,每天定量抓取站點內容,即我們常說的抓取頻次。那么百度搜索引擎是根據什么指標來確定對一個網站的抓取頻次的呢,主要指標有四個:
??????1、網站更新頻率:更新快多來,更新慢少來,直接影響Baiduspider的來訪頻率
??????2、網站更新質量:更新頻率提高了,僅僅是吸引了Baiduspier的注意,Baiduspider對質量是有嚴格要求的,如果網站每天更新出的大量內容都被Baiduspider判定為低質頁面,依然沒有意義。
??????3、連通度:網站應該安全穩定、對Baiduspider保持暢通,經常給Baiduspider吃閉門羹可不是好事情
??????4、站點評價:百度搜索引擎對每個站點都會有一個評價,且這個評價會根據站點情況不斷變化,是百度搜索引擎對站點的一個基礎打分(絕非外界所說的百度權重),是百度內部一個非常機密的數據。站點評級從不獨立使用,會配合其它因子和閾值一起共同影響對網站的抓取和排序。
??????抓取頻次間接決定著網站有多少頁面有可能被建庫收錄,如此重要的數值如果不符合站長預期該如何調整呢?百度站長平臺提供了抓取頻次工具,并已完成多次升級。該工具除了提供抓取統計數據外,還提供“頻次調整”功能,站長根據實際情況向百度站長平臺提出希望Baiduspider增加來訪或減少來訪的請求,工具會根據站長的意愿和實際情況進行調整。
造成Baiduspider抓取異常的原因
??????有一些網頁,內容優質,用戶也可以正常訪問,但是Baiduspider卻無法正常訪問并抓取,造成搜索結果覆蓋率缺失,對百度搜索引擎對站點都是一種損失,百度把這種情況叫“抓取異常”。對于大量內容無法正常抓取的網站,百度搜索引擎會認為網站存在用戶體驗上的缺陷,并降低對網站的評價,在抓取、索引、排序上都會受到一定程度的負面影響,最終影響到網站從百度獲取的流量。
常見的抓取異常原因:
1、服務器連接異常
??????服務器連接異常會有兩種情況:一種是站點不穩定,Baiduspider嘗試連接您網站的服務器時出現暫時無法連接的情況;一種是Baiduspider一直無法連接上您網站的服務器。
??????造成服務器連接異常的原因通常是您的網站服務器過大,超負荷運轉。也有可能是您的網站運行不正常,請檢查網站的web服務器(如apache、iis)是否安裝且正常運行,并使用瀏覽器檢查主要頁面能否正常訪問。您的網站和主機還可能阻止了Baiduspider的訪問,您需要檢查網站和主機的防火墻。
2、網絡運營商異常

??????網絡運營商分電信和聯通兩種,Baiduspider通過電信或網通無法訪問您的網站。如果出現這種情況,您需要與網絡服務運營商進行聯系,或者購買擁有雙線服務的空間或者購買cdn服務。
3、DNS異常

??????當Baiduspider無法解析您網站的IP時,會出現DNS異常。可能是您的網站IP地址錯誤,或者域名服務商把Baiduspider封禁。請使用WHOIS或者host查詢自己網站IP地址是否正確且可解析,如果不正確或無法解析,請與域名注冊商聯系,更新您的IP地址。
4、IP封禁

??????IP封禁為:限制網絡的出口IP地址,禁止該IP段的使用者進行內容訪問,在這里特指封禁了BaiduspiderIP。當您的網站不希望Baiduspider訪問時,才需要該設置,如果您希望Baiduspider訪問您的網站,請檢查相關設置中是否誤添加了BaiduspiderIP。也有可能是您網站所在的空間服務商把百度IP進行了封禁,這時您需要聯系服務商更改設置。
5、UA封禁

??????UA即為用戶代理(User-Agent),服務器通過UA識別訪問者的身份。當網站針對指定UA的訪問,返回異常頁面(如403,500)或跳轉到其他頁面的情況,即為UA封禁。當您的網站不希望Baiduspider訪問時,才需要該設置,如果您希望Baiduspider訪問您的網站,useragent相關的設置中是否有Baiduspider UA,并及時修改。
6、死鏈

??????頁面已經無效,無法對用戶提供任何有價值信息的頁面就是死鏈接,包括協議死鏈和內容死鏈兩種形式:
??????協議死鏈:頁面的TCP協議狀態/HTTP協議狀態明確表示的死鏈,常見的如404、403、503狀態等。
??????內容死鏈:服務器返回狀態是正常的,但內容已經變更為不存在、已刪除或需要權限等與原內容無關的信息頁面。
??????對于死鏈,我們建議站點使用協議死鏈,并通過百度站長平臺--死鏈工具向百度提交,以便百度更快地發現死鏈,減少死鏈對用戶以及搜索引擎造成的負面影響。
7、異常跳轉

將網絡請求重新指向其他位置即為跳轉。異常跳轉指的是以下幾種情況:
??????當前該頁面為無效頁面(內容已刪除、死鏈等),直接跳轉到前一目錄或者首頁,百度建議站長將該無效頁面的入口超鏈接刪除掉
??????跳轉到出錯或者無效頁面
注意:對于長時間跳轉到其他域名的情況,如網站更換域名,百度建議使用301跳轉協議進行設置。
8、其他異常:
??????針對百度refer的異常:網頁針對來自百度的refer返回不同于正常內容的行為。
??????針對百度ua的異常:網頁對百度UA返回不同于頁面原內容的行為。
??????JS跳轉異常:網頁加載了百度無法識別的JS跳轉代碼,使得用戶通過搜索結果進入頁面后發生了跳轉的情況。
??????壓力過大引起的偶然封禁:百度會根據站點的規模、訪問量等信息,自動設定一個合理的抓取壓力。但是在異常情況下,如壓力控制失常時,服務器會根據自身負荷進行保護性的偶然封禁。這種情況下,請在返回碼中返回503(其含義是“Service Unavailable”),這樣Baiduspider會過段時間再來嘗試抓取這個鏈接,如果網站已空閑,則會被成功抓取。
新鏈接重要程度判斷
??????上面我們說了影響Baiduspider正常抓取的原因,下面就要說說Baiduspider的一些判斷原則了。在建庫環節前,Baiduspide會對頁面進行初步內容分析和鏈接分析,通過內容分析決定該網頁是否需要建索引庫,通過鏈接分析發現更多網頁,再對更多網頁進行抓取——分析——是否建庫&發現新鏈接的流程。理論上,Baiduspider會將新頁面上所有能“看到”的鏈接都抓取回來,那么面對眾多新鏈接,Baiduspider根據什么判斷哪個更重要呢?兩方面:
第一、對用戶的價值:
??????1、內容獨特,百度搜索引擎喜歡unique的內容
??????2、主體突出,切不要出現網頁主體內容不突出而被搜索引擎誤判為空短頁面不抓取
??????3、內容豐富
??????4、廣告適當
第二、鏈接重要程度:
??????1、目錄層級——淺層優先
??????2、鏈接在站內的受歡迎程度
百度優先建重要庫的原則
??????Baiduspider抓了多少頁面并不是最重要的,重要的是有多少頁面被建索引庫,即我們常說的“建庫”。眾所周知,搜索引擎的索引庫是分層級的,優質的網頁會被分配到重要索引庫,普通網頁會待在普通庫,再差一些的網頁會被分配到低級庫去當補充材料。目前60%的檢索需求只調用重要索引庫即可滿足,這也就解釋了為什么有些網站的收錄量超高流量卻一直不理想。
那么,哪些網頁可以進入優質索引庫呢。其實總的原則就是一個:對用戶的價值。包括卻不僅于:
??????1、有時效性且有價值的頁面:在這里,時效性和價值是并列關系,缺一不可。有些站點為了產生時效性內容頁面做了大量采集工作,產生了一堆無價值面頁,也是百度不愿看到的.
??????2、內容優質的專題頁面:專題頁面的內容不一定完全是原創的,即可以很好地把各方內容整合在一起,或者增加一些新鮮的內容,比如觀點和評論,給用戶更豐富全面的內容。
??????3、高價值原創內容頁面:百度把原創定義為花費一定成本、大量經驗積累提取后形成的文章。千萬不要再問我們偽原創是不是原創。
??????4、重要個人頁面:這里僅舉一個例子,科比在新浪微博開戶了,需要他不經常更新,但對于百度來說,它仍然是一個極重要的頁面。
哪些網頁無法建入索引庫
??????上述優質網頁進了索引庫,那其實互聯網上大部分網站根本沒有被百度收錄。并非是百度沒有發現他們,而是在建庫前的篩選環節被過濾掉了。那怎樣的網頁在最初環節就被過濾掉了呢:
??????1、 重復內容的網頁:互聯網上已有的內容,百度必然沒有必要再收錄。
??????2、 主體內容空短的網頁

我們專注高端建站,小程序開發、軟件系統定制開發、BUG修復、物聯網開發、各類API接口對接開發等。十余年開發經驗,每一個項目承諾做到滿意為止,多一次對比,一定讓您多一份收獲!

本文章出于推來客官網,轉載請表明原文地址:https://www.tlkjt.com/cdseo/457.html
推薦文章

在線客服

掃碼聯系客服

3985758

回到頂部

国产麻豆精品视频| 久久精品免视看国产明星 | 国产网站在线| 亚洲天堂一区二区三区四区| 天堂网中文在线| 99久久精品国产高清一区二区| 国产伦久视频免费观看视频| 国产成人欧美一区二区三区的| 四虎影视精品永久免费网站| 亚洲精品中文字幕久久久久久| 国产成人欧美一区二区三区的| 日日爽天天| 中文字幕一区二区三区 精品| 国产亚洲免费观看| 九九九在线视频| 韩国三级视频网站| 国产原创中文字幕| 精品在线视频播放| 成人影院久久久久久影院| 免费毛片基地| 欧美激情在线精品video| 一级片免费在线观看视频| 黄视频网站在线看| 久久99青青久久99久久| 欧美电影免费看大全| 色综合久久天天综合绕观看| 久久99中文字幕| 精品国产香蕉伊思人在线又爽又黄| 日本在线不卡视频| 999精品影视在线观看| 国产成人精品一区二区视频| 精品在线视频播放| 久草免费在线观看| 九九国产| 成人a大片在线观看| 国产福利免费观看| 精品国产香蕉在线播出| 国产韩国精品一区二区三区| 日本在线播放一区| 久久精品道一区二区三区| 九九久久国产精品大片| 欧美激情一区二区三区视频高清| a级黄色毛片免费播放视频| 久久国产影院| 国产a免费观看| 色综合久久天天综线观看| 美国一区二区三区| 四虎影视久久久| 高清一级做a爱过程不卡视频| 亚洲 国产精品 日韩| 香蕉视频一级| 毛片高清| 香蕉视频一级| 韩国三级视频网站| 欧美国产日韩久久久| 日本伦理黄色大片在线观看网站| 精品国产亚洲人成在线| 日韩专区亚洲综合久久| 成人免费观看男女羞羞视频| 四虎久久影院| 国产不卡在线观看| 日韩中文字幕一区| 成人a大片在线观看| 欧美激情一区二区三区在线| 日日夜夜婷婷| a级精品九九九大片免费看| 深夜做爰性大片中文| 高清一级毛片一本到免费观看| 久久国产影院| 国产激情视频在线观看| 免费一级生活片| 欧美a级片视频| 日本特黄特色aaa大片免费| 一级女性全黄久久生活片| 久久福利影视| 日韩在线观看网站| 深夜做爰性大片中文| 日本特黄一级| 欧美另类videosbestsex久久| 欧美激情一区二区三区在线| 欧美激情一区二区三区在线播放 | 国产伦精品一区二区三区在线观看 | 国产精品1024在线永久免费 | 在线观看成人网| 成人高清视频在线观看| 一级毛片视频免费| 日本在线播放一区| 99久久精品国产麻豆| 亚洲www美色| 午夜欧美成人久久久久久| 国产91丝袜高跟系列| 久久99中文字幕久久| 青青久久精品国产免费看| 日韩一级精品视频在线观看| 日韩av成人| 国产亚洲精品aaa大片| 国产麻豆精品免费密入口| 成人免费福利片在线观看| 天天做人人爱夜夜爽2020| 免费的黄视频| 免费毛片基地| 国产一区二区精品久久91| 国产一区二区精品在线观看| 久久99中文字幕久久| 九九九在线视频| 日韩中文字幕一区二区不卡| 你懂的福利视频| 国产精品12| 91麻豆国产福利精品| 国产高清在线精品一区二区| 成人免费福利片在线观看| 美国一区二区三区| 欧美另类videosbestsex高清| 国产精品1024永久免费视频| 亚飞与亚基在线观看| 亚洲 欧美 成人日韩| 国产麻豆精品视频| 国产极品白嫩美女在线观看看| 天天色成人| 亚洲天堂免费| 国产伦精品一区三区视频| 欧美爱色| 国产视频网站在线观看| 免费国产在线观看不卡| 沈樵在线观看福利| 天天做人人爱夜夜爽2020| 国产成人精品综合久久久| 国产伦理精品| 亚洲天堂一区二区三区四区| 中文字幕一区二区三区精彩视频| 日本免费乱理伦片在线观看2018| 国产激情一区二区三区| 日韩免费片| 日韩在线观看视频黄| 成人高清视频在线观看| 国产国语在线播放视频| 亚洲天堂免费| 国产麻豆精品免费密入口| 亚洲天堂免费| 成人免费网站视频ww| 成人免费福利片在线观看| 国产视频在线免费观看| 91麻豆国产| 国产高清在线精品一区a| 欧美a级成人淫片免费看| 精品视频在线看| 欧美日本免费| 韩国三级视频网站| 可以免费看毛片的网站| 欧美激情一区二区三区视频 | 黄色短视屏| 天天色色网| 久久精品成人一区二区三区| 欧美一级视频高清片| 国产a毛片| 九九久久国产精品大片| 国产一区二区精品在线观看| 一 级 黄 中国色 片| 一级片免费在线观看视频| 亚洲第一页色| 亚欧成人乱码一区二区| 精品国产一区二区三区精东影业| 欧美日本国产| 天天做日日爱夜夜爽| 国产福利免费观看| 日韩男人天堂| 日韩中文字幕在线观看视频| 日韩免费片| 日本免费看视频| 午夜家庭影院| 黄色免费三级| 欧美激情一区二区三区在线播放| 青青久久国产成人免费网站| 国产一区精品| 国产a视频| 国产美女在线一区二区三区| 国产激情视频在线观看| 精品视频一区二区| 久久福利影视| 精品视频在线看 | 好男人天堂网 久久精品国产这里是免费 国产精品成人一区二区 男人天堂网2021 男人的天堂在线观看 丁香六月综合激情 | 99久久精品国产麻豆| 日韩中文字幕一区| 日韩在线观看免费| 亚洲第一色在线| 欧美激情一区二区三区视频 | 色综合久久天天综合绕观看| 在线观看导航| 久久福利影视| 一级女性全黄久久生活片| 成人免费福利片在线观看| 成人在免费观看视频国产| 国产视频一区二区三区四区| 一级女性全黄久久生活片| 国产不卡在线观看| 欧美一级视频免费观看| 高清一级淫片a级中文字幕| 亚洲精品久久玖玖玖玖| 午夜精品国产自在现线拍| 美国一区二区三区|