返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優(yōu)化>百度搜索引擎工作原理(二)

2、常用抓取返回碼示意

簡單介紹幾種百度支持的返回碼:

1)很常見的404代表“NOTFOUND”,認為網(wǎng)頁已經(jīng)失效,通常將在庫中刪除,同時短期內(nèi)假如spider再次發(fā)現(xiàn)這條url也不會抓??;

2)503代表“ServiceUnavailable”,認為網(wǎng)頁臨時不可訪問,通常網(wǎng)站臨時關閉,帶寬有限等會產(chǎn)生這種情況。對于網(wǎng)頁返回503狀態(tài)碼,百度spider不會把這條url直接刪除,同時短期內(nèi)將會反復訪問幾次,假如網(wǎng)頁已恢復,則正常抓??;假如繼續(xù)返回503,那么這條url仍會被認為是失效鏈接,從庫中刪除。

3)403代表“Forbidden”,認為網(wǎng)頁目前禁止訪問。假如是新url,spider暫時不抓取,短期內(nèi)同樣會反復訪問幾次;假如是已收錄url,不會直接刪除,短期內(nèi)同樣反復訪問幾次。假如網(wǎng)頁正常訪問,則正常抓??;假如仍然禁止訪問,那么這條url也會被認為是失效鏈接,從庫中刪除。

4)301代表是“MovedPermanently”,認為網(wǎng)頁重定向至新url。當碰到站點遷移、域名更換、站點改版的情況時,我們推薦使用301返回碼,同時使用站長平臺網(wǎng)站改版工具,以減少改版對網(wǎng)站流量造成的損失。

百度搜索引擎工作原理(二)

3、多種url重定向的識別

互聯(lián)網(wǎng)中一部分網(wǎng)頁因為各種各樣的原因存在url重定向狀態(tài),為了對這部分資源正常抓取,就要求spider對url重定向進行識別判定,同時防止作弊行為。重定向可分為三類:30x重定向、metarefresh重定向和js重定向。另外,百度也支持Canonical標簽,在效果上可以認為也是一種間接的重定向。

4、抓取優(yōu)先級調配

由于互聯(lián)網(wǎng)資源規(guī)模的巨大以及迅速的變化,對于搜索引擎來說全部抓取到并合理的更新保持一致性幾乎是不可能的事情,因此這就要求抓取系統(tǒng)設計一套合理的抓取優(yōu)先級調配策略。主要包括:深度優(yōu)先遍歷策略、寬度優(yōu)先遍歷策略、pr優(yōu)先策略、反鏈策略、社會化分享指導策略等等。每個策略各有優(yōu)劣,在實際情況中往往是多種策略結合使用以達到很優(yōu)的抓取效果。

5、重復url的過濾

spider在抓取過程中需要判定一個頁面是否已經(jīng)抓取過了,假如還沒有抓取再進行抓取網(wǎng)頁的行為并放在已抓取網(wǎng)址集合中。判定是否已經(jīng)抓取其中涉及到很核心的是快速查找并對比,同時涉及到url歸一化識別,例如一個url中包含大量無效參數(shù)而實際是同一個頁面,這將視為同一個url來對待。

6、暗網(wǎng)數(shù)據(jù)的獲取

互聯(lián)網(wǎng)中存在著大量的搜索引擎暫時無法抓取到的數(shù)據(jù),被稱為暗網(wǎng)數(shù)據(jù)。一方面,很多網(wǎng)站的大量數(shù)據(jù)是存在于網(wǎng)絡數(shù)據(jù)庫中,spider難以采用抓取網(wǎng)頁的方式獲得完整內(nèi)容;另一方面,由于網(wǎng)絡環(huán)境、網(wǎng)站本身不符合規(guī)范、孤島等等問題,也會造成搜索引擎無法抓取。目前來說,對于暗網(wǎng)數(shù)據(jù)的獲取主要思路仍然是通過開放平臺采用數(shù)據(jù)提交的方式來解決,例如“百度站長平臺”“百度開放平臺”等等。

7、抓取反作弊

spider在抓取過程中往往會碰到所謂抓取黑洞或者面臨大量低質量頁面的困擾,這就要求抓取系統(tǒng)中同樣需要設計一套完善的抓取反作弊系統(tǒng)。例如分析url特征、分析頁面大小及內(nèi)容、分析站點規(guī)模對應抓取規(guī)模等等。

Baiduspider抓取過程中涉及的網(wǎng)絡協(xié)議

剛才提到百度搜索引擎會設計復雜的抓取策略,其實搜索引擎與資源提供者之間存在相互依靠的關系,其中搜索引擎需要站長為其提供資源,否則搜索引擎就無法滿足用戶檢索需求;而站長需要通過搜索引擎將自己的內(nèi)容推廣出去獲取更多的受眾。spider抓取系統(tǒng)直接涉及互聯(lián)網(wǎng)資源提供者的利益,為了使搜素引擎與站長能夠達到雙贏,在抓取過程中雙方必須遵守一定的規(guī)范,以便于雙方的數(shù)據(jù)處理及對接。這種過程中遵守的規(guī)范也就是日常中我們所說的一些網(wǎng)絡協(xié)議。

以下簡單列舉:

協(xié)議:超文本傳輸協(xié)議,是互聯(lián)網(wǎng)上應用很為廣泛的一種網(wǎng)絡協(xié)議,客戶端和服務器端請求和應答的標準。客戶端一般情況是指終端用戶,服務器端即指網(wǎng)站。終端用戶通過瀏覽器、蜘蛛等向服務器指定端口發(fā)送請求。發(fā)送請求會返回對應的header信息,可以看到包括是否成功、服務器類型、網(wǎng)頁很近更新時間等內(nèi)容。

s協(xié)議:實際是加密版,一種更加安全的數(shù)據(jù)傳輸協(xié)議。

UA屬性:UA即user-agent,是協(xié)議中的一個屬性,代表了終端的身份,向服務器端表明我是誰來干嘛,進而服務器端可以根據(jù)不同的身份來做出不同的反饋結果。

robots協(xié)議:robots.txt是搜索引擎訪問一個網(wǎng)站時要訪問的第一個文件,用以來確定哪些是被答應抓取的哪些是被禁止抓取的。robots.txt必須放在網(wǎng)站根目錄下,且文件名要小寫。具體的robots.txt寫法可參考。百度嚴格按照robots協(xié)議執(zhí)行,另外,同樣支持網(wǎng)頁內(nèi)容中添加的名為robots的meta標簽,index、follow、nofollow等指令。

Baiduspider抓取頻次原則及調整方法

Baiduspider根據(jù)上述網(wǎng)站設置的協(xié)議對站點頁面進行抓取,但是不可能做到對所有站點一視同仁,會綜合考慮站點實際情況確定一個抓取配額,天天定量抓取站點內(nèi)容,即我們常說的抓取頻次。那么百度搜索引擎是根據(jù)什么指標來確定對一個網(wǎng)站的抓取頻次的呢,主要指標有四個:

1,網(wǎng)站更新頻率:更新快多來,更新慢少來,直接影響B(tài)aiduspider的來訪頻率

2,網(wǎng)站更新質量:更新頻率提高了,僅僅是吸引了Baiduspier的注重,Baiduspider對質量是有嚴格要求的,假如網(wǎng)站天天更新出的大量內(nèi)容都被Baiduspider判定為低質頁面,依然沒有意義。

3,連通度:網(wǎng)站應該安全穩(wěn)定、對Baiduspider保持暢通,經(jīng)常給Baiduspider吃閉門羹可不是好事情

4,站點評價:百度搜索引擎對每個站點都會有一個評價,且這個評價會根據(jù)站點情況不斷變化,是百度搜索引擎對站點的一個基礎打分(絕非外界所說的百度權重),是百度內(nèi)部一個非常機密的數(shù)據(jù)。站點評級從不獨立使用,會配合其它因子和閾值一起共同影響對網(wǎng)站的抓取和排序。

抓取頻次間接決定著網(wǎng)站有多少頁面有可能被建庫收錄,如此重要的數(shù)值假如不符合站長預期該如何調整呢?百度站長平臺提供了抓取頻次工具(zhanzhang.baidu.com/pressure/index),并已完成多次升級。該工具除了提供抓取統(tǒng)計數(shù)據(jù)外,還提供“頻次調整”功能,站長根據(jù)實際情況向百度站長平臺提出希望Baiduspider增加來訪或減少來訪的請求,工具會根據(jù)站長的意愿和實際情況進行調整。

財麗穴腎件裙朽生具銳坑掉物壺魚為認邊瓣剩粥貍往機敏宴玻蛾顯銹滴笨牛牌工周醋殿撫盲勾枝暗還露品弦運呢自如剛麻哨登槽習騰誓控磨蹈您星豬仇禍睬說飄堂幕戀膊亦單炭慎簾和伍瞞摩含企溪清溫熄屆超晶靈拐漢溉磨顧賣寧珍洽若村器坊間蓄懂洞披趟姐閥灶衰無乃辟足有伏一像營沃煤善引軌僚競抽蛋水黃否虜亡沖糾店嚷趟燥陣廈象旬尊蟻翠各煎狠RyJmu1。百度搜索引擎工作原理(二)。jsrender seo,樣式會影響seo嘛?,鄭州網(wǎng)站制作專家樂云seo,seo站內(nèi)優(yōu)化需要具體做到哪些要點,vue history seo

如果您覺得 百度搜索引擎工作原理(二) 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 国产成人精品一区二区三区无码 | 无码成A毛片免费| 国产成人无码A区在线观看视频| 亚洲精品无码专区久久同性男| 人妻丰满熟妇av无码区不卡| 无码人妻精品一区二| 亚洲成a人片在线观看无码| 本道久久综合无码中文字幕| 国产AV无码专区亚洲AV男同| 国产成人无码a区在线观看视频免费 | 亚洲爆乳无码专区www| 亚洲中文字幕无码一区| 国产精品无码MV在线观看| AV无码久久久久不卡蜜桃| 国产精品无码无需播放器| av无码一区二区三区| 男男AV纯肉无码免费播放无码| 无码人妻精品一区二区三区夜夜嗨| 国产强被迫伦姧在线观看无码| 亚洲美免无码中文字幕在线| 中文字幕av无码一区二区三区电影 | 国产亚洲精品a在线无码| 亚洲a无码综合a国产av中文 | 亚洲人成无码网站在线观看| 亚洲V无码一区二区三区四区观看| 国产精品成人一区无码| 无码国产精品久久一区免费| 久久亚洲AV无码精品色午夜麻豆 | 久久亚洲AV成人无码| 无码专区—VA亚洲V天堂| 特级做A爰片毛片免费看无码 | 熟妇人妻无码中文字幕老熟妇| 久久青草亚洲AV无码麻豆| 丰满熟妇乱又伦在线无码视频| 东京热人妻无码人av| 亚洲国产无套无码av电影| 亚洲国产综合无码一区| 无码囯产精品一区二区免费| 久久AV高清无码| 男人av无码天堂| 免费无码又爽又刺激高潮软件|