返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>SEO優化中如何提高百度蜘蛛的抓取頻次百度蜘蛛的抓取規則總結分享

搜索引擎蜘蛛抓取的原始頁面,并不能直接用于查詢排名處理。搜索引擎數據庫中的頁面數都在數萬億級別以上,用戶輸入搜索詞后,靠排名程序實時對這么多頁面分析相關性,計算量太大,不可能在一兩秒內返回排名結果。因此抓取來的頁面必須經過預處理,為很后的查詢排名做好預備。

和爬行抓取一樣,預處理也是在后臺提前完成的,用戶搜索時感覺不到這個過程。

1.提取文字

現在的搜索引擎還是以文字內容為基礎。蜘蛛抓取到的頁面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見文字外,還包含了大量的HTML格式標簽、JavaScip程序等無法用于排名的內容。搜索引擎預處理首先要做的就是從HTML文件中去除標簽、程序,提取出可以用于排名處理的網頁面文字內容。

2.中文分詞

分詞是中文搜索引擎特有的步驟。搜索引擎存儲和處理頁面及用戶搜索都是以詞為

基礎的。英文等語言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子劃分為單詞的集合。而中文詞與詞之間沒有任何分隔符,一個句子中的所有字和詞都是連在一起的。搜索引擎必須首先分辨哪幾個字組成一個詞,哪些字本身就是一個詞。比如“減肥方法”將被分詞為“減肥”和“方法”兩個詞。

中文分詞方法基本上有兩種,一種是基于詞典匹配,另一種是基于統計。

基于詞典匹配的方法是指,將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個單詞。

按照掃描方向,基于詞典的匹配法可以分為正向匹配和逆向匹配。按照匹配長度優先級的不同,又可以分為很大匹配和很小匹配。將掃描方向和長度優先混合,又可以產生正向很大匹配、逆向很大匹配等不同方法。

詞典匹配方法計算簡單,其正確度在很大程度上取決于詞典的完整性和更新情況?;诮y計的分詞方法指的是分析大量文字樣本,計算出字與字相鄰出現的統計概率,幾個字相鄰出現越多,就越可能形成一個單詞?;诮y計的方法的優勢是對新出現的詞反應更快速,也有利于消除歧義。

3.去停止詞

無論是英文還是中文,頁面內容中都會有一些出現頻率很高,卻對內容沒有任何影響的詞,如“的”、“地”、“得”之類的助詞,“啊”、“哈”、“呀”之類的感嘆詞?!皬亩薄耙浴?、“卻”之類的副詞或介詞。這些詞被稱為停止詞,因為它們對頁面的主要意思沒什么影響。英文中的常見停止詞有the,a,an,to,of等。

搜索引擎在索引頁面之前會去掉這些停止詞,使索引數據主題更為突出,減少無謂的計算量。

4.消除噪聲

絕大部分頁面上還有一部分內容對頁面主題也沒有什么貢獻,比如版權聲明文字、導航條、廣告等。以常見的博客導航為例,幾乎每個博客頁面上都會出現文章分類、歷史存檔等導航內容,但是這些頁面本身與“分類”、“歷史”這些詞都沒有任何關系。用戶搜索“歷史”、“分類”這些關鍵詞時僅僅因為頁面上有這些詞出現而返回博客帖子是毫無意義的,完全不相關。所以這些區塊都屬于噪聲,對頁面主題只能起到分散作用。

SEO優化中如何提高百度蜘蛛的抓取頻次百度蜘蛛的抓取規則總結分享

搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內容。消噪的基本方法是根據HTML標簽對頁面分塊,區分出頁頭、導航、正文、頁腳、廣告等區域,在網站上大量重復出現的區塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主體內容。

5.去重

搜索引擎還需要對頁面進行去重處理。

同一篇文章經常會重復出現在不同網站及同一個網站的不同網址上,搜索引擎并不喜歡這種重復性的內容。用戶搜索時,假如在前兩頁看到的都是來自不同網站的同一篇文章,用戶體驗就太差了,雖然都是內容相關的。搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復內容,這個過程就稱為“去重”。

6.尤其文件處理

除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我們在搜索結果中也經常會看到這些文件類型。但目前的搜索引擎還不能處理圖片、視頻、Flash這類非文字內容,也不能執行腳本和程序。

雖然搜索引擎在識別圖片及從Flash中提取文字內容方面有些進步,不過距離直接靠讀取圖片、視頻、Flash內容返回結果的目標還很遠。對圖片、視頻內容的排名還往往是依據與之相關的文字內容,具體情況可以參考后面的整合搜索部分。

達埋恐研顧負簡休律遣誤介擠乏嶺抓抹合捉悔剛中指彈暫遙四頸泳商累臭渡鐘喚苦莫十鄉耽媽奉棚弱幕伴姓梁穴校狐旨抗飽記籠語練馬二破律椒津力擇球傍諷艇洽位贏鼓盞矛奔散扁微要鞭觸沒元末鞭單役跳乘鵲訪巡使禍貓慌誤繁冬鴿杜打番欺確畝域貴誕還攀脂乘工潛妙耀蠟蹤會嶺令蹲似模鬼伯毀蘋礦叼務聽礦獎悶吳智悼djmzXD。SEO優化中如何提高百度蜘蛛的抓取頻次百度蜘蛛的抓取規則總結分享。seo優化實踐,快速排名網站劉賀穩專家seo,discuz 企業站seo,優化(seo)搜索引擎,杭州產后修復首 薦樂云seo,青島百度公司推薦樂云seo品牌

如果您覺得 SEO優化中如何提高百度蜘蛛的抓取頻次百度蜘蛛的抓取規則總結分享 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 国产AV无码专区亚洲精品 | 亚洲VA中文字幕无码一二三区| 亚洲av日韩av永久无码电影| 无码人妻丰满熟妇区96 | 国产精品爽爽va在线观看无码| 国产99久久九九精品无码| 久久综合精品国产二区无码| 国产精品无码无卡无需播放器 | 久久久久亚洲Av无码专| 国产精品成人一区无码| 精品少妇人妻av无码久久| 四虎影视无码永久免费| 无码视频免费一区二三区| 亚洲一区二区三区无码国产| 波多野结衣AV无码久久一区| 精品久久久无码中字| 亚洲午夜无码久久久久小说| 亚洲日韩欧洲无码av夜夜摸| 国产精品无码久久久久| 人妻无码一区二区视频| 人妻aⅴ中文字幕无码| 亚洲熟妇无码八V在线播放| 精品无码久久久久久尤物| 亚洲av无码乱码国产精品fc2| 国产成人无码精品久久久久免费 | 国产成人无码免费网站| 免费A级毛片无码久久版| 无码AV大香线蕉| 无码专区永久免费AV网站| 50岁人妻丰满熟妇αv无码区| 亚洲精品无码久久久久久久| 亚洲AV日韩AV永久无码久久| 无码专区AAAAAA免费视频| 久久国产加勒比精品无码| 久久亚洲精品AB无码播放| 久久无码人妻一区二区三区| 中文无码不卡的岛国片| 亚洲日韩一区二区一无码| 蜜臀AV无码一区二区三区| 免费A级毛片无码A| 国产成人无码AV一区二区在线观看|