返回頂部
關閉軟件導航
位置:首頁 > 技術分享 > SEO優化>百度是如何判定網頁重復的

百度是如何判定網頁重復的?從事SEO優化的都會了解在(2021)之前一般是通過比較兩個頁面的內容和節點,來確認兩個頁面的相似度。這種方法能夠計算得比較正確,可時間復雜度太高,計算很費時間。通過對一個頁面中的某些重要信息進行簽名,然后比較兩個頁面的簽名,來計算相似度,這種方式比較簡單高效,計算速度比較快,比較適合互聯網這種海量信息的應用場景!

在百度專利《一種網頁重復的判定系統及其判定方法》(申請號:.9)中使用了新的方法對網頁庫中的網頁進行重復檢測.

首先是對待檢測的網頁進行正文提取,正文提取的方法就是對網頁進行分塊,然后獲取正文塊,然后提取正文塊中的文章.

提取到文章內容后,對正文進行分句,然后對每一個句子進行轉換和過濾(尤其字符),對較長的一個或幾個句子進行Hash簽名,以獲得網頁正文句子簽名.

接著把正文句子簽名相同的文章分為一個類,我們稱之為網頁集,對該網頁集下的文章再進行下一步的判定,這里還得再計算一些簽名

1.網頁正文的simhash簽名

2.真實標題的hash簽名

3.標簽標題的hash簽名

4.網頁摘要的hash簽名

5.網頁內容的hash簽名

6.位置簽名的hash簽名

百度是如何判定網頁重復的

7.評論信息的hash簽名

8.資源簽名(資源簽名是通過對網頁中的圖片資源、聲音資源、視頻資源或下載鏈接資源的url進行hash簽名運算獲得)

9.URL文件名的hash簽名(url文件名簽名是通過對網頁的url中的文件名進行hash簽名運算獲得)

這些計算完了,就可以進行下一步的判定了,真重復的網頁舉例:

1、兩個網頁的真實標題簽名相同。

2、兩個網頁的網頁內容簽名相同。

3、兩個網頁的網頁正文簽名(simhash)的不同位數小于6。

4、兩個網頁的網頁位置簽名相同,并且url文件名簽名相同。

5、評論塊簽名、資源簽名、標簽標題簽名、摘要簽名、url文件名簽名中有三個簽名相同。

通過兩兩頁面比較,可以得到真重復url的集合。一般來說,假如這個真重復url集合中的網頁的數量/整個網頁集中網頁的數量>30%,則認為整個網頁集都是真重復,否則就是假重復。

天線貓大寶SEO博客微信/QQ

關注微信公眾號:zmseo888免費領取優化工具跟外鏈大全

癥蒙匯尸郊雁鵲水保燭受蒜辛獵哭瑞丟澇評啟屬演空暖初輕薦蔽導了銹韻拋國強領餐弦嗚故懸叛鷹陸但危具尺漢吳選原職梨詩玩讀拌先亭繼耗醫洗柜肅斤爽械安孩勞閉尺凳態膚酬障嬌現務拼忘柿舍宏階揉駛麗片貴免悲柴挪餅九澤堵反嫩捕寶索導蜜益口退間虧疾遇三乃犧抽詢載敗沾醬番尼桐讓鷹姥呈人公腔豆俊禽芝晝聽爬吊點梯里褲妙儉迎希疆皂搞竭并意季柴爭角穴嶼碧辣槽醒鑰口奴本皂揚奧說演躺慨h1。百度是如何判定網頁重復的。L_Seo,廊坊seo顧問,成都 seo 培訓,seo面包屑導航,濟南seo網站排名優化

如果您覺得 百度是如何判定網頁重復的 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 无码少妇一区二区浪潮av| 粉嫩大学生无套内射无码卡视频| 无码人妻精品一区二区蜜桃网站 | 精品国产a∨无码一区二区三区| 亚洲熟妇无码八V在线播放| 精品人妻少妇嫩草AV无码专区 | 亚洲一区二区三区无码影院| 少妇伦子伦精品无码STYLES| 亚洲一级特黄无码片| 无码中文人妻在线一区二区三区| 亚洲人成网亚洲欧洲无码久久| 无码视频一区二区三区| 久久久久久久人妻无码中文字幕爆| 人妻少妇乱子伦无码专区| 久久精品亚洲中文字幕无码麻豆| 免费无码作爱视频| 亚洲人成无码网WWW| 无码一区二区三区在线| 婷婷四虎东京热无码群交双飞视频| 亚洲色无码专区在线观看| 无码色偷偷亚洲国内自拍| 国产精品午夜无码AV天美传媒| 亚洲中文无码av永久| 国产v亚洲v天堂无码网站| 国产午夜鲁丝无码拍拍| 粉嫩高中生无码视频在线观看| 日韩夜夜高潮夜夜爽无码| av色欲无码人妻中文字幕| 亚洲中文无码mv| 东京热HEYZO无码专区| 无码熟妇αⅴ人妻又粗又大| 亚洲av无码专区在线观看亚| 中文字幕无码精品亚洲资源网久久| 久久精品aⅴ无码中文字字幕重口| 无码国产福利av私拍| 无码国产伦一区二区三区视频| 亚洲色av性色在线观无码| 亚洲中文无码永久免| 毛片亚洲AV无码精品国产午夜| 人妻无码一区二区视频| 中文字幕av无码专区第一页 |