關于百度搜索引擎對原創文章識別機制之己見
作者支招:新站或權重低的網站,在網站上發布了一篇原創文章時,多預備一篇文章在權重高的網站進行發布,并保留自己網站上的原創文章URL路徑,當這篇文章被百度爬取時會順著網頁內容上的網址去爬取原創的URL網址文章原創度檢查工具,不一定非要留錨文本,只要百度能識到是網址,且是在百度索引庫中未存在的網址都會在短期內都去爬一次SEO原創文章篩選器。站長朋友們就可利用這點來引導蜘蛛對原創URL路徑的爬取,雖然不一定是放出來,只要搜索引擎爬取了至會認定你這篇文章的原創因素會大一點,如有可查看網頁日志的朋友查詢日志便可知曉百度蜘蛛是否來爬取過(如圖2),只要保持每天更新一篇原創文章,百度蜘蛛會百常喜歡來的,就本文而言發布剛好在20分鐘左右就被百度爬取回去,此時在被其它網站轉載也無防,給百度的第一印象,本篇文章是本站的原創性較大。
參考因素二、鏈接的指向關系
鏈接指向識別
圖片說明:鏈接指向,語義結構及內鏈等
百度在爬取網頁內容時,根據內容關鍵詞、語義、圖片等信息分析進行綜合計算后與所在目錄標簽、網站關鍵詞類型、內鏈結構關系等進行技術分析對比,判斷出文章原創價值系數(如圖2),各種內鏈指向對應關系以同種色彩表示,與其它文章建設內應關系;內容語義與標簽都是同個類目,文章關鍵詞,描述等以搜索優化為主,符合網站主題,那么本文章對于我的網站首推網而言,百度判定文章原創系數到少為中等,首推網符合原創本篇文章的對應要求。通過鏈接指向判斷基本可確定為原創信息的基本因素之二。
SEO原創文章篩選器作者支招:原創文章需做好網站的內鏈,將關鍵詞指向到對應類似的文章,并且原創的文章必須符合自己網站的主題,圖片方面必須通過自己的網站上傳,可得到自己網站的路徑信息,并加注ALT標簽,如若在其它權重高的網站發布能圖文類的信息,圖片最好采用遠程URL路徑加圖(即圖片URL路徑為原創網站的),有些人轉載文章圖方便直接復制過去,圖片路徑仍保留原網站的,這點百度系統足以判斷文章系轉載。
參考因素三、文章特征關鍵詞
首先我要說下百度為每個網站所建立特征信息編碼SEO原創文章篩選器,一般百度收錄到一個新的網站后都會建立屬于該網站獨一無二的特征編碼,以備對文章原性質進行識別判斷。文章特征關鍵詞也稱內容特定關鍵詞,類似于人的特征信息,如相貌,言行舉止等,若作為文章來講,比如說作者署名、編輯名及特定的名稱,如作者的網站“首推網”,這個就可做為網站獨有的特征關鍵詞,百度首先經過詞庫判斷選出文章的特征詞一個或多個然后通過數據對比分析庫判定文章的特征詞在當前網站中所使用的頻率,文章中的特征詞與當前網站對比,計算出該文章的特定詞與網站特征庫對比獲取的概率高,將會列入作為原創基本因素之三的特征。
作者支招:在原創文章中盡量合理地穿插自己網站的名稱、作者名稱或網站所常用且較為獨特的詞語(可參考本篇文章,關鍵是合理,能讓閱讀順暢,切不可盲目亂加,否則適得其反)。
參考因素四、轉發的軌跡
轉發的軌跡就不用我多說了吧,我只說下百度判斷原理,之前我們說過,百度每收取一個頁面都會將頁面中所有的網址或屬于具有網址特征如后綴為.com、.cn的域名等等,都將會納入到鏈接選取系統進行分析獲取轉發的軌跡次數,文章版權所留的網址或所標名的來源網址在百度所爬取的信息中存在最多的,且指向的是同一個網頁URL來源,那么百度基本可以確定其文章的歸屬。這就是百度作為原創文章考慮的第四個因素。但現在的個別站長動機不純,將文章轉載過去后去除頭尾,甚至打亂段落排序進行二次原創,俗稱偽原創,在以前還可以,但現在的百度完全可以識別,進行二次加工實屬多余,百度官方明確表示將加大力度打擊該類文章和全部用軟件采集類的文章,鼓勵原創,還明確指出轉載文章需保持文章的完整性,也至于不影響用戶的正常閱讀,降低用戶體驗。
作者支招:文章作為二次首發,介意把稿件推薦到知名站點,如站長類網站,A5或chinaz等知名站點,優質文章還是有很多網站轉載,并保留了作者版權信息,在此借此平臺像這類站長編輯表時感謝(如:919站長站、易得米、紅黑聯盟、海內、站長百科、看客網等等,由于文章限制不一一說明),尊重作者版權,尊重別人的勞動果實,相信更多站長會像你們一樣,互聯網圈將會有更好的發展氛圍,更多的原創作品面市。
參考因素五、站點的歷史原創情況
百度將會考慮網站的歷史原創信息,將網站以往發的原創文章放入到文章原創庫,并建立網站原創評分系統,這也是百度對網站的搜索排名權重考評的一個機制系統,你網站的原創評分系數高說明網站原創文章豐富,所發布的新文章給的權重相對也較高,不管是否原創,這類網站只要一發出新文章百分百是會被收錄并且放在第一頁,然后根據系統分析識別到是轉載他人的文章后適當降降權,文章也不會被K掉,被這類網站所轉載一般都保留了版權信息,對文章原創作者無害反而間接推薦了作者網站。作為新網站十天半個月都發出不了一篇原創文章,甚至更本就沒有寫過原創文章,突然放出一篇原創,百度也很難判定文章是你的網站所出,因為你網站的歷史原創系數為零,內容基本靠轉載或都采集而來,這就相當于狼來了的故事,一次上當了,二次上當了,三次肯定不會在上當了,百茺蜘蛛也是一樣,作為剛上線的新站百度蜘蛛會天天來,來了卻沒有收獲久而久之就不來了,因為百度蜘蛛很忙,偶爾不聲不響地放個屁出來百度也不敢相信是你放的,所以文章原創重在堅持,掌握百度蜘蛛來訪習慣,來時一定不要讓她空手而歸,再差的東西也要讓她拿點回去,當然東西還得是自己寫出來的,長期以往你網站的原創評分系數在不知不覺中便提高了,若不受其它因素影響你的網站權重提升也會很快。關于文章的歷史原創評分這點作者也沒有什么好招可支,作為新站必須原創一點新內容,相信只要堅持原創,持之以恒,滴水穿石,終將會有回報。
上一篇:優化方案的引申:搜索頁面聚合
下一篇:如何判斷老域名是否利于SEO
文章地址:http://m.meyanliao.com/article/seo/ljdzxgx.html