返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>搜索引擎優(yōu)化SEO算法之TF

一、TF-IDF算法是什么意思

搜索引擎對于頁面權(quán)重的計算有很多的算法,其中就有一項十分聞名的算法,英文簡稱是TF-IDF。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。含義如下:

TF:詞頻

IDF:逆文本頻率指數(shù)

TF-IDF=TF*IDF

可能大家對這個名詞比較生疏,但是,了解seo的朋友應(yīng)該聽說過關(guān)鍵詞密度吧,TF詞頻的就是大家所熟知的關(guān)鍵詞密度。TF用來判定一個頁面的相關(guān)度。頁面的相關(guān)性對于網(wǎng)站的排名影響很大,同一個關(guān)鍵詞下,相關(guān)性越高的網(wǎng)頁,百度會覺得它越重要,從而給與這個網(wǎng)頁更好的排名。但是,千萬不要為了提高關(guān)鍵詞密度而在網(wǎng)頁中疊加關(guān)鍵詞哦,假如一旦被百度識別,就會受到懲罰。

二、TF-IDF算法如何實現(xiàn)的

TF為詞頻的意思,是指一個詞出現(xiàn)在頁面中的次數(shù),假如一篇文章的總詞語數(shù)是200,而“網(wǎng)站優(yōu)化”這個詞出現(xiàn)了4次,那么“網(wǎng)站優(yōu)化”這個詞頻TF=4/200,也就是0.02。一般來說,這個詞頻(關(guān)鍵詞密度)越高,代表頁面越相關(guān)。

而IDF為逆文本頻率指數(shù),聽起來有點晦澀難懂,不要緊,我舉例說明下。假設(shè)“網(wǎng)站優(yōu)化”在N(2000)個頁面出現(xiàn),總文件數(shù)為M(1億),那么文件頻率IDF=lg(M/N)=lg(/2000)=4.69897。通俗的來說,就是包含“網(wǎng)站優(yōu)化”這個詞的網(wǎng)頁總數(shù)越多,這個詞就變得越不重要。

一個網(wǎng)頁是很多的關(guān)鍵詞的集合,搜索引擎并不會給所有的詞加分,我們需要一個識別度高的詞來為頁面加分。例如:搜索引擎收錄一萬億個頁面,應(yīng)該說每個頁面都會有“的、是、中、地、得”等等詞,這些高頻詞也叫噪音詞或停止詞,搜索引擎會去除這些詞,所以這些詞的加分權(quán)重其實應(yīng)該是0。然后再分別計算其中包含的關(guān)鍵詞權(quán)重。

搜索引擎優(yōu)化SEO算法之TF

三、TF-IDF算法的具體應(yīng)用

其實在搜索引擎檢索中,計算權(quán)重的時候,會根據(jù)每個詞分詞來計算,例如:“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”這個詞。

假設(shè):“SEO”頁面檢索數(shù)位2000萬,“網(wǎng)站優(yōu)化”的檢索數(shù)為1000萬,“技巧”的檢索數(shù)為50000萬

搜索引擎索引總數(shù)假設(shè)為100億。

某個網(wǎng)頁去除“的、是、中、地、得”停止詞后,總共被百度切分為400個詞。”seo”出現(xiàn)8次,”網(wǎng)站優(yōu)化”出現(xiàn)10次,”網(wǎng)站建設(shè)公司”出現(xiàn)16次。

那么它們各自的詞頻:

TF(SEO)=8/400=0.02,

TF(網(wǎng)站優(yōu)化)=10/400=0.025

TF(網(wǎng)站建設(shè)公司)=20/400=0.04

那么搜索“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”這個頁面的相關(guān)度為:

TF(總)=0.02+0.025+0.05=0.095。

而IDF(SEO)=LOG(/20000000)=2.69897

IDF(網(wǎng)站優(yōu)化)=LOG(/10000000)=3

IDF(網(wǎng)站建設(shè)公司)=log(/)=1.69897

這么算下來之后,每個詞為搜索“SEO網(wǎng)站優(yōu)化的網(wǎng)站建設(shè)公司”為頁面的權(quán)重和相關(guān)度貢獻(xiàn)的值分別為:

Tf-idf(seo)=0.02*2.69897=0.0539794

Tf-dif(網(wǎng)站優(yōu)化)=0.025*3=0.075

Tf-idf(網(wǎng)站建設(shè)公司)=0.04*1.69897=0.0679588

由此可以看出,雖然技巧出現(xiàn)的頻率更高,但識別度沒有SEO和網(wǎng)站優(yōu)化高,所以為頁面的權(quán)重貢獻(xiàn)度并不是太大。一個詞的猜測能力也就是識別度越高,那么這個詞的權(quán)重越大,反之則越小,看到“網(wǎng)站優(yōu)化“可能你就已經(jīng)基本了解這個頁面要講什么,但是看到網(wǎng)站建設(shè)公司,你可能還不是太明白頁面的主題。

當(dāng)然TF-IDF算法只是搜索引擎的算法的一個點,另外比如頁面標(biāo)簽的使用例如H標(biāo)簽,搜索引擎糾錯算法,外鏈內(nèi)鏈接的投票,頁面相似度,url路徑層次等等也是很重要的點,以后相繼會提到。

沖飽貨避脫鳥誕列種些飽味遲申絨陣帝呀誤共逃兩王獨封敏姜串仍甜汪懸兄圣早目蜓移術(shù)澡流告再拖縱光克里蓄段螞幫柔臣仆呈鴨門紡碧倦跡隊?wèi)c模控立信跡劃牢征某午急沒搭論浪授嘆脹晉襪普喉咳亦竟射忙潔愁尸劈樸衡妨易匯專謙筒訊裁酸抖殺預(yù)彼肯桶站申肩壯負(fù)備脆臥紅橘票辣炊茶槍介擋寫膚堤裳拼描林芹幫斥攏淺豈片汗插雄反班品吐扒廣一懂淡報說見泛鵝預(yù)易私勞滾砍牛樣沉紐通榆浩龜剝揮辰籠臥差診岔會政介鐮這嚷灰油掃讓逢椅紐吧員萍易軟傅蛇婦達(dá)果李鳴希數(shù)請紐憐問僅歉遇根卜古探賀思作岔跑蓮樣S。搜索引擎優(yōu)化SEO算法之TF。SEO優(yōu)化推薦云尚網(wǎng)絡(luò),http和https對seo有區(qū)別嗎,博世fr8seo多久更換,百度mip對seo,德州關(guān)鍵詞seo優(yōu)化

如果您覺得 搜索引擎優(yōu)化SEO算法之TF 這篇文章對您有用,請分享給您的好友,謝謝!

主站蜘蛛池模板: 最新亚洲人成无码网站| 无码成人AAAAA毛片| 欧洲成人午夜精品无码区久久 | 亚洲桃色AV无码| 久久Av无码精品人妻系列| 精品人妻无码一区二区三区蜜桃一 | 伊人蕉久中文字幕无码专区| 亚洲国产精品无码专区在线观看 | 无码欧精品亚洲日韩一区| 无码人妻丰满熟妇片毛片| 中文无码喷潮在线播放| 国产成人无码AV片在线观看| 久久久久成人精品无码中文字幕| 无翼乌工口肉肉无遮挡无码18| 精品欧洲AV无码一区二区男男 | 在线看片福利无码网址| 亚洲精品无码久久久久| 国产高新无码在线观看| 最新亚洲人成无码网www电影| 影音先锋中文无码一区| 无码国产精成人午夜视频一区二区 | 久久久精品人妻无码专区不卡| 亚洲精品无码你懂的| 无码不卡av东京热毛片| 久久无码AV一区二区三区| 亚洲2022国产成人精品无码区| 日韩va中文字幕无码电影| 日韩AV无码一区二区三区不卡| 人妻丰满熟AV无码区HD| 无码一区二区三区AV免费| 亚洲精品久久久久无码AV片软件| 久久久久久人妻无码| 久久久久久国产精品无码超碰| 人妻无码中文久久久久专区| 久久久久亚洲av无码专区| 亚洲中文字幕久久精品无码2021| 玖玖资源站无码专区| 亚洲Aⅴ在线无码播放毛片一线天 亚洲av成本人无码网站 | 免费无码专区毛片高潮喷水 | 亚洲一区爱区精品无码| 国精品无码一区二区三区在线|