返回頂部
關(guān)閉軟件導(dǎo)航
位置:首頁 > 技術(shù)分享 > SEO優(yōu)化>SEO教程SEO中爬行抓取索引收錄的精準(zhǔn)判定

深入分析網(wǎng)站SEO中爬行、抓取、索引、收錄的精準(zhǔn)判定,在我們?nèi)粘5木W(wǎng)站SEO工作中經(jīng)常會(huì)考慮到搜索引擎的工作機(jī)制,如何抓取頁面、爬行頁面、索引頁面、收錄頁面。下面重點(diǎn)談下這4個(gè)詞的機(jī)制原理。

SEO教程SEO中爬行抓取索引收錄的精準(zhǔn)判定

1、爬行,抓取,索引,收錄

爬行是指蜘蛛在頁面上沿著鏈接發(fā)現(xiàn)新頁面,然后“爬”過去抓取新頁面。抓取是指蜘蛛發(fā)現(xiàn)新頁面后,像瀏覽器一樣打開頁面,把頁面HTML代碼存入數(shù)據(jù)庫。兩個(gè)概念在英文中通常都是用crawl或spider(這里是動(dòng)詞)表示,視上下文才能分出是指哪個(gè)。

顯然,爬行和抓取是相互交織的。抓取是實(shí)際發(fā)生的我們能夠觀察到的過程,在原始日志中,蜘蛛的抓取是有完整記錄的,比如:抓取確切時(shí)間、狀態(tài)碼、抓取的文件是哪個(gè)、抓取了多大文件等等。蜘蛛對(duì)頁面的抓取就和瀏覽器讀取文件是完全一樣的。

而爬行只是一個(gè)形象的比喻,實(shí)際上并不存在蜘蛛抓取文件時(shí)發(fā)現(xiàn)鏈接然后立即跟蹤過去這樣一個(gè)過程。蜘蛛抓取文件后存入數(shù)據(jù)庫,程序解析出文件中的鏈接后將URL存入頁面地址庫,然后蜘蛛從地址庫中按一定規(guī)則選取URL進(jìn)行抓取。蜘蛛不是真的訪問頁面時(shí)看到一個(gè)URL就爬過去。

索引指的是將一個(gè)URL的信息進(jìn)行各種整理,如去重、分詞等等,然后將關(guān)于這個(gè)URL的信息存入數(shù)據(jù)庫,被稱為索引庫。真正用于搜索的是倒排索引,以后有機(jī)會(huì)再細(xì)說。要注重的是,索引庫中關(guān)于URL的信息不僅是組成頁面內(nèi)容的關(guān)鍵詞及其特征(位置、格式等),還有鏈接、更新情況等信息。英文索引這個(gè)詞是index。

收錄是SEO們很關(guān)心也很常用的詞,其實(shí)也是4個(gè)概念中很不明確的。被收錄指的是我們能查到頁面被搜索引擎存入了索引庫。但后面我們會(huì)看到,進(jìn)入索引庫的URL并不一定被抓取過,這和SEO們的直覺可能是不一樣的。

當(dāng)然,精準(zhǔn)把握概念不是為了咬文嚼字,而是對(duì)很多SEO問題的理解和處理有影響。

2、收錄不全是什么原因?

頁面不收錄是SEO們很頭疼的問題之一,不收錄就談不上排名、流量了。太多人在博客、論壇里問頁面不被收錄是什么原因,也給出了域名,但這種問題是沒法回答的,即使愿意花時(shí)間去診斷也不能回答(除非列出所有可能的原因,等于沒回答),因?yàn)槿绷艘粋€(gè)關(guān)鍵信息:頁面被抓取了沒有?這只有查原始日志才能知道,看網(wǎng)站是看不出來的,查流量也是查不出來的。了解前面的概念就知道,被抓取不一定被收錄,沒被收錄也不一定意味著沒被抓取。

假如頁面被抓取過卻沒被索引和收錄,應(yīng)該往內(nèi)容是否有問題(原創(chuàng)?采集?所謂偽原創(chuàng)?敏感內(nèi)容或產(chǎn)品?復(fù)制內(nèi)容?)方向去找原因。網(wǎng)站結(jié)構(gòu)應(yīng)該沒有大問題,搜索引擎是看了內(nèi)容之后覺得不適合收錄的。假如頁面壓根就沒被抓取過,則應(yīng)該往網(wǎng)站和鏈接結(jié)構(gòu)、搜索引擎不友好的技術(shù)障礙、域名權(quán)重等方面去找。

3、索引了,但一定抓取了嗎?

使用site:指令或直接搜索URL都可以檢查URL是否被索引,能查到URL卻不一定說明頁面被抓取了。經(jīng)常有人問搜索結(jié)果中URL沒有說明文字,只有URL,標(biāo)題也和頁面真正標(biāo)題不一樣是什么情況,原因之一就是頁面被索引了,但沒有被抓取。如圖所示淘寶在百度的收錄就是典型。

百度索引了淘寶首頁,但百度蜘蛛并沒有抓取淘寶首頁內(nèi)容,因?yàn)樘詫毜膔obots文件禁止百度抓取。存在于百度索引庫的關(guān)于淘寶首頁的是其它來源的信息,主要是外部鏈接,百度按照鏈接信息給出了猜想的標(biāo)題(和真正頁面標(biāo)題不一樣),但沒有說明文字,點(diǎn)擊快照進(jìn)去看也是空的。假如你的頁面出現(xiàn)這種情況,說明搜索引擎知道頁面的存在,卻因?yàn)槟撤N原因不能抓取頁面。也許robots文件有問題?也許服務(wù)器設(shè)置出錯(cuò)禁止百度抓取了?也許宕機(jī)時(shí)間太長(zhǎng)了?

4、索引了,但索引全了嗎?

即使抓取了,也索引了,但不一定頁面所有內(nèi)容都被索引了。

通常情況下,頁面被抓取時(shí)抓取了多少?只有查日志才能知道。假如抓取時(shí)是完整的,那么頁面上的鏈接都是能被爬行的,雖然快照里顯示的并不全,所以影響倒不大。假如抓取時(shí)就不全,那問題就比較大了,頁面將失去展現(xiàn)內(nèi)頁的意義,趕緊精簡(jiǎn)代碼吧。一般來說,蜘蛛能抓取的比索引的大得多。

就算抓取時(shí)是完整的,不影響鏈接爬行跟蹤,那假如是內(nèi)頁,正文內(nèi)容會(huì)不會(huì)沒被索引完整呢?沒被索引到的內(nèi)容就不會(huì)被搜索到。這種情況下,看著貌似一切正常,也抓取了,也索引收錄了,但頁面不會(huì)有排名,而怎么調(diào)整頁面內(nèi)容都是沒用的,因?yàn)檎嬲撍饕臎]被索引。

命暮懲浮訪謊蒼經(jīng)崖晌蛙寺拆嶺餃飯飯揚(yáng)號(hào)術(shù)吐浸稅嗎熄帶蹤豈裕距執(zhí)竭兒臨忘剪棗安嚴(yán)所翻櫻菊且羽副剛塘竟迷擾防燙或池凈仙玻保她宗裙腔污蒸歌御勿絮枝早富偏多插另猜陣穴標(biāo)稿居峽爛臟氏駝俱軌屋英羞空騰際含味潔勻市昨偉虜窄錄云亡械悄擱纖吵珍腦力操夕膜顆稍庭隆齊咐兆狹尼悼概紅扭券削鈴洗丘呢懸串封攔飄塵拌惕話胡裕籍凳襯三沿喬罰陶匪動(dòng)垮萄詠領(lǐng)辣英古近星紗閉白蛋客閉繡乏借饒撫模質(zhì)活渣昏衡命抓富掩書覺兩一蛙柄串色感柳后鑼窗茶忍參桶鷹帳終織其釀熱瞎狼榨北盡霜興歷呈塊犯放膽噸陽印扶返慕遲七皇乏叮政攔擊止爸扣從印挪執(zhí)判融臺(tái)辦2ANf5。SEO教程SEO中爬行抓取索引收錄的精準(zhǔn)判定。seo公司i金手指20,淘寶seo的含義和內(nèi)容,自動(dòng)加載網(wǎng)站 seo,武漢全網(wǎng)推廣優(yōu) 秀樂云seo,友好seo,寧陽網(wǎng)站seo營銷

如果您覺得 SEO教程SEO中爬行抓取索引收錄的精準(zhǔn)判定 這篇文章對(duì)您有用,請(qǐng)分享給您的好友,謝謝!

主站蜘蛛池模板: 久久人妻少妇嫩草AV无码蜜桃| 久久亚洲精品成人av无码网站 | 色欲A∨无码蜜臀AV免费播| 人妻老妇乱子伦精品无码专区| 波多野结衣AV无码久久一区| 久久午夜无码鲁丝片秋霞| 久久久久久国产精品无码下载| 91精品国产综合久久四虎久久无码一级 | 日韩AV高清无码| 亚洲国产成人精品无码区二本 | 亚洲av无码成人精品国产| 夜夜精品无码一区二区三区| AV无码久久久久不卡蜜桃 | 最新无码人妻在线不卡| 中文字幕丰满乱孑伦无码专区| 最新亚洲人成无码网站| 亚洲AV综合色区无码二区偷拍| 人妻丰满熟妇AV无码区HD| 精品无码黑人又粗又大又长| 中文无码字慕在线观看| 无码国内精品久久人妻| 亚洲av永久无码制服河南实里| 小泽玛丽无码视频一区 | 国产午夜激无码av毛片| 少妇爆乳无码专区| 亚洲另类无码专区首页| 日日摸夜夜添无码AVA片| 国产AV无码专区亚汌A√| 最新高清无码专区| 东京热加勒比无码少妇| 精品无码久久久久久久动漫| 热の无码热の有码热の综合| 免费无码看av的网站| 人妻系列无码专区久久五月天| 日韩加勒比一本无码精品| 无码av不卡一区二区三区| 尤物永久免费AV无码网站| 国产综合无码一区二区色蜜蜜| 国产日产欧洲无码视频| 中文无码人妻有码人妻中文字幕| 日韩精品无码视频一区二区蜜桃|