首頁 > 正文標題
那么,百度是如何收錄我們旅游線路的呢?
索引,我們更習慣將之稱為收錄,是搜索引擎(百度)工作的第二步,主要目的是對在爬行過程中發現的有價值的新內容網頁進行分析、處理、初步排序,然后存進數據庫。
在索引的過程中有幾個核心的點我重點解釋一下。
1.被爬行:網頁能否被收錄,必須能被百度蜘蛛爬行到,沒有被爬行到的網頁做得再優秀也無濟于事,這點在上面已經說過。所以,當一個網站里的頁面收錄情況很差的時候,如果要查明收錄情況差的原因,就需要從網頁是否被百度蜘蛛爬行過做起!
2.有價值的新內容網頁:首先,新內容網頁,可以是新發布的網頁,也可以是經過大幅度修改后的老網頁(標題、內容修改前后文字大不一樣),但是網頁內容只是新還不足夠,還必須得是有價值的!比如,一篇由幾百個漢字隨便拼湊而成不具備任何可讀性的文章,內容是很新、并且還獨一無二,但是因為沒有任何的價值,百度一樣不會收錄該頁面!
百度又不是人,它又怎么知道我的網頁內容是不是新的、是不是獨一無二的、是不是有用的呢?這個就要介紹到百度如何對爬行到的網頁進行處理的了。
第一步:文件存儲
百度蜘蛛將爬行的數據存入原始頁面數據庫,每個URL都有一個獨特的編號,這些頁面數據與我們通過瀏覽器看到的是完全一樣的,所以不要企圖通過一些技術手段來實現給百度和游客展示不同的內容,一旦被發現,對網站就會是致命的打擊。
第二步:提取文字
百度是以文字內容為基礎進行分析的,會從蜘蛛抓取到的HTML文件中去除代碼標簽、程序等,提取出可以用于排名處理的網頁頁面文字內容。
但是在這個過程中,百度并不能識別圖片、視頻、flash里面的內容,所以在百度看來,一個滿頁面都是圖片(視頻、flash)而沒有文字的網頁幾乎就是一個空白頁面。當然了,會有其他的辦法來彌補這個缺點,但我們要想獲得較好的收錄以及排名,最好還是主動避免這種情況的發生,最好是給圖片配以適當的相關介紹文字,以圖文并茂的形式來發布新的內容!
第三部:中文分詞
分詞是中文搜索引擎特有的步驟。百度存儲和處理頁面,以及用戶搜索都是以詞為基礎,即我們所說的關鍵詞。而所謂的分詞,即百度程序會將上面提取出來的文章,分割成一個一個的詞組,至于具體的分割原理,則非常復雜。搜索引擎必須分辨哪幾個字組成一個詞,哪些字本身就是一個詞。比如“廈門旅游景點”,可能被分詞為“廈門”和“旅游景點”兩個詞,也可以能會被分詞為“廈門旅游”和“景點”兩個詞,還有可能會被作為一個獨立的詞“廈門旅游景點”來處理!所以我們要盡可能的讓我們的目標關鍵詞多次出現,或者是適當的給他們采取加粗的形式,以防他們被分割成不同的詞。
第四步:去停止詞
無論英文中文,頁面內容中都會有一些出現頻率很高,卻對內容沒有任何影響的詞,如“的”,“地”,“得”之類的助詞,“啊”,“哈”,“呀”之類的感嘆詞,“從而”,“以”,“卻”之類的介詞。這些詞被稱為停止詞,因為它們對頁面主要意思沒什么影響。搜索引擎在索引頁面之前會去掉這些停止詞,使索引數據主題更為突出,減少無謂的計算量。
第五步:消除噪聲
絕大部分頁面上還有一部分內容對頁面主題也沒有什么貢獻,比如版權聲明文字、導航條、廣告等。這些區塊都屬于噪聲,對頁面主題只能起到分散作用。搜索引擎需要識別并消除這些噪聲,排名時不使用噪聲內容。消噪的基本方法是根據HTML標簽對頁面分塊,區分出頁頭、導航、正文、頁腳、廣告等區域,在網站上大量重復出現的區塊往往屬于噪聲。對頁面進行消噪后,剩下的才是頁面主體內容。
第六步:去重
同一篇文章經常會重復出現在不同網站以及同一個網站的不同網頁上,搜索引擎并不喜歡這種重復性的內容。搜索引擎希望只返回相同文章中的一篇,所以在進行索引前還需要識別和刪除重復內容,這個過程就稱為去重。去重的基本方法是對頁面特征關鍵詞計算指紋,簡單地增加“的,地,得”、調換段落順序這種所謂偽原創,并不能逃過搜索引擎的去重算法,因為這樣的操作無法改變文章的特征關鍵詞。而且搜索引擎的去重算法很可能不止于頁面級別,而是進行到段落級別,混合不同文章、交叉調換段落順序也不能使轉載和抄襲變成原創。被百度判斷為重復內容的頁面,往往是導致百度不收錄的重要原因之一!
第七步:正向索引
經過文字提取、分詞、消噪、去重后,搜索引擎得到的就是獨特的、能反映頁面主體內容的、以詞為單位的內容。接下來搜索引擎索引程序就可以提取關鍵詞,按照分詞程序劃分好的詞,把頁面轉換為一個關鍵詞組成的集合,同時記錄每一個關鍵詞在頁面上的出現頻率、出現次數、格式(如出現在標題標簽、黑體、H標簽、錨文字等)、位置(如頁面第一段文字等)。這樣,每一個頁面都可以記錄為一串關鍵詞集合,其中每個關鍵詞的詞頻、格式、位置等權重信息也都記錄在案。
搜索引擎索引程序將頁面及關鍵詞形成詞表結構存儲進索引庫。簡化的索引詞表形式如下表所示。
第八步:倒排索引
正向索引還不能直接用于排名,無法滿足實時返回排名結果的要求。所以搜索引擎會將正向索引數據庫重新構造為倒排索引,把文件對應到關鍵詞的映射轉換為關鍵詞到文件的映射。如下表所示:
在倒排索引中關鍵詞是主鍵,每個關鍵詞都對應著一系列文件,這些文件中都出現了這個關鍵詞。這樣當用戶搜索某個關鍵詞時,排序程序在倒排索引中定位到這個關鍵詞,就可以馬上找出所有包含這個關鍵詞的文件。
經過搜索引擎蜘蛛抓取頁面,索引程序計算得到倒排索引后,搜索引擎就準備好可以隨時處理用戶搜索了。用戶在搜索框填入關鍵詞后,排名程序調用索引庫數據,計算排名顯示給用戶,排名過程是與用戶直接互動的。
至此,百度就已經完成了對我們的線路頁面的收錄工作,但是這并不代表著我們的線路就能在百度獲得較好的排名,能否獲得好的排名,則要看排序階段!排序階段涉及到的內容比較多,估計要寫一本書才能描述清楚,以后再慢慢安排時間一一介紹!
淺談百度如何收錄我們的旅游線路(爬行篇):http://www.zikin.com.cn/zaobao/21952
(文:欣欣旅游網:一刀)
0
第一次去西藏,不懂的路線規劃,可以問我
沒有電話,咨詢不了,請速聯系,咨詢密云CS...
謝謝你們的認可和支持。歡迎你們以后有時間...
更多精彩內容,請訪問:https://www.beijly...
照片沒有保存下來 請大家打開自己的小手自己...
你可能不是行業專家,但你一定有獨特的觀點和視角,趕緊和業內人士分享吧!
我要投稿
投稿須知
作為行業領先的旅游商業和科技媒體,《文旅界》致力于以獨立的新聞態度,挖掘和報道旅游行業的重要事件,以及影響旅游業發展的新趨勢、新模式和新科技,為旅游業者提供專業、及時、深度的旅游信息服務。
無論您是:投放在線廣告、企業招聘、尋求報道、還是投稿爆料、加入評論員,歡迎通過以下方式聯系我們:
0592-6532122
wangjing@cncn.net
欣欣旅行社同業社群招募中,勾搭小編微信號:cncn4021入社群
掃描二維碼分享到微信
分享到
Copyright © 2025 智旅數文 cncn.net 閩ICP備11015723號-3
0
0
0
0
0
0
0
0
0
0