天蠶在你身邊


不方便打電話?讓天蠶聯絡你

什么是網頁噪音?
在我們?yōu)g覽網頁,從中獲取所需信息的同時,還會常??匆姶罅亢臀覀兯P心內容無關的“噪音”內容,如網頁的公共部分、廣告信息、版權信息等,有效的 去除和網頁主題內容無關的噪音內容,提取網頁的元數據信息,如關鍵詞、摘要、網頁內容類別等,是Web信息處理的一項重要內容,同時也是我們做SEO優(yōu)化需要重點處理的部分。
網頁凈化明確搜索引擎重點分析的區(qū)域:在前面的文章當中我分別介紹了什么是網頁表示模型,網頁特征項的提取, 我們在進行SEO優(yōu)化的時候,為了給搜索引擎搭建一個便于理解和分析的頁面我們需要根據關鍵詞的相關算法構建網頁表示模型,模型的目的是什么呢?一是幫助 搜索引擎更準確的理解我們的網頁,二是能夠幫助它快速的提取出網頁特征項,三是盡可能的降低網頁的噪音。這里我給大家舉一個例子,讓大家再深入的理解一下 這個噪音問題跟我們搜索優(yōu)化的關系,當我們建設好一個網站,通常情況下會有導航區(qū)域,也許左側還會有一些公共相關的區(qū)域。
我們每個頁面都是這樣的,大家思考一下,當搜索引擎來抓取和分析我們網站的時候,這樣的公共部分會不會再繼續(xù)分析了,會不會重點分析了,我可以明確 的告訴大家公共區(qū)域可能不分析也不會做重點分析了,這樣就相當于去除了噪音,而搜索引擎真正重點分析的區(qū)域就是那些你實實在在的內容了,如果我們把這個內 容理解成為一個變量,那么你的每一個頁面的“內容”這個變量就都要五花八門,盡量不要和其它頁面有太多相似的部分,所以我們要注意頁面的比例問題,如果你 的“公共變量”大于了“內容”變量,顯然這個頁面不太健康,搜索引擎會認為你的頁面相似度太高,不予重視,不重視就是不會有高權重,如果你的每個頁面都如此,那么你的整個網站權重大降,排名就不會好,嚴重的甚至被降權,被K。
如何加深一下你對網頁凈化和消重的理解:網頁凈化和消重是大規(guī)模搜索引擎系統(tǒng)預處理環(huán)節(jié)的重要組成部分。所謂網頁凈化(noise reduction)就是識別和清除網頁內的噪音內容(如廣告、版權信息等),并提取網頁的主題以及和主題相關的內容;消重(replicas or near-replicas detection)是指去除所搜集網頁集合中主題內容重復的網頁。建索引一般是在消重后的網頁集上進行的,這樣就可以保證用戶在查詢時不會出現大量內容重復的網頁。
當我們?yōu)g覽Web,從中獲取所需信息的同時,還會常??匆姶罅亢臀覀兯P心內容無關的導航條、廣告信息、版權信息以及調查問卷等,我們稱之為“噪 音”內容。有時候,我們可能從這些噪音內容中得到一些意外的驚喜;另一些時候,我們可能不喜歡這些東西消耗人類寶貴的注意力資源。同時,噪音內容往往會導致相互鏈接的網頁常常并無內容相關性。
重慶網絡公司
地址:重慶市渝中區(qū)上清寺鑫隆達B座28-8
郵編:400015
電話:023-63612462
EMAIL:cnjl_net@163.com