深入了解搜索引擎算法,就從網頁去重原理開始

2019-09-11 17:01:41| 編輯: 網絡公司| 查看: |

  在互聯網技術比較發達的今天,相同資料會在多個網站更新,相同新聞報道會被絕大多數媒體網站報導,加上小站長和SEO人員不辭勞苦地進行網絡收集,造成了網絡上擁有大量的重復信息。然而當用戶搜索某個關鍵字時,搜索引擎必然不愿展現給用戶的百度搜索都是相同的內容。抓取這些重復的網頁頁面,在一定實際意義上就是對搜索引擎自身資源的浪費,因此除去重復內容的網頁頁面也變成搜索引擎所遭遇的的一大問題。
 
  在一般的搜索引擎架構中,網頁頁面去重復一般在Spider抓取部分就存在的,去重復步驟在整個搜索引擎架構中執行的越快,越可以節省后續處理系統的資源。搜索引擎一般會對已經抓取過的重復頁面進行分類處理,例如,判斷某個站點是否包括大量的重復頁面,或者該站點是否完全收集其他站點的內容等,已決定之后對該站點的抓取情況,或者決定是否直接屏蔽掉抓取。
 
搜索引擎
 
  去重復的工作一般會在詞性標注之后和數據庫索引之前進行(也有可能在詞性標注之前),搜索引擎會在頁面已經分離出來的關鍵字中,獲取部分具有象征性的關鍵字,隨后計算這些關鍵字的“指紋”。每一個網頁頁面都會有一個這樣特點指紋,當新抓取的網頁頁面的關鍵字指紋和已索引網頁頁面的關鍵字指紋有重疊時,那么該新網頁頁面就可能會被搜索引擎視作重復內容而舍棄數據庫索引。
 
  實際工作上的搜索引擎,不僅使用詞性標注步驟所分離出來的更有意義的關鍵字,還會使用持續激光切割的方式獲取關鍵字,并進行指紋計算。持續激光切割就是以單獨字向后移動的方式進行切詞,例如,“百度搜索開始嚴厲打擊買賣鏈接”會被切割成“百度搜索開”“度開始”“開始打"“始嚴厲打擊”“嚴厲打擊買”“擊交易”“交易鏈”“賣鏈接”。隨后從這些詞中獲取部分關鍵字進行指紋計算,參加是不是重復內容的對比。這只是搜索引擎鑒別重復網頁頁面的基本算法,還有很多其他應對重復網頁頁面的算法。
 
  因此網絡上流行的絕大多數偽原創工具,不是不能蒙騙搜索引擎,就是把內容做的完全讀不通,所以理論上使用普通偽原創工具不能得到搜索引擎的正常百度收錄和排行。但是由于并不是對所有的重復頁面都直接拋下不索引,而是會根據重復網頁頁面所屬網站的權重值適度放開索引標準。
 
  另外,不僅是搜索引擎需要網頁頁面去重復,自己建網站也需要對同站頁面進行去重復。
?
QQ在線咨詢
服務咨詢熱線
0535-6656286
18954596457
返回頂部
姜子牙完整版-姜子牙高清在线-姜子牙免费在线观看