<address id="r9bft"></address>
<var id="r9bft"><strike id="r9bft"></strike></var>
<var id="r9bft"><dl id="r9bft"></dl></var>
<menuitem id="r9bft"></menuitem>
<var id="r9bft"></var><var id="r9bft"><video id="r9bft"></video></var>
<var id="r9bft"></var>
<cite id="r9bft"><video id="r9bft"></video></cite>
<var id="r9bft"></var>
每一個網站背后都有一個故事!  會員中心 會員登錄   設為首頁 設為首頁   加入收藏 收藏百萬站   百萬學院 百萬學院  
 
 
您當前位置:百萬站 > 樂園 > 百萬學院 > 有問必答
»點此完善

百萬站官網資料-如何計算網站網頁相似度?

如何計算網站中的網頁相似度?

near duplicate detection 的任務是檢測重復的內容,這項工作在搜索引擎,版權保護,信息展示等方面都有很好的應用。在搜索引擎上,主要是去掉重復的頁面,圖片,文件,文檔等等。下面就指討論網頁的deduplication。

問題是什么?

據統計,網頁上的大部分相同的頁面占29%,而主體內容完全相同的占22%,這些重復網頁有的是沒有一點改動的拷貝,有的在內容上稍作修改,比如同一文章的不同版本,一個新一點,一個老一點,有的則僅僅是網頁的格式不同(如 HTML, Postscript),文獻[Models and Algorithms for Duplicate Document Detection 1999年]將內容重復歸結為以下四個類型:

1.如果2篇文檔內容和格式上毫無差別,則這種重復叫做full-layout duplicate。

2.如果2篇文檔內容相同,但是格式不同,則叫做full-content duplicates

3.如果2篇文檔有部分重要的內容相同,并且格式相同,則稱為partial-layout duplicates

4.如果2篇文檔有部分重要的內容相同,但是格式不同,則稱為partial-content duplicates

網頁去重的任務就是去掉網頁中主題內容重復的部分。它和網頁凈化(noise reduction),反作弊(antispam) 是搜索引擎的3大門神

去重在我看來起碼有四好處:減少存儲;增強檢索效率;增強用戶的體驗;死鏈的另一種解決方案。

目前從百度的搜索結果來看,去重工作做的不是很完善,一方面可能是技術難度(precision和recall都超過90%還是很難的);另一方面可能是重復的界定,比如轉載算不算重復?所以另一項附屬的工作是對個人可寫的頁面(PWP)進行特殊的處理,那么隨之而來的工作就是識別PWP頁面。^_^這里就不扯遠呢。

問題如何解決?

網頁的deduplication,我們的算法應該是從最簡單的開始,最樸素的算法當然是

對文檔進行兩兩比較,如果A和B比較,如果相似就去掉其中一個

然而這個樸素的算法,存在幾個沒有解決的問題:

   0.要解決問題是什么?full-layout?full-content?partial-layout還是partial-content?

   1. 怎么度量A 和 B的相似程度

   2. 去掉A還是去掉B,如果A ~B(~表相似,!~表示不相似),B~C 但是 A!~C,去掉B的話,C就去不掉。另一個更深入的問題是,算法的復雜度是多少?假設文檔數為n,文檔平均長度為m,如果相似度計算復雜度為m的某一個復雜度函數:T=T(m),文檔兩兩比較的復雜度是O(n^2),合起來是O(n^2 * T(m)) . 這個復雜度是相當高的,想搜索引擎這樣處理海量數據的系統,這樣的復雜度是完全不能接受的,所有,另外三個問題是:

   3. 如何降低相似度計算的復雜化度

   4. 如何減少文檔比較的復雜度

   5. 超大數據集該如何處理

   第0個問題是,我們要解決的關鍵,不同的問題有不同的解決方法,從網頁的角度來看,結構的重復并不能代表是重復,比如產品展示頁面,不同的產品展示頁面就有相同的文檔結構。內容來看,復制網站會拷貝其他網站的主要內容,然后加些廣告或做些修改。所以,解決的問題是,partial-content deduplication,那么首先要抽取網頁的主體內容。算法變成:

   抽取文檔主體內容,兩兩比較內容的相似性,如果A和B相似,去掉其中一個

   其次,問題2依賴于問題1的相似度度量,如果度量函數具有傳遞性,那么問題2就不存在了,如果沒有傳遞性,我們的方法是什么呢?哦,那就找一個關系,把相似關系傳遞開嘛,簡單,聚類嘛,我們的框架可以改成:

   抽取文檔主體內容,兩兩比較內容的相似性,如果A和B相似,把他們聚類在一起,最后一個類里保留一個page

最后,歸納為幾個步驟

第一步:識別頁面的主題內容,網頁凈化的一部分,以后討論

第二步:計算相似度

第三步:聚類算法,計算出文檔那些文檔是相似的,歸類。

核心的問題是,“如何計算相似度?”這里很容易想到的是

   1. 計算內容的編輯距離edit distance(方法很有名,但是復雜度太高)

   2. 把內容分成一個個的token,然后用集合的jaccard度量(好主意,但是頁面內容太多,能不能減少???)

   好吧,但是,當然可以減少集合的個數呢,采樣,抽取滿足性質的token就可以啦,如滿足 mod m =0 的token,比如有實詞?比如stopwords。真是絕妙的注意.在把所有的idea放一起前,突然靈光一現,啊哈,

   3. 計算內容的信息指紋,參考google研究員吳軍的數學之美系列。

把他們放在一起:

第一步:識別頁面的主題內容,網頁凈化的一部分,以后討論

第二步:提取頁面的特征。將文章切分為重合和或不重合的幾個結合,hash out

第三步:用相似度度量來計算集合的相似性,包括用信息指紋,Jaccard集合相似度量,random projection等。

第四步:聚類算法,計算出文檔那些文檔是相似的,歸類。

方法分類:

按照利用的信息,現有方法可以分為以下三類

1.只是利用內容計算相似

2.結合內容和鏈接關系計算相似

3.結合內容,鏈接關系以及url文字進行相似計算

一般為內容重復的去重,實際上有些網頁是

按照特征提取的粒度現有方法可以分為以下三類

1.按照單詞這個級別的粒度進行特征提取.

2.按照SHINGLE這個級別的粒度進行特征提取.SHNGLE是若干個連續出現的單詞,級別處于文檔和單詞之間,比文檔粒度小,比單詞粒度大.

3.按照整個文檔這個級別的粒度進行特征提取

算法-具體見真知

1. I-Match

2. Shingling

3. Locality Sensitive Hashing.(SimHash)

4. SpotSigs

5. Combined

 

女日⑶⑷⑸⑹?
女日⑶⑷⑸⑹?

請您關注:百萬優秀網站的大本營
上一站:  12306訂票網站: 當前訪問用戶過多 請稍后再試!我該怎么辦
當前推薦網站:  如何計算網站網頁相似度?
下一站:  谷歌pin碼老收不到該腫么辦?


申明:本資料由百萬站會員提供,轉載請注明出處,資料來源百萬站網站知識庫:http://www.yepbrands.com/site/t129549/.
如何計算網站網頁相似度? 感謝您的支持!

復制本頁網址,與您QQ/MSN上的好友分享,就是您對百萬站最大的支持!
踩踩此網站0
支持此網站0
(提示:頂到百萬站首頁,分享給更多網友!)  
現在有0人對'本文'發表評論 ?查看全部評論

您的姓名: * 可選項,留空即為匿名發表
評論內容:
剩余字數:  * 按 Ctrl + Enter 發送.
           
百萬站溫馨提示:資料由百萬站會員自行發布,請大家自辯真偽;評論只需提交一次,請耐心等候審核通過,方可顯示.
»網友留言

如何計算網站網頁相似度?

貢獻者:webuser101點擊數: 累積有9548人瀏覽
所屬類別:有問必答主頁標簽:網頁相似度 
參考網址:http://www.yepbrands.com/site/t129549/
導航目錄:樂園 > 百萬學院 > 有問必答
內容簡介:near duplicate detection 的任務是檢測重復的內容,這項工作在搜索引擎,版權保護,信息展示等方面都有很好的應用。在搜索引擎上,主要是去掉重復的頁面,圖片,文件,文檔等等。
2021,與百萬網友攜手打造百萬站!
百萬站-百萬優秀網站的大本營!我們深信:每一個優秀網站的背后都有一個值得我們解讀的故事。
合 作 伙 伴
漂亮人妻被中出中文字幕_小小视频网在线观看_强行扒开双腿玩弄_白雪公主hd版_秋霞影视欧美高清av片_欧美牲交作爱在线aav