SEO的藝術:文檔剖析和語義聯絡 |
發布時間:2018-06-29 文章來源:本站 瀏覽次數:3618 |
2.3.1 文檔剖析和語義聯絡 在文檔剖析(document analysis)中,查找引擎重視于文檔重要區域中是否找到查找詞,這些區域包括標題、元數據、標題標記和正文。它們還企圖依據文檔剖析以及其他許多種要素主動衡量文件質量。 關于當今的查找引擎而言,僅僅依托文檔剖析是不行的,所以它們還重視語義的聯絡性。語義聯絡(semantic connectivity)指的是常常彼此相關的單詞或許短語。例如,假如你看到Aloha譯注1一詞,就會聯想到夏威夷,而不是佛羅里達。查找引擎主動地構建自己的同義詞庫和詞典,協助它們斷定某些詞和主題之間的相關。經過掃描自己的很多Web內容數據庫,查找引擎可以運用含糊調集理論和某些公式將詞語聯絡起來,開端像人類一樣了解網頁/網站。 專業的SEO人員不需求運用語義聯絡衡量東西來優化網站,可是高檔的從業者會尋求每一個可供運用的要素,語義聯絡衡量對以下這幾個方面可能有所協助。 衡量方針的要害短語。 衡量有關某個主題的頁面上應該包括的要害短語。 衡量其他高排位網站/網頁上文本之間的聯絡。 尋覓供給"相關"主題鏈接的頁面。 這些材料來歷的技能性很強,可是SEO專家只需求了解獲取重要信息的原則。重要的是,盡管IR范疇包括數千個技能性用語,這些術語往往難以了解,可是即使是SEO新手也可以剖析和了解。 下面是IR范疇的常見查找類型。 附近查找 附近查找用查找短語的順序尋覓相關的文檔。例如,當查找"sweet German mustard"(德國甜芥末)時,你指定的只有一個精確的附近查找。假如去掉引號,查找詞的附近性對查找引擎依然很重要,可是查找引擎回來的內容就不會精確匹配查找短語,例如,Sweet Mustard-German. 含糊邏輯 從技能上講,含糊邏輯指的是無法僅用真/假來區分的邏輯,常見的比如之一是某天是不是晴天(例如,有50%的云,是否依然可以稱為晴天)。含糊邏輯是查找引擎用于檢測和處理拼寫錯誤的手法之一。 布爾查找 布爾查找運用布爾運算符,如AND、OR和NOT.這類邏輯用于擴展或許限制查找中回來的文檔。 查找詞加權 查找詞加權指的是特定查找詞對查詢的重要程度。原理是為特定的詞語賦以比其他詞更高的權重,以得到更好的查找成果。例如,在查詢中的單詞the得到的權重很小,由于它幾乎在一切英語文檔中都會呈現,沒有什么獨特性,對文檔的挑選沒有任何協助。 IR模型(查找引擎)運用含糊調集理論(Lotfi Zadeh博士于1969年創建的含糊邏輯分支)發現兩個單詞之間的語義聯絡。和用同義詞庫或許詞典揣度兩個詞是否相關不同,IR體系可以運用巨大的內容數據庫推測出詞語之間的聯絡。 這一進程聽上去好像很復雜,可是原理卻很簡單。查找引擎需求依靠機器邏輯(真/假,是/否等)。機器邏輯關于人有一些優勢,可是不像人那樣拿手處理某些類型的問題。對人來說很直觀的工作,關于計算機來說卻很難了解。例如,桔子和香蕉都是生果,可是兩者不都是圓的,這一點對人來說很直觀。 關于機器來說,要了解這一點以及其他類似的概念,語義聯絡是要害。Web上的很多人類知識可以在體系的索引中獲得,并從中剖析人類現已樹立的聯絡。因而,機器可以經過掃描索引中呈現的"香蕉"和"桔子",注意,"圓形"和"香蕉"不常常一同呈現,而"桔子"和"圓形"常常一同呈現,然后斷定桔子是圓的,而香蕉不是圓的。 這就是含糊邏輯的用武之地。運用邏輯調集理論協助計算機經過衡量兩個詞一同呈現的頻率和語境,就能了解兩個詞的相關性。 在此基礎上擴展起來的相關概念之一是潛在語義剖析(Latent Semantic Analysis,LSA)。思路是經過對幾十億個各種網頁(索引)的研討,查找引擎可以"學習"到哪些詞是相關的,哪些概念彼此之間有聯絡。 例如,運用LSA,查找引擎可以發現前往"zoo"(動物園)的"trips"(游覽)往往包括"viewing wildlife"(觀看野生動物)和"animals"(動物),這可能是"tour"(游覽)的一部分。 在Google上測驗查找"~zoo ~trips"(波濤號是一個查找運算符,本章后邊將有更多的相關內容)。注意,回來成果中粗體的單詞與上一段中說到的那些單詞相符。Google識別出索引中常常一同呈現(一同呈現、在同一個網頁中呈現或許方位挨近)的詞語,并將"相關"的詞語顯現為粗體。 有些方式的LSA計算成本太高,無法在實踐中運用。例如,現在的查找引擎無法像較新的MIT學習型計算機那樣聰明地"學習".例如,它們無法經過索引學習到"斑馬"和"山君"都是帶有斑紋的動物,盡管它們可能發現"斑紋"和"斑馬"比"斑紋"和"鴨子"在語義上有更多聯絡。 潛在語義索引(Latent Semantic Indexing ,LSI)更進一步,運用語義剖析來識別相關的網頁。例如,查找引擎可能注意到某個網頁談及doctor(醫師或許博士),另一個網頁談及physicians(醫師),并且依據這些頁面中常見的其他單詞斷定這些頁面之間的聯絡。成果是,引證doctor的頁面在查找physician時也可能呈現。 查找引擎在此類技能上的出資現已持續了很多年。 從SEO方面看,這些使用讓我們認識到查找引擎是怎么發現網絡上的單詞、短語和概念之間的聯絡的。跟著語義聯絡越來越成為查找引擎算法的重要組成部分,可以預見,頁面、網站和鏈接的主題將會越來越受到重視。我們應該認識到,未來查找引擎了解概念主題以及發現不適合網站結構的內容、鏈接和頁面的才能將更為重要。 |