硅谷風投大牛Peter Thiel真的了解中國嗎? |
發布時間:2015-08-10 文章來源: 瀏覽次數:4395 |
Google使用兩個探測器來抓取網站上的內容:Freshbot和Deepbot。深度探測器(Deepbot)每月出擊一次,受訪內容在Google的主要索引之中。刷新探測器(Freshbot)是持續不斷地發現新的內容,例如新的網站、論壇、博客等。看起來,Google是發現了一個新的網頁,之后再頻繁地再訪,來看看是否還有什么新的更新。假如有,這個新網站就會被加入到刷新探測器的名單中進行訪問。 刷新探測器取得的結果是匯總在一個單獨的數據庫里。每一次刷新探測器進行新的一輪輪回的時候都被重寫。刷新探測器和Google的主要索引是合在一起提供搜索結果的。 Google的操縱模式 收集---->采編/索引---->反饋的工作程序。事實上,搜索引擎包括以下幾個元素。 ·抓取狀態:搜索引擎派出探測器到互聯網上不知倦怠地搜集網頁。 ·網頁倉庫:搜索來的網頁要集中在一個地方存儲,等候索引處理。 ·索引收拾整頓:將網頁分門別類,進行壓縮,等候進行索引編類,而未壓縮的原始網頁資料被刪除掉。 ·索引狀態:將壓縮后的網頁編目在不同的索引之下。 ·問詢狀態:將用戶問詢所用的口語轉換成搜索引擎讀的懂的計算機語言,來咨詢各個索引求得相關謎底。 ·排名狀態:搜索引擎將相關謎底根據一定的尺度以列表的形式排列給用戶。搜索引擎以為最好的謎底被推薦在首位,較次的排列隨后,以此類推。 SEO是逆向搜索推理 網站首先要知道搜索引擎是怎樣判斷網站質量的,這個揣度搜索引擎的過程是逆向推理。這個逆向推理是從搜索引擎的搜索排名開始,去探索畢竟搜索引擎會將一些網站排列在搜索結果的前列,為什么一些網站連顯示的機會都沒有。最后推理出的結論是知道搜索引擎判斷和排名網站存在著哪些普遍規律,進而知道網站的設計和推廣中哪些是應該做的,哪些是不應該做的。 Google的PageRank(PR) PageRank并非是“頁面等級”,而是“佩奇等級”。由于這里的Page指的是Google的創始人之一拉里·佩奇(Larry Page),從名字可以看出有的人生成就是為互聯網而存在。 公式 PR(A) = (1-d) + d(PR(Ti)/C(Ti)+...+PR(Tn)/C(Tn)) PR(A):網頁A的佩奇等級(PR) PR(Ti):鏈接網頁A的網頁Ti的佩奇等級(PR)。i可以是0-n,n是鏈接的總數。這個鏈接可以是來自任何網站的導入鏈接 C(Ti):網頁Ti往其他網站鏈接的數目(導出鏈接) d:阻尼系數,介于0-1之間,Google設為0.85。 可以看出,網頁A的PR是由鏈接它的其他網頁Ti所決定的。假如在網頁Ti中有一個鏈接指向網頁A,那么A就得到了一個“投票”。但是假如網頁Ti中的導出鏈接假如越多,點擊指向A的可能性就越小。所以網頁Ti的PR只需要用C(Ti)來加權均勻。 當然,決定網站排名的不僅僅是PR值,還有其他的因素。但是PR在google判定網站質量中起著很重要的作用。 |