網(wǎng)站日志剖析之聚集式剖析 |
發(fā)布時(shí)間:2020-01-01 文章來(lái)源:本站 瀏覽次數(shù):2778 |
在網(wǎng)頁(yè)運(yùn)營(yíng)改版進(jìn)程中,經(jīng)常有設(shè)計(jì)師或許運(yùn)營(yíng)搭檔有這樣的疑問(wèn):我的頁(yè)面到底發(fā)生了多大價(jià)值?這個(gè)頁(yè)面引導(dǎo)的用戶(hù)接下來(lái)拜訪(fǎng)了多少商品的頁(yè)面?有沒(méi)有發(fā)生交易?有沒(méi)有到我想讓用戶(hù)去的那些頁(yè)面? 假如運(yùn)用數(shù)據(jù)庫(kù)查詢(xún),固然能夠得到一些成果,但查詢(xún)進(jìn)程過(guò)于雜亂,數(shù)據(jù)量大的網(wǎng)站查詢(xún)耗時(shí)太長(zhǎng),很難靈敏應(yīng)用到一般頁(yè)面。本文提出一種相對(duì)簡(jiǎn)略的剖析方法能夠解決這個(gè)問(wèn)題。 每個(gè)用戶(hù)在網(wǎng)站上的拜訪(fǎng)軌跡在網(wǎng)站日志或許數(shù)據(jù)庫(kù)中,都是一串URL,有的只拜訪(fǎng)了一兩步,有的拜訪(fǎng)了成百上千步,如安在如此雜亂繁復(fù)的數(shù)據(jù)中找到用戶(hù)在拜訪(fǎng)某個(gè)頁(yè)面(例如服裝首頁(yè))之前或許之后n步,有多少人拜訪(fǎng)過(guò)特定頁(yè)面(例如交易頁(yè)面)? 先拋開(kāi)這個(gè)問(wèn)題,咱們幻想這樣一個(gè)場(chǎng)景:在一個(gè)大會(huì)場(chǎng)中,熟人坐在某個(gè)座位上,假如咱們知道他們的位置,咱們的眼睛很簡(jiǎn)略聚集到這幾個(gè)位置,自動(dòng)疏忽其他座位的人,請(qǐng)參看圖1。相同,人們?cè)谡{(diào)查周?chē)挛飼r(shí),經(jīng)常會(huì)把精力聚集到自己關(guān)懷的事物上,下意識(shí)疏忽其他。咱們從前做過(guò)這樣的試驗(yàn),咱們的報(bào)告廳有4個(gè)很大的外置式擴(kuò)音器,排列在兩側(cè)。注意不是那種不顯眼的內(nèi)置式,任何人只要稍微留神就會(huì)看到。而當(dāng)咱們要求會(huì)場(chǎng)的人閉上眼睛回答會(huì)場(chǎng)有幾個(gè)擴(kuò)音器時(shí),很少有人能給出正確答案,由于大部分人會(huì)關(guān)懷更重要的東西,比方會(huì)議內(nèi)容,提問(wèn)問(wèn)題,乃至是怎么找個(gè)舒適的位子也比擴(kuò)音器的多少更讓人關(guān)懷。 圖1 回到咱們網(wǎng)站碰到的問(wèn)題,某個(gè)項(xiàng)意圖設(shè)計(jì)師關(guān)懷的頁(yè)面并非悉數(shù),而僅僅幾個(gè)與之頁(yè)面有關(guān)的頁(yè)面和部分重要的方針頁(yè)面。因而咱們能夠去除相關(guān)性不大的頁(yè)面,只保存關(guān)懷頁(yè)面,然后縮短用戶(hù)途徑,大大提高核算功率。 別的,咱們把索引的思維引入剖析進(jìn)程中,把網(wǎng)頁(yè)的URL按照必定規(guī)則(例如正則表達(dá)式)替換成簡(jiǎn)略字符,把相關(guān)性不大的頁(yè)面核算替換為同一個(gè)字符(例如“0”),把一些過(guò)渡性的頁(yè)面替換成某個(gè)字符(例如”p”),如此以來(lái),每個(gè)用戶(hù)的拜訪(fǎng)途徑就能夠表示為一個(gè)字符串,例如”a,c,0,0,0,a,p,p,c,0,c,d,0,0,0”。也有的用戶(hù)的拜訪(fǎng)途徑全為相關(guān)性不大的頁(yè)面,此時(shí),途徑為0,0,0,0,0,0,0,0,0,0,0,0,0,0”,這表示用戶(hù)并未拜訪(fǎng)到方針頁(yè)面,假如不需求核算用戶(hù)比例或用戶(hù)分類(lèi),那么這樣的記錄咱們能夠刪除去。 假如需求保存其他的用戶(hù)信息,例如cookieid,登錄名,拜訪(fǎng)時(shí)刻等信息,這個(gè)字符串會(huì)愈加雜亂些。假如咱們研究意圖比較簡(jiǎn)略,還能夠進(jìn)一步處理,假如不需求對(duì)步長(zhǎng)信息進(jìn)行剖析,咱們能夠去掉相鄰重復(fù)的一些數(shù)據(jù),把上式簡(jiǎn)化為” a,c,0,a,p,c,0,c,t,0”。 這個(gè)進(jìn)程請(qǐng)參看圖2中的①和②,由此咱們能夠得到多個(gè)用戶(hù)的途徑的字符串方法的文件。 圖2 得到這個(gè)聚集式用戶(hù)途徑文件后,咱們就能夠?qū)@個(gè)字符串文件進(jìn)行剖析了。例如,咱們需求核算a頁(yè)面后有多少個(gè)c頁(yè)面,需求能疏忽中心的翻頁(yè)頁(yè)面(p頁(yè)面)。在上例中的這個(gè)用戶(hù)的字符串中,便是1個(gè)用戶(hù),2次c頁(yè)面。假如在拜訪(fǎng)了其他頁(yè)面之后再拜訪(fǎng)c頁(yè)面的行為也可核算入內(nèi)的話(huà),那便是1個(gè)用戶(hù),3次c頁(yè)面。 接下來(lái)便是剖析的樣本量問(wèn)題。一般剖析進(jìn)程中會(huì)考究“多而全”,但數(shù)據(jù)量大到必定級(jí)別,剖析1/10乃至1/100人群與剖析全樣本所得到的成果相差無(wú)幾,花費(fèi)許多資源去提升一點(diǎn)精確度是一件很因小失大的工作。因而能夠酌情剖析小樣本量,節(jié)省剖析成本。 由于方針頁(yè)面業(yè)務(wù)的獨(dú)特性,每次需求剖析的方法也很個(gè)性化。途徑查詢(xún)器能夠靈敏應(yīng)對(duì)各種查詢(xún)。例如,咱們需求核算a后面有t的人次,a后面緊跟著c的人次,行為契合某種形式的用戶(hù)數(shù)有多少等等。需求核算的形式在剖析算法裝備文件(圖2中的③)中進(jìn)行裝備,查詢(xún)器會(huì)核算并導(dǎo)出最終成果。 別的,查詢(xún)器還支撐分類(lèi)信息查詢(xún),根據(jù)用戶(hù)途徑文件的裝備信息,對(duì)每種分類(lèi)的人群分別查詢(xún),或許導(dǎo)出契合某種形式的人群Cookieid,用戶(hù)名等,與其他數(shù)據(jù)存儲(chǔ)媒介聯(lián)接,取得這部分人群的其他信息,然后進(jìn)行歸納剖析。 這種方法長(zhǎng)處在于比較靈敏,假如網(wǎng)站的URL規(guī)則比較標(biāo)準(zhǔn),在裝備進(jìn)程中能夠多選用正則表達(dá)式,然后能夠發(fā)現(xiàn)更多有趣的現(xiàn)象。 |
|