新聞發(fā)布
管理系統(tǒng)Adobe Analytics和Webtrekk都是數(shù)據(jù)分析領(lǐng)域的巨擘,一個是美國市場第一,一個歐洲市場第一,都能提供世界一流的數(shù)字分析解決方案。我很有幸能有機會深入了解并應(yīng)用這兩種解決方案,同時也深感數(shù)字分析領(lǐng)域的發(fā)展永遠不缺概念,缺的是應(yīng)用場景和價值提煉。本文將對這兩種解決方案做深入剖析和對比。由于文章實在太長,我分為兩部分,此文為下篇。上篇請點擊《Adobe Analytics和Webtrekk數(shù)字分析解決方案剖析和對比(上)》。
三、嚴(yán)謹(jǐn)和科學(xué)的數(shù)據(jù)精神
(一) 數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘和網(wǎng)站分析是數(shù)據(jù)分析的兩個不同領(lǐng)域,數(shù)據(jù)挖掘側(cè)重于通過模型從海量數(shù)據(jù)中發(fā)現(xiàn)和挖掘未知知識,網(wǎng)站分析通常通過細分、趨勢和轉(zhuǎn)化進行價值提取。在之前我們的應(yīng)用中,我們一直想將兩種數(shù)據(jù)分析方法結(jié)合,并探索網(wǎng)站數(shù)據(jù)挖掘的相關(guān)方法;現(xiàn)在,這兩種解決方案已經(jīng)開始將數(shù)據(jù)挖掘的算法植入系統(tǒng),并在分析系統(tǒng)中提供了數(shù)據(jù)挖掘洞察。
Adobe Analytics
Adobe Analytics的數(shù)據(jù)挖掘應(yīng)用體現(xiàn)在Anomaly Detection(異常檢測)報表,該報表的作用是通過對選定的數(shù)據(jù)集、時間進行數(shù)據(jù)運算,找到數(shù)據(jù)波動的大值和小值,當(dāng)數(shù)據(jù)實際值超過該范圍時形成預(yù)警。
Anomaly Detection本質(zhì)上使用的是時間序列算法,核心是:
Holt Winters Multiplicative (Triple Exponential Smoothing)——霍爾特溫特斯乘法(三重指數(shù)平滑法) Holt Winters Additive (Triple Exponential Smoothing)——霍爾特溫特斯加法(三重指數(shù)平滑法) Holts Trend Corrected (Double Exponential Smoothing)——Holts趨勢校正(雙指數(shù)平滑法)
這三種算法實際上共同組成了溫特斯季節(jié)指數(shù)平滑模型,其基本思想是把具體線性趨勢、季節(jié)變動和隨機變動的時間序列進行分解研究,并與指數(shù)平滑法相結(jié)合,分別對長期趨勢(Ut)、趨勢的增量(bt)和季節(jié)變動(Ft)做出估計,與指數(shù)平滑法結(jié)合起來的預(yù)測方法,可以同時處理趨勢和季節(jié)性變化,并能將隨機波動的影響適當(dāng)?shù)剡^濾掉,然后建立預(yù)測模型,因此,特別適用于包含趨勢和季節(jié)變化的時間序列的預(yù)測問題。
但這個應(yīng)用目前存在兩個問題:
Anomaly Detection只能提供截止到昨天的數(shù)據(jù)檢測報告。異常監(jiān)測的本質(zhì)不是告訴用戶昨天發(fā)生了什么,而是當(dāng)前發(fā)生了哪些異常,具體如何異常; 異常檢測的作用僅僅局限于SiteCatalyst查看,如果能提供類似于郵件觸發(fā)、短信或其他類型的觸發(fā)提示,效果必然提升很多;
關(guān)于該功能的詳細介紹,請查看《統(tǒng)計學(xué)在點擊流數(shù)據(jù)中的應(yīng)用范例——Adobe Analytics異常檢測》。
Webtrekk
Webtrekk的數(shù)據(jù)挖掘算法的核心應(yīng)用是關(guān)聯(lián)分析,該模型可以應(yīng)用到頁面、站內(nèi)外搜索詞、產(chǎn)品、廣告渠道。跟Adobe Analytics的異常檢測的現(xiàn)成報表不同,Webtrekk的關(guān)聯(lián)模型報表需要進行簡單配置才能查看。通常我們在用數(shù)據(jù)挖掘工具做數(shù)據(jù)挖掘時會選擇數(shù)據(jù)源、數(shù)據(jù)預(yù)處理、算法本身需要配置低支持度、低置信度和大前項數(shù)等,同樣在Webtrekk的關(guān)聯(lián)分析配置中也需要進行配置:
關(guān)聯(lián)分析的算法支持交叉銷售算法和向上銷售算法兩種; 數(shù)據(jù)集都是采用Raw Data,時間大只能選擇一天; 分析規(guī)則上支持不同級別的頁面、渠道、產(chǎn)品、廣告、站內(nèi)外搜索詞的關(guān)聯(lián),即可以生成頁面關(guān)聯(lián)報表、站內(nèi)外搜索詞報表、廣告渠道報表、產(chǎn)品報表; 支持高級配置功能。支持小頻繁度;選擇向上銷售時會需要確認(rèn)向上銷售的數(shù)據(jù)集時間;還支持網(wǎng)站分析里面的細分功能,比如我就需要看某個頁面的關(guān)聯(lián)效果,只需要過濾該頁面即可。
Webtrekk的關(guān)聯(lián)模型應(yīng)用的范圍非常廣,它可以提供以下的數(shù)據(jù)價值洞察:
用戶搜索了站內(nèi)A關(guān)鍵詞之后通常會優(yōu)化搜索哪個關(guān)鍵詞?
用戶在看了A頁面之后,通常還會看哪個頁面?
用戶買了A產(chǎn)品之后,還會一起買哪個產(chǎn)品?下次又會買哪個產(chǎn)品?
用戶從A渠道進入網(wǎng)站之后,通常還會從哪個渠道再次進入?
實際上在所有的數(shù)據(jù)挖掘類算法中,規(guī)則提取類是受業(yè)務(wù)應(yīng)用關(guān)注的算法,原因是提取后的規(guī)則可以直接指導(dǎo)他們?nèi)绾芜M行業(yè)務(wù)實踐,因此實用性強(所謂的規(guī)則提取類算法包括關(guān)聯(lián)、回歸、決策樹等以直接目標(biāo)為分析導(dǎo)向,提取能實現(xiàn)目標(biāo)規(guī)則的算法,如購買A的用戶下一次通常會購買B)。
盡管Webtrekk的這個算法很好,但問題在于數(shù)據(jù)集時間太短。通常情況下,我們會選擇合適的樣本量,數(shù)據(jù)太大意味著數(shù)據(jù)浪費,數(shù)據(jù)太小不能說明問題。一天的數(shù)據(jù)量有點小,很可能會有一些偶然性因素出現(xiàn)在結(jié)果中,如果能擴大到1周甚至是1個月的數(shù)據(jù)效果會更好。當(dāng)然,更大的數(shù)據(jù)量意味著更多的數(shù)據(jù)處理需求和更長的時間,這個需要進行取舍。
(二) 更科學(xué)的數(shù)據(jù)洞察開始
有經(jīng)驗的數(shù)據(jù)分析師,在拿到數(shù)據(jù)的第一時間并不是開始進行數(shù)據(jù)分析和挖掘工作,而是先要看數(shù)據(jù)。
什么是看數(shù)據(jù)?
看數(shù)據(jù)就是對目前的整體樣本進行數(shù)據(jù)評估以確認(rèn)該數(shù)據(jù)需要如何進行下一步預(yù)處理(完整的數(shù)據(jù)分析流程包括需求處理、數(shù)據(jù)處理、專項分析、部署優(yōu)化和項目總結(jié),具體請見《如何建立落地型數(shù)據(jù)分析(挖掘)流程?》)。
如何看數(shù)據(jù)?
看數(shù)據(jù)就是要看數(shù)據(jù)的整體分布、數(shù)據(jù)趨勢、數(shù)據(jù)極值、平均值、標(biāo)準(zhǔn)差和方差等,以此來判斷該數(shù)據(jù)是否穩(wěn)定并且判斷是否存在異常值。對比Adobe Analytics和Webtrekk,Adobe Analytics僅在報表底部提供了數(shù)據(jù)匯總功能,相比之下,Webtrekk做的可圈可點:
提供了更多的整體數(shù)據(jù)查看選項。包括平均值、大值、小值、匯總、頁面內(nèi)數(shù)據(jù)匯總等,通過這些指標(biāo),可以一眼看到所選擇的報表中數(shù)據(jù)的分布情況,結(jié)合頂部的數(shù)據(jù)趨勢等圖形可以有效判斷數(shù)據(jù)分布。 提供了針對每天數(shù)據(jù)的提示功能。包括高亮或柱形圖,日常我們在Excel中做數(shù)據(jù)匯總時,這種表示方法是基本的標(biāo)注數(shù)據(jù)關(guān)注度的方法,如果把這個表格做成Dashboard直接發(fā)送給老板,老板會更容易在一堆數(shù)據(jù)中發(fā)現(xiàn)重點標(biāo)注的數(shù)據(jù);另外我們在自己做數(shù)據(jù)時也會非常容易發(fā)現(xiàn)數(shù)據(jù)的異常值。
注:相關(guān)網(wǎng)站建設(shè)技巧閱讀請移步到建站教程頻道。
原創(chuàng)不易,未經(jīng)授權(quán),嚴(yán)禁轉(zhuǎn)載
原文地址:http://www.mpian.cn/web/plan/2014-04-30/1079.html