說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
嗯?你不知道曹大神是誰?額,那還是先來曬曬他的履歷吧。咦,在百度百科上竟然沒找到,好吧,果斷找到了知乎上的說明。
曹政,網名caoz。俞軍(不知道是誰的點這里)的關門弟子,CNZZ統計工具的,前百度商業產品部boss,4399CTO。曾參與創建一統統計,cnzz站長統計,并曾主持搭建百度商業分析支撐平臺,數據控。
這里,丟個知乎上關于他的介紹地址好了,有興趣的親們,請點進去自己看哈。
不能跑題,這里是繼續來說數據分析的,其實也不算是什么博大精深的東西,但是對于俺們這種入門級的玩家來說,也算是一個很好的指導吧。
一、關于數據感
Rude曰:一個甲方的接口人,每次我把報表給他時,他總是一看能發現一些我根本注意不到的問題,之前感覺十分神奇,忽然找到了給他這種本領的定義,數據感。
下面是caoz對數據感的定義:
什么是數據感?是別人說一個數據出來,你會琢磨一下這個是否符合常理,與你日常的數據觀測經驗是否一致,如果不一致,那么可能的理由是哪些? 比如12306號稱幾十億次點擊,如果你有數據感,眼會質疑這個“點擊”定義的合理性;比如曾經有人說某國內圖片分享網站多少億訪問量,眼知道這個“訪問量”定義是有歧義的,(事后官方解釋是圖片加載量,這個和訪問量差異幾十倍。) 數據感需要不斷的培養,和基本的邏輯(比如你應該知道中國有多少網民,每天有多少人上網,一個大概什么類型,什么排名的網站會覆蓋網民的比例是多少),以及善于利用各種工具,我以前在巨頭公司,得益于公司巨大的數據資源,可以看到很多互聯網的核心數據;但是離開后,才發現,其實互聯網上公開可獲取的數據途徑是非常多的,而且善于利用的話非常有效。每天去查詢一些感興趣的數據,經過一段時間積累,想沒有數據感都難。
作為公司或團隊負責人,怎么培養員工的數據感,我其實也有一個建議,平時可以搞一些小的競猜,比如團隊集體競猜新產品或產品改版上線后的日活躍用戶,或者pv數字,或者收入數據,等等;然后看誰的準,一種是懲罰制,不準的請準的喝奶茶,吃冰淇淋;另一種不懲罰,準的累計積分后公司可以發一些獎品鼓勵,這樣下去大家的數據感會在日常培養起來,而且對團隊的氣氛培養也有幫助。
二、關于數據分析的方法
Rude曰:說道這個,或許答案應該是各種語言,各種算法。但是 ,仔細想想,或許此處也應該遵循簡單粗暴有效的方式。
曹大神曰:談數據分析的方法,我的建議是,不炫技,不苛求技術復雜度,簡單的數據,所包含的信息往往是有價值的,而很多人恰恰這一步都沒做好,總想著弄一堆挖掘算法;數據的價值在于正確的解讀,而不是處理算法的復雜度,切不可喧賓奪主。 大公司的kpi制度,往往會產生偏差,比如技術工程師的評定,要講究“技術復雜度”、“技術性”,直接導致簡單的事情沒人肯做,基本的工作不認真做!所以往往是大公司的分析工程師,為了評工程師,非要簡單問題復雜化,四則運算搞定的事情一定要弄一套詭異的算法,終非但浪費了資源,消耗了時間,而且往往由于工程師對業務理解的漠視,對應的產品人員又對算法的陌生,導致了嚴重的理解歧義,從而出現各種誤讀。
三、關于數據解讀
Rude曰:這里,表示屬于一個空白區,但是,確實可以感受到有時候根據數據下的結論還是有偏差的,我將這種錯誤歸結為邏輯上的偏差。
曹大神曰:
數據解讀,不能是為了迎合誰,要遵循數據的本質,要遵循科學的邏輯,要有想象力(配合求證),可能有時候也需要依賴人脈關系所獲得的情報,(這個也有很多典型范例),這個具體再怎么說可能我也說不清楚,說幾個反面例子也許更容易理解。
1、因果關聯錯誤,或忽略關鍵因素,A和B的數據高度相關,有人片面認為A影響了B,或者B影響了A;但是,有時候真實原因是C同時影響了A和B,有時候C被忽略掉了。
2、忽略沉默的大多數,特別是網上投票,調查,極易產生這種偏差,參與者往往有一定的共同訴求,而未參與者往往才是主流用戶。
3、數據定義錯誤,或理解歧義,在技術與市場、產品人員溝通中產生信息歧義,直接導致所處理的數據和所需求的數據有偏差,結果顯著不正確。
4、強行匹配;不同公司,不同領域的數據定義可能不一致,在同一個公司內或領域內做對比,往往沒有問題,大家對此都很習慣,卻有評論家不懂裝懂,強行將不同定義的數據放在一起對比做結論,顯著失真;海外金融機構在分析中國頁游和端游市場連續犯這類錯誤。
5、忽略前提;有些數據結論是基于某種前提,符合某種特定場景下得出的,但是解讀者有意或無意忽略前提,將結論擴大化,顯著誤讀。
6、忽略交互;在商業模式改造和產品改進,往往都會出這類問題,簡單說,你游戲中的道具降價,對收入的影響是增還是減?如果忽略交互,僅僅依賴于數據推算,當然是減,但是實際呢?做運營的都知道。
7、缺乏常識;如果對一些重要的紀念日,節日,或者網購節不了解,那去處理有關數據顯然不知所云了。做行業報告更是如此,很難想像對行業不了解的人能做出怎樣的報告。
8、無視樣本偏差;我們通常做數據調研,是基于樣本數據,而采樣過程本身很難做到完全的公平和分散,樣本偏差要控制在合理范疇內,即便無法控制,在結論中也需要標注;這才是嚴謹的數據解讀,對樣本偏差視而不見,甚至為了某種宣傳目的刻意尋找偏差的樣本,都不可能做出好的數據結論。
四、關于數據怎么看
Rude曰:數據需要對比,細分之后總能找到問題的癥結,這點在之前的工作中相當之有體現。
曹大神曰:
簡單說是“對比,細分,溯源” 六字真言,沒了。
對比,數據放在那里,是沒意義的,你說你游戲周流失率80%,啥情況?不知道,你問我我也不知道。對比起來才知道。
一是橫比,你拿出50款游戲來比,別人平均流失率90%,你80%,你游戲還不錯勒,別人要平均流失65%,你80%,這有問題了。
二是縱比,和自己時間軸比,你兩個月前1.0版本流失率90%,你現在80%,有進步么,你要是兩個月前是50%,現在80%,好好反思嘍。
所以,我特別強調,在通常企業數據監控,顯示一大屏數據的界面上,對比特征要體現,比如所有同比下降超過多少比例的一概紅色體現,所有上升多少比例的一概綠色體現,公司運營狀況一目了然。
細分,數據出現對比異常,你當然想知道原因,那需要細分了。
細分先分緯度,再分粒度,什么是緯度?你按照時間去分,是時間緯度,按照地區去分,是地區緯度,按照來路去分,是來路緯度,按照受訪去分,是受訪緯度;你說網站訪問量漲了5%,咋回事不知道,你細分一看,大部分網頁都沒漲,某個頻道某個活動頁漲了300%,這清楚了,這是細分簡單的范例,其實很多領域都通用。 粒度是什么,你時間緯度,是按照天,還是按照小時?這是粒度差異,你來路緯度,是來路的網站,還是來路的url,這是粒度的差異;這樣可以將對比的差異值逐級鎖定,尋找原因。
溯源,有時候我對比,細分鎖定到具體緯度,具體粒度了,依然沒有結論,怎么辦,溯源,依據鎖定的這個緯度和粒度作為搜索條件,查詢所涉及的源日志,源記錄,然后基于此分析和反思用戶的行為,往往會有驚人的發現,我們正是基于這一邏輯發現過產品的一些缺陷,而且你不斷通過這個方式分析數據,對用戶行為的理解也會逐步加深。
小結:
數據分析,是一條苦逼的路,但是數據驅動決策,卻是十分理性的選擇。當然,在現實生活中,或許驅動你決策的,更多是信仰。
來自于:《seo科學之美》中的文章均系Rude原創
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732