說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
▍數據的獲取
01.數據來源平臺
多數企業都是直接用統計軟件來獲取的,如GA、百度統計、CNZZ、51la等,雖然大體是相同的但是仔細分析下來還是會有細微的差距。估計很多朋友也在GA或者百度、cnzz到底用哪個 來統計數據糾結過。如果你的網站上了百度競價,那么百度統計是更好的選擇。現在統計代碼基本都是異步加載,不用太過擔心速度問題,如果你還糾結,那也可以全部都使用一下。
02.本地保存“即時數據”
統計軟件后臺一般會有一些分類數據,如來路頁面、受訪頁面等,基本不受時間限制,隨時可以的。但是要注意那些需要即時保存的數據欄目,舉個例子,CNZZ后臺的“訪問明細”,該欄目只保存近7天的數據,這意味著如果你一不注意,數據有可能找不回來了。所以,這類數據建議保存在本地。
?
03.數據格式“.xls”
在統計后臺數據的過程中,基本都會出現格式選項,CNZZ是.csv和.xls,百度統計是.csv和.pdf。pdf數據自帶圖表;csv為純文本數據格式;xls為Excel專用,便于數據分析。其中.csv文件和.xls下來后,數據的長相極其相似。因為csv文件是純文本數據,并不是數值,所以不能進行數據上的求和,求平均值,只能計數!如果你不小心用了.csv文件,一定要先處理成數值,否則后期數據分析時會有無法正確統計的情況!
04.多頁數據采集及合并
當你需要保存在線數據時,需要注意一個小細節,比如CNZZ的“訪問明細”欄,右上角顯示的按鈕是“本頁報表”,而其他欄目的按鈕是“報表”,兩個仔細一對比你發現了,一看原來只是一頁的數據,再想的時候,服務器數據已經過了7天,數據不在了…所以小伙伴們一定要注意,千萬不要被坑!
每頁報表,會有一個問題是當你的網站訪問量很大時,訪問明細數據每一頁都需要點擊。這個很頭疼。
我目前的解決辦法是使用“火車頭采集器”,模擬人工點擊,每頁數據;
第二個問題是:自動的數據每一張都有表頭/尾,人工合并也會累死。可以使用Excel VBA功能,但我的辦法是使用“慧辦公”插件的合并多表功能,這種有使用限制,需要購買,
大家如果更好的辦法也希望分享出來
▍數據清理
01.盡量不對源數據做修改
我做數據分析有個原則,是“堅決反對對源數據進行直接修改”。首先,專業的統計軟件在設計統計后臺的數據時,已做精選,選出的數據能夠限度滿足用戶的需求。當源數據不符合你的要求時,千萬別在源數據中插入行和列,比如要插入日期列,請插入在數據表頭或者尾。因為每次保存數據時,都是直接從好的表格中粘貼數據,在源數據表中多出任何一行或列都會增加你的操作成本。
也是說,對源數據盡量減少人為干預,減少出錯,省心省力。
02.坑貨csv要轉化為數值
在數據獲取部分我提到了關于源數據是.csv格式的問題,如果你知道這里有坑不進去是的,但是已經進去了,怎么辦?我開始源數據一直用csv,因為csv的文件小,速度快,數據分析時蒙B了。那么已經保存為csv格式的數據怎樣變成數值呢?答案是Excel的分列功能。
1)Excel打開源數據表,復制部分數據到.txt文本中,觀察源數據用的什么符號;
2)選中某列數據,點擊導航欄“數據”—“分列”;
3)下一步,如圖中的數據分隔符是“Tab”+“””,那么選擇Tab和其他兩項,繼續下一步;
4)選擇目標區域(要復制在哪里),搞定。
▍如何制表
01.報表是你思考結果的展示
很多企業可能制表人與分析人都不是同一個。要記住報表是要把分析人的思路更簡潔的展示給其他人。所以推薦制表人是分析人本人。不要以浪費時間和辦公軟件不熟悉為由拒絕,熟練掌握辦公軟件,我覺得是運營人的基本素質。
思路的展現邏輯一般是“總分總”,以網站分析說,我的框架是:流量趨勢→來源渠道→渠道1明細→渠道2明細…→來路分析→受訪分析→搜索詞→外鏈。
02.制定表格規范
制表中切記展示圖表不能亂用,用折線圖表達百分比關系?數據對比用折線圖??為數據選擇合適的展現圖表類型,比較數據間區別時,用條形圖;表示不同項在總體的占比時,用餅狀圖;反映事物變化時,用折線圖;觀察不同項目長短板時,用雷達圖…還有其他諸如符號使用規范、配色規范等,這里不再啰嗦了。總之,你換位思考一下,別人看你的圖表的時候能不能理解的透徹呢?
03.數據分析后一定要有可執行建議
把數據做成表格不是為了裝逼,讓別人看起來很牛。作為一個專業人員始終記得“報表只是你思考結果的展示”,重要的是你通過數據分析出來了對今后工作有指導性的建議。把報表做的漂亮是一種能力,但是美觀始終流于表面。只有真正有指導性的建議才能長久的打動人。
這個問題很難了,但如果能分析的好,你不僅僅是個專員。
04.透視表,降維打擊
使用Excel做分析的時候,基本上是直接用基本的篩選、公式(sumif、countif、sumproduct)、條件格式之類,雖然操作逐漸變得熟練,速度越來越快。可是想象一下,當你需要對比源數據中兩天某一項數據的區別時,可能需要先加入三列輔助列,然后使用countif函數對兩列進行計數,第三列使用減法再加上顏色的條件格式。如何對比兩個月的數據呢?用sumproduct,多塞幾個條件??
透視表工具早學早好,使用的Excel的“數據透視表”功能后,能力會加強太多了,“對比功能”“創建組”功能,分析起來簡直不要更爽!另外,對于Excel的學習,基本功也別落下,對數據的基本函數和條件格式,用好了也能帶你飛。
▍分析要素
01.日記:當天有特殊情況記錄在趨勢表中
一個網站的運營者,每天上班的必做是粗略過一遍昨天的統計數據。把每天收集到可能影響到網站數據的情況“批注”在趨勢表中,等到周報時進行數據對比,會方便很多。包括一些活、EDM等等標注好有利于之后的總結工作。
02.峰值:高峰、低峰都不能放松
在面對圖表分析時,峰值為明顯。但是很多人只分析不好的低峰而忽略高峰,對高峰擅自代入。
面對峰值時,首先要縮小粒度。如觀察8月8日出現低峰,那么再看是在8月8日當天哪幾個小時數值降低,再分別篩選出這幾個小時的來訪及受訪數據,逐一分析,找到根源。低峰找出原因,今后避免;高峰,也找出原因,今后重現,驗證你找到的原因。
03.對比:約束變量,同軸對比
在上文中提到了“制定表格規范”,其中對比規范的核心是要同軸。比如數據對比坐標軸不能瞎變,這周記錄的是星期一到星期天,對比的是本周和上周;下周記錄的變成了星期三到星期五,對比的是上半月和下半月。坐標軸一定要按照表格類型來,周報告以周報告為軸,對比的也是本周7天和上周7天的數據。有特殊情況需要在周報告中顯示更長的時間段時,應該固定該時間。頻繁更換坐標軸是非常不明智的。
04.經驗:記住周期性現象,這是你的寶藏
什么叫周期性現象,比如“每逢節假日流量下降”、“每逢流量下降”、“每周三9點PV暴增”等等,多次重復并反映在數據波動上的情況。
針對平臺運營,記住所有周期現象,這是你今后工作比別人更專業的經驗來源,不需要企業花費大量試錯,節省大量人力物力。
05.反常:事出反常必有妖
什么叫反常現象,比如大多網站在中午12-14點間,流量都會因為網民需要休息顯著降低,且PC流量降低,移動流量驟升。但是如果某,或者某一周的12-14點流量全體暴增呢?
反常現象是在周期性現象的異變,當多次出現反常現象時,你找到原因后要開始重新審視周期性現象是否產生了變化,是否是政策變化;是否是環境風向變化;是否是平臺玩兒變化等。
▍理論誤區
01.猜測不代表結論
進行數據分析時,先看日記中記錄了哪些行為,再對比數據結果看記錄該行為的同時是否產品數據波動,如果數據波動符合日記中的行為常識,那么可以大膽猜測該項數據變化是由該次行為導致。
接著你要做的是通過數據驗證它,而不是武斷的認為數據波動是這個行為產生的。
比如,公司派同事去路演,路演PPT尾頁留有微信公號的二維碼。結果在數據分析時,發現當天微信新關注數量暴增。然后運營人員不經過驗證直接武斷的把新增用戶的效果歸于路演,甚至得出了要多參加路演的指示。可是在數據分析時,發現當天新關注數的增長來源是“名片分享”而不是“掃描二維碼”,后來一問才知道,是社群組的同事進行了一次小范圍的社群名片互動。
始終要記住“猜測不代表結論”,提出猜測后,要證實它。當出現實在找不到根源的問題時,先暫時放棄,記錄下你的猜測,找機會再驗證它。
02.深入分析,結論可能是假的
剛才提到了“猜測不代表結論”,這里面存在連環套。因為數據分析工作面對著大量數據,時間一長,人難免會焦躁,特別是老是找不到原因時,很容易得到假結論。
舉個例子,某次分析網站數據時,對比發現有網站的PV暴增許多,縮小粒度后發現數據增幅集中在當天14-17點,然后開始分析“受訪頁面”的訪問次數,一排序,發現某個欄目PV暴增,一問部門同事才發現是因為內容運營開了爬蟲,抓取了大量的信息流,提高了PV量。
這時候,如果不細想很容易得出“PV暴增是因為內容組抓取大量內容導致”的表面結論。因為回到問題中,原現象是“14-17點,PV暴增”,現有的表面結論并沒有按照小時粒度去分析,終分析14-17點小時數據時,發現原來是因為這三個小時來了一位新訪客,瀏覽了多篇資訊文章,然后把所有欄目都看了一遍。
所以終PV暴增的原因應該是“新訪客瀏覽整站”和“內容組開爬蟲”共同作用引起的,而非單一項。在實際工作中,人們很容易只是看到了層表象得出結論,時刻記住多深入分析,想想現有的結論是不是到小粒度了,有沒有可能是個陷阱?
▍結語&題外話
01.當你的某項工作長期不見起色,懷疑源頭試試
以數據分析來說,分析人員有時候會出現分析來分析去是得不出結論的現象,導致這種現象的原因除了上文提到過的“csv格式”等操作問題時,還有可能是數據源本身出現了錯誤。別想著機器一定正確,如CNZZ后臺統計“來源分類”時,四個來源渠道數量想加出現了不等于總和的情況。這里面有部分來源是后臺統計不到的,所以沒有計入。也會有數據表格時,后臺出錯一了張空表,合并時出現大坑。
所以適當的懷疑源頭,說不定會有意想不到的發現。
02.三方平臺不可靠?那自建
剛才提到了統計后臺出錯的一些情況,當后臺出錯的次數很高,降低了運營者對統計軟件的信任度。一旦對源數據的正誤產生了懷疑,工作起來絕不會順心。
既然三方平臺不可靠,有實力讓公司的技術人員自行搭建后臺吧。在技術人員實力過硬的情況下,不僅可靠,而且可擴展性強,分析粒度也更細(如CNZZ不能統計用戶行為路徑),可以完全按照運營人的數據要求進行定制,后期為用戶建模時,提供的數據支撐。
03.數據不會說話,但你要負責
在數據分析中,會慢慢得到一些樂趣,次學會用Excel某個函數的得意、次知道透視表時的興奮、次制作PPT被夸獎時的欣喜…你發現了很多坑,也學了很多小技巧。會從小白變成大神,能輕易的使用某個小聰明的手段,掩蓋掉真實數據的缺點。這些,數據永遠不能開口說話,但是你要對自己負責。
本文來源于網絡,歡迎大家一起交流分享
推薦閱讀
百度競價數據分析 | 文軍營銷百度競價數據分析 做數據分析要抓住核心的東西“轉化率”,采用:對比、細分、溯源的分析方法,憑借福爾摩斯的聰明才智,一定可以做出完美的數據分析。 為近100家大中型企業提供優質搜索引擎營銷服務 為近1000家行業客戶提供專業搜索軟件產品 平均節約約50%的營銷成本 平均提供200%的流量...競價推廣分析 競價推廣該如何分析數據 | 文軍營銷競價推廣分析——競價推廣該如何分析數據 第一、要知彼。 在競價推廣之前一定要清楚的了解同行的動向,了解同行的優勢賣點,了解同行競價推廣的關鍵詞、推廣區域、創意編寫、展現形式、語句長短的等等方面,做到知彼,這樣才能知道如何讓自己的創意與眾不同; 第二、要知己。 要清楚的了解自己的優勢,特別是于同行之間的差距...
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732