獨(dú)家!如何玩轉(zhuǎn)數(shù)據(jù)分析?(該如何弄數(shù)據(jù)分析)
編輯導(dǎo)語:產(chǎn)品的完成離不開數(shù)據(jù)分析這一步,作為一名產(chǎn)品設(shè)計(jì)師必須具備根據(jù)實(shí)際情況去建立模型的能力。這篇文章介紹了如何玩轉(zhuǎn)數(shù)據(jù)分析,推薦想要了解數(shù)據(jù)建模的童鞋閱讀。
作為產(chǎn)品設(shè)計(jì)師,數(shù)據(jù)分析不僅僅簡單的根據(jù)產(chǎn)品給的數(shù)據(jù)去分析,而是要根據(jù)實(shí)際情況去建立模型。(為便于理解,文中所示代碼不是特別規(guī)范,不影響使用,望包涵)
數(shù)據(jù)驅(qū)動設(shè)計(jì)流程
一、數(shù)據(jù)化決策——數(shù)據(jù)化決策的過程就是量化的過程
數(shù)據(jù)化決策就是通過量化的數(shù)據(jù)來輔助我們進(jìn)行決策,從而提升決策的科學(xué)性和準(zhǔn)確性。
1. 了解量化
歷史上最早的科學(xué)家曾經(jīng)不承認(rèn)實(shí)驗(yàn)可以有誤差,認(rèn)為所有的測量都必須是精確的,把任何誤差都?xì)w于錯誤,直到后來人們才慢慢意識到誤差永遠(yuǎn)存在,不可消除。量化也是如此,量化是為了減少不確定性、估算風(fēng)險,從而輔助決策,因此量化的過程也不需要無限精確,不需要完全消除不確定性,只要能夠支持我們決策即可。
2. 置信區(qū)間——量化的一種方式
因?yàn)榱炕⒉灰欢ǘ际且粋€精確的數(shù)字,并且在現(xiàn)實(shí)中,我們經(jīng)常會遇到數(shù)據(jù)不完善、數(shù)據(jù)量過于龐大短時間內(nèi)難以處理,因此我們引入統(tǒng)計(jì)學(xué)概念——置信區(qū)間,用于輔助我們決策。置信區(qū)間是指:以特定的概率表示一個正確答案的范圍。
一般情況下,我們要求置信區(qū)間要足夠窄,且信心要在80%以上。信心過低意味著這個數(shù)據(jù)區(qū)間錯誤的可能性很大,區(qū)間過大意味著這個區(qū)間缺乏參考意義。
例如:本次考試的成績有100%的信心在[0,100],這個區(qū)間等于什么都沒說,缺乏了參考意義;本次考試的成績有5%的信心在[95,100],這意味著本次考試成績有95%的信心在[0,95],因此[95,100]這個區(qū)間很有可能是錯誤的。本次考試的成績有80%的信心在[85,100],這意味著這個區(qū)間很有可能是對的,能夠反應(yīng)真實(shí)情況,甚至我們可以認(rèn)為班級平均分是92.5左右。
置信區(qū)間示例
二、數(shù)據(jù)拆解
1. 確定目標(biāo)——目標(biāo)必須可量化
每個項(xiàng)目都有一定的目標(biāo),因此我們在做之前,必須要了解我們的目標(biāo)是什么,有些時候,業(yè)務(wù)或者產(chǎn)品直接會告訴我們目標(biāo)是什么,例如提升留存率、提升轉(zhuǎn)化率,此時目標(biāo)非常清晰,我們直接進(jìn)行目標(biāo)拆解就可以了,當(dāng)然有些時候目標(biāo)會比較模糊,例如提升用戶體驗(yàn),此時我們需要通過澄清鏈的方式讓目標(biāo)變的可量化。
2. 澄清鏈——讓目標(biāo)可量化
澄清鏈就是把某物想象為無形之物再到有形之物的一系列短的鏈接過程。例如有些時候我們的目標(biāo)是提升用戶體驗(yàn),這個目標(biāo)是不符合「SMART原則」中可衡量這一條,此時我們沒法直接開始做,我們需要將這個目標(biāo)變成量化的。這個目標(biāo)我們可以感知到嗎,通過哪些方面感知呢?
這些可感知的方面是可以衡量的嗎?那么我們要通過其他數(shù)據(jù)來衡量?此時我們要反問,為什么要提升用戶體驗(yàn)?提升用戶體驗(yàn)用戶會有哪些行為?那可能用戶更愿意逛我們的平臺,那就可以用停留時長、瀏覽的屏數(shù)來衡量體驗(yàn)是否真的提升了。
澄清鏈?zhǔn)纠?/p>
3. 目標(biāo)拆解——把業(yè)務(wù)目標(biāo)變成設(shè)計(jì)目標(biāo)
確定好目標(biāo)后,此時的目標(biāo)可能更偏向于業(yè)務(wù)側(cè)/產(chǎn)品側(cè),較為抽象,難以直接通過設(shè)計(jì)達(dá)到,因此需要將目標(biāo)拆解成不同數(shù)據(jù)指標(biāo)的組合,從中選取設(shè)計(jì)可以觸達(dá)的數(shù)據(jù)從而達(dá)到目標(biāo)。
4. 行為路徑分析法——研究用戶行為數(shù)據(jù)
基于用戶的行為路徑(用戶行為路徑即將用戶點(diǎn)擊瀏覽的數(shù)據(jù)可視化而成)來拆解目標(biāo),找到設(shè)計(jì)可發(fā)力的環(huán)節(jié)從而達(dá)到目標(biāo)。
這個方法的難點(diǎn)在于要對業(yè)務(wù)非常熟悉,需要詳細(xì)的了解用戶所有的路徑,通常也可以采用“抓大放小”的方式,整理出用戶主路徑,對主路徑進(jìn)行研究,暫時放棄子路徑。例如用戶完成目標(biāo)G可能需要經(jīng)歷A-B-C-D-E-F這些,整理出每個頁面的UV,從而找到中間的漏損最嚴(yán)重的點(diǎn)進(jìn)行優(yōu)化。
用戶行為路徑一覽圖(示例)
用戶主路徑一覽圖(示例)
5. 公式分析法——較為開放式的方法
即通過數(shù)據(jù)的計(jì)算公式進(jìn)行拆解。例如:GMV=UV*客單價*轉(zhuǎn)化率,此時我們就知道,我們可以通過提升UV、提升客單價或者提升轉(zhuǎn)化率的方式來提升我們的目標(biāo)。公式法還可以嵌套使用,例如轉(zhuǎn)化率=下單用戶數(shù)/首頁UV,下單用戶數(shù)=頁面A UV*頁面A轉(zhuǎn)化率*頁面B轉(zhuǎn)化率*···*頁面N轉(zhuǎn)化率。
也可以和行為路徑法結(jié)合使用。使用公式法要注意,當(dāng)遇到一些比率的指標(biāo)時,分子和分母不能同時變大或者同時縮小,否則難以實(shí)現(xiàn)總的數(shù)據(jù)指標(biāo)的成長。這種方法適用于對于目標(biāo)非常明確的。
公式分析法示例
6. 數(shù)據(jù)分層法——較為發(fā)散式的方法
尋找創(chuàng)新型解法或數(shù)據(jù)體系不夠完善時使用。我們將數(shù)據(jù)按一些維度進(jìn)行分層歸類,發(fā)現(xiàn)數(shù)據(jù)間的共性和聯(lián)系,從而找到設(shè)計(jì)發(fā)力的點(diǎn)。需要注意的是,數(shù)據(jù)的每一次分層都需要保證維度是統(tǒng)一的,一般是用戶路徑數(shù)據(jù)、用戶畫像數(shù)據(jù)、產(chǎn)品數(shù)據(jù)這三個維度進(jìn)行分層:
一,用戶路徑數(shù)據(jù):用戶在這個頁面之后有多少用戶沒有按照既定的設(shè)計(jì)進(jìn)入下一個頁面,他們?nèi)チ四男╉撁妫謩e占比是多少?去了這些頁面之后又去了哪里,分別占比是多少,整理出用戶的路徑尋找共性。
用戶路徑數(shù)示例
二,用戶畫像數(shù)據(jù):訪問這一頁面的有哪些用戶,這些用戶有哪些共性,例如都是女性、都是18-25歲的女性、都是18-25歲研究生學(xué)歷的女性。
用戶畫像數(shù)據(jù)示例
三,產(chǎn)品數(shù)據(jù):產(chǎn)品數(shù)據(jù)進(jìn)行排序、分層。例如:優(yōu)惠券領(lǐng)取頁UV、優(yōu)惠券領(lǐng)取數(shù)量、優(yōu)惠券使用數(shù)量。那么優(yōu)惠券的領(lǐng)取率和使用率是多少?領(lǐng)一、二、三張優(yōu)惠券的用戶占總體的比率分別是多少?優(yōu)惠券使用一、二、三張的用戶占總體比率是多少?當(dāng)頁面UV為0-1000時,優(yōu)惠券領(lǐng)取數(shù)量、優(yōu)惠券使用數(shù)量是多少,其領(lǐng)取率和領(lǐng)取使用率如何,當(dāng)UV為1001-2000時,優(yōu)惠券領(lǐng)取數(shù)量、優(yōu)惠券使用數(shù)量是多少,其領(lǐng)取率和領(lǐng)取使用率如何,以此類推:
產(chǎn)品數(shù)據(jù)分層示例
產(chǎn)品數(shù)據(jù)分層示例
數(shù)據(jù)分層后還可以嵌套分層,例如先將用戶畫像數(shù)據(jù)分了A、B、C層,那么我們可以去研究A層用戶行為數(shù)據(jù)分層情況如何,B層用戶行為數(shù)據(jù)分層情況如何,C層用戶行為數(shù)據(jù)分層情況如何。當(dāng)數(shù)據(jù)分層后,就可以尋找關(guān)聯(lián):
- 尋找關(guān)聯(lián):此時建議使用餅狀圖和折線圖,餅狀圖用于查看分布情況,折線圖用于查看趨勢情況,例如用餅狀圖可以查看用戶領(lǐng)取優(yōu)惠券數(shù)量的占比,我們能找到哪個部分的數(shù)量最多,用折線圖可以查看領(lǐng)取數(shù)和使用率的關(guān)聯(lián)性。
- 匹配目標(biāo):我們繪圖之后我們會很容易發(fā)現(xiàn)規(guī)律,例如,我們會發(fā)現(xiàn)領(lǐng)取的優(yōu)惠券數(shù)量越多,用戶的使用率越低,結(jié)合公式法我們知道,使用率=使用的優(yōu)惠券數(shù)量/領(lǐng)取的優(yōu)惠券數(shù)量,如果要提升領(lǐng)取率,我們可以提高使用的優(yōu)惠券數(shù)量也可以減少領(lǐng)取的優(yōu)惠券數(shù)量,但是如果我們減少領(lǐng)取的優(yōu)惠券數(shù)量,雖然使用率提高了,但是對于業(yè)務(wù)并沒有幫助,只是虛假的繁榮,因此我們應(yīng)該提升優(yōu)惠券的使用數(shù)量。
- 合理推測:當(dāng)我們找到發(fā)力點(diǎn)之后,可以進(jìn)行腦暴,推測數(shù)據(jù)不理想的原因,后續(xù)可以通過用戶調(diào)研進(jìn)行驗(yàn)證。例如,我們可以猜測用戶領(lǐng)取那么多的優(yōu)惠券其實(shí)并不知道這些優(yōu)惠券到底是哪些,使用門檻是什么,只是看到就領(lǐng)了。
三、數(shù)據(jù)分析
數(shù)據(jù)分析分為三個部分,分別為數(shù)據(jù)清洗、數(shù)據(jù)處理、機(jī)會點(diǎn)排序。
1. 數(shù)據(jù)清洗
數(shù)據(jù)清洗包括了無效數(shù)據(jù)清洗、重復(fù)數(shù)據(jù)清洗、無關(guān)聯(lián)數(shù)據(jù)清洗。一方面是為了將垃圾數(shù)據(jù)剔除,以免影響數(shù)據(jù)結(jié)果,另一方面是為了減少數(shù)據(jù)干擾,提升處理效率。
2. 數(shù)據(jù)處理
由于我們想要的數(shù)據(jù)可能并不是標(biāo)準(zhǔn)常見的數(shù)據(jù)指標(biāo),因此我們拿到原始數(shù)據(jù)之后需要根據(jù)我們的需求將原始數(shù)據(jù)處理成我們想要的數(shù)據(jù),例如領(lǐng)取一張優(yōu)惠券的用戶占總用戶數(shù)的比例,領(lǐng)取兩張優(yōu)惠券的用戶占總用戶數(shù)的比例。
3. Python教程
推薦使用Python,簡單易學(xué)且數(shù)據(jù)處理更為高效以下代碼也可以復(fù)用。
4. 頭文件
每個Python文件都有頭文件,頭文件導(dǎo)入了各種模塊,常用的有matplotlib、pandas、numpy、openpyxl。其中matplotlib用于繪圖,pandas和numpy用于數(shù)據(jù)處理,openpyxl用于支持各種數(shù)據(jù)表的格式導(dǎo)入。
5. 導(dǎo)入原始數(shù)據(jù)
在處理之前需要把原始數(shù)據(jù)導(dǎo)入進(jìn)來,以excel文件為例,其中./newdata.xls是原始數(shù)據(jù)excel表的路徑和完整的名字,source_data是用于存放原始數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu),可以根據(jù)自己需求定義為不同的名字。
6. 創(chuàng)建空表
我們還需要新建一個空表,用于存放我們處理好的數(shù)據(jù),shape=(0, 3)中的0和3分別表示行數(shù)和列數(shù),初始行數(shù)可以為0,不用管,列數(shù)就設(shè)置為我們想要的列數(shù)。其中title1、title2、title3可以自定義我們表頭的名字。
7. 處理數(shù)據(jù)
數(shù)據(jù)清洗,如果某一列數(shù)據(jù)中,有某一條數(shù)據(jù)為空,則把這條數(shù)據(jù)刪除掉。
根據(jù)需求將對于列表的數(shù)據(jù)進(jìn)行加減乘除,需要注意的是分母不能為0。
8. 數(shù)據(jù)輸出
數(shù)據(jù)處理完成后,可以將處理好的數(shù)據(jù)導(dǎo)出為excel等格式給其他同事。
9. 繪圖
如果有需要,則可以直接繪圖,從而判斷各個數(shù)據(jù)之間的關(guān)系。
10. 完整代碼示例
11. 機(jī)會點(diǎn)排序
通過數(shù)據(jù)分析后,我們能找到許多機(jī)會點(diǎn),但是不同的機(jī)會點(diǎn)價值是不同的,因此我們需要根據(jù)機(jī)會點(diǎn)的價值進(jìn)行排序。可以直接通過置信區(qū)間進(jìn)行估算排序,例如當(dāng)我們優(yōu)化了頁面A之后,頁面A的流失率有80%的信心降低在[5%, 10%],當(dāng)然也可以通過精細(xì)化數(shù)據(jù)計(jì)算從而判斷更為精準(zhǔn),但是會耗費(fèi)更多的精力。價值排序完成之后,我們后續(xù)還需要跟項(xiàng)目其他成員一起,基于可行性和實(shí)際的資源投入情況計(jì)算ROI,從而選擇最適合的機(jī)會點(diǎn)去實(shí)現(xiàn)
四、設(shè)計(jì)方案
1. 設(shè)計(jì)調(diào)研
確定機(jī)會點(diǎn)之后,有些探索性的機(jī)會點(diǎn)我們可以直接通過設(shè)計(jì)方案執(zhí)行,而另外一些機(jī)會點(diǎn)我們也進(jìn)行了合理推測,在設(shè)計(jì)調(diào)研環(huán)節(jié)則是對這些推測進(jìn)行驗(yàn)證,看是否真實(shí)出現(xiàn)在用戶中。受制于環(huán)境的影響,我們常用的方式是就是電話訪談和問卷調(diào)查,這兩個本質(zhì)上還是一樣的
2. 確定目標(biāo)
在這里就是要確定我們驗(yàn)證的是哪個猜測,例如我們驗(yàn)證用戶是,我們問卷的問題需要圍繞著這個目標(biāo)來
3. 篩選用戶
篩選用戶有兩種方式,一種是我們定向發(fā)放,一種是定向選擇。定向發(fā)放是指,我們從符合要求的用戶中隨機(jī)抽取一定數(shù)量的用戶向他們投放問卷或者撥打電話。定向選擇是指,我們向全量用戶進(jìn)行投放,然后從收集到的結(jié)果中篩選出符合我們需求的用戶,當(dāng)我們資源比較緊張時,可以采用少量樣本,一般認(rèn)為,5個用戶就可以發(fā)現(xiàn)80%的問題
4. 設(shè)計(jì)問題
設(shè)計(jì)的問題需要圍繞著我們的目標(biāo),由簡到難,盡可能多的使用選擇題的形式,主觀題建議最多一題,而在電話訪談中可以在最后跟用戶進(jìn)行溝通。需要注意的是,在問卷最開始需要收集用戶信息,以便于我們二次確認(rèn)該用戶確實(shí)是符合條件的用戶
5. 收集反饋
結(jié)果收集后根據(jù)使用前面說的數(shù)據(jù)清洗和數(shù)據(jù)處理的方式對結(jié)果進(jìn)行處理,需要注意的是,需要保留源數(shù)據(jù),如果是電話訪談的話需要保留電話錄音,以便于后續(xù)細(xì)節(jié)的確認(rèn)
6. 設(shè)計(jì)方案
當(dāng)我們找到目標(biāo)、用戶反饋之后,就可以設(shè)計(jì)我們的設(shè)計(jì)方案了。此時要圍繞著用戶的目標(biāo)、場景,借助“福格行為模型”合理設(shè)計(jì)方案
7. 設(shè)計(jì)驗(yàn)證
設(shè)計(jì)方案的同時需要確定數(shù)據(jù)埋點(diǎn),我們需要根據(jù)各個數(shù)據(jù)埋點(diǎn)的情況來確定我們的設(shè)計(jì)方案是否有效,并且通過這些數(shù)據(jù)發(fā)現(xiàn)更多可優(yōu)化的點(diǎn),并且同時,最好是可以把之前想要但是沒有的數(shù)據(jù)埋點(diǎn)也埋上,為以后做準(zhǔn)備
結(jié)語
以上內(nèi)容寫的比較多,一次性難以消化,建議大家多讀幾遍。中間有些內(nèi)容例如設(shè)計(jì)方案、用戶調(diào)研其實(shí)說的還不夠細(xì)致,后面有機(jī)會的話會慢慢寫出來跟大家分享。
作者:何必復(fù)雜;公眾號:何必復(fù)雜(UXSimple)
本文由 @何必復(fù)雜 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議