数据分析 – 相关分析法

数据分析 – 相关分析法

目前我们已经知道了,在工作中,我们可以用对比分析来发现并定位问题;用拆解分析,将复杂问题简单化,帮我们找到小的切入点。

但是这样就会存在,同一个问题,我们有时候会找到很多小的切入点。

这个时候需要相关分析,来使用数据判断这些因素是否和最终结果相关,以及相关密切程度高低,据此判断工作优先级。

相关的定义?什么是相关?

相关,就是指两个变量,当一个变量发生变化的时候,另一个变量也跟着变化。比如:工资随着工作年限发生变化,销售量随着价格发生变化,体重随着身高发生变化,等等。

相关分析定义?什么是相关分析?

相关分析,就是去找到两种变量之间的关系。也就是B是怎么随着A的变化产生变化的。

怎么使用相关分析? 相关分析的三大场景:

1、快速锁定大问题相关的一个个小因素,

案例:一位TED演讲嘉宾,她想知道线上交友网站上,怎么设置自己信息才能最好的呈现自己,让自己在社交网站上非常受欢迎。于是,她收集了大量女性账户的行为数据,包含幽默感,语调,声音,沟通方式,个人描述的平均长度,与男性发私信之间隔多久等等。 然后,把这些数据和对应女性受欢迎的程度进行相关分析。发现:最受欢迎的女性都在用诸如“有趣”,“女孩“,”爱“ 这样的关键词,自我介绍一般97个词,以及她们会等23个小时进行下一次沟通。掌握这些信息之后,她建立了一个超级档案,还是本人真实信息,按照分析结果,重新包装,结果她成了网站最受欢迎的人。而且在众多男性里面发现了潜在的”白马王子“,三年之后他们结婚了。

2、用数据说服他人,终结撕逼

除了给自己的工作进行问题分析与定位之外,相关分析可以用在沟通方面,比如:当你在和领导汇报的时候,常常就一件事情进行原因阐述和分析,这个时候每个人都有自己经验和主见,很难达成一致结果,这时候使用相关分析进行验证,就很容易有说服力。

案例:市场部负责投放市场预算在一些渠道,来拉目标用户,而销售负责把产品卖给用户。这个时候,市场和销售会经常撕逼,销售会说:因为市场渠道质量不行,导致销售业绩差,市场会说:销售能力不行,我的渠道质量杠杠的。这个时候就需要采用相关分析,对渠道和销售业绩做一个相关分析,用数据说话,很有说服力。

3、帮我们判断事情优先级

比如,影响销量有非常多的因素,要提升销量,应该做那个?我们就看相关度最高的,因为相关分析得出一个相关系数,根据分值高低判断相关程度,这样就能确定最相关因素,来优先改进和提升。

那么相关分析怎么用了?相关都有哪些类型?

相关可以分为:线性相关,非线性相关

线性相关: y = ax + b , 相关程度就是求斜率。
可以使用Excel或者Python 画出散点图,

相关度R定义: (求出斜率之后 计算数据的拟合度)
1.绝对值大小: 表示相关程度
2.正负:表示正相关还是负相关
3.数值范围:-1 ~ 1
4.数值定义:-1表示负相关,1表示相关,0表示非线性相关(可能其他形式相关)

相关度经验值:
1.绝对值 R >= 0.6 高度相关
2.绝对值 0.3 =< R < 0.6 中度相关
3.绝对值 R < 0.3 弱相关

经典案例:
谷歌收集了美国从2003 到 2008 年期间,流感传播时间和地点,匹配当地,当时人们使用谷歌搜索关键词,寻找其中关系。成功预测了2009冬季流感的传播趋势,甚至可以精确预测流感发生的地区。 根据搜索词语和流感传播关系,建立数据模型,能够提前2周预测大规模流感传播,让人们提前预防。

Facebook,People You May Know, 好友推荐,“你可能认识的人”,这个习以为常的功能,是facebook提升用户留存,进行相关分析,发现有更多的好友,用户粘性越高,越活跃。

相关分析应用范围很广,但是不能滥用,比如我们分析孩子长高的原因不能联想到院子里面的树也长高了。二者虽然都长高了,但是二者并没有相关。

总结:

1)分析问题本质就是对大问题拆解
2)相关分析,去找到2个变量之间的关系
3)相关分析三个场景:1.锁定大问题相关因素 2.数据说服,停止撕逼 3.判断事情优先级
4)了解应用场景,知行合一才能完美解决问题
5)相关分为:线性和非线性
6)相关分析可以做预测
7)因果关系才是相关分析的目标