爱看小说

第19讲 掌握相关性(第3页)

天才一秒记住【爱看小说】地址:https://www.antiquessd.com

这就是在直接计算相关系数之前要先描绘散点图的原因。

在剔除离群点的时候,可以从以下三个角度来考虑。

·在散点图上,把视觉上看起来与其他数据的集合分离开来

·离群点的数量与总数相比并不多

·有定性的理由可以支持剔除离群点

初期的数据,有可能是偶然获取的,需要判断是否应该用一个数据来代表整体的情况。

STEPUP!

为了验证气温与到店顾客数有关联性的假设,制作了如下散点图。

横轴是气温,纵轴是单日平均到店的顾客数。

对此可以进行怎样的解释呢?

相关系数是0.5。

虽然不是很高的数值,但也可以考虑气温与到店顾客数存在相关性。

另一方面,请思考一下气温与到店顾客数本身是如何变化的。

可以想象,寒冷与炎热的时候顾客数都会减少。

所以应该考虑的不是“气温与到店顾客数是否相关”

,而是“是否存在某个具体温度值会使到店顾客数增加”

人们一有数据可能就会想转化为图表,并且考虑根据图表进行解释。

然而,如果不加注意,就会变成一切以图表为准,变成解释图表了。

为了避免这种情况发生,在进行图表化之前,要先考虑清楚数据之间的相关性,再转化为图表。

刚才的散点图是以所有的数据为基础制作的,但其实应该把某个气温以前的趋势和某个气温以后的趋势分开,转化成两个散点图,这样更符合自然规律。

实际以25℃为界,把25℃以下的情况和25℃以上的情况区分开来描绘成散点图,得出以下图表。

相关系数的绝对值都是0.95,是非常理想的值。

相关系数只是一种指标,重要的是要结合定性的意义来思考。

在应用时,要考虑哪个范围的数据可以视作同一范畴的。

要做到这一点的话,“描绘图表,用头脑来判断”

很重要。

而且,这样的判断,事实上只有人才能做到。

描绘散点图,将相关系数的计算交给计算机,另一方面,要清楚知道人应该思考什么事情,要灵活地运用相关性。

小结

√相关性的计算是计算机擅长的范畴

√不单单依赖于相关系数,这点很重要,务必描绘出散点图来观察

√在描绘散点图之前,认真思考可能会出现怎样的分布

√没必要对所有的信息一律用相同的方法来处理。

可以剔除离群点,也可以把数据分组

√定性的解释也很重要

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

官途:权力巅峰权力巅峰:从城建办主任开始官路扶摇永恒之门千里宦途九份婚书:我的师父绝色倾城官场:扶摇直上九万里当明星从跑龙套开始官狱官梯险情步步升云医道官途官道征途:从跟老婆离婚开始绝品风流狂医误入官路极品对手为夫体弱多病直上青云官途,搭上女领导之后!升迁之路官路红途