世界上有三种谎言:谎言、该死的谎言和统计数字。” ——马克吐温。“大数据”越炒越热,用数据、图表来解释一些现象成为一种潮流,但是由于绝大多数使用者没有掌握科学的理论与方法,导致数据被滥用与曲解,得出与现实大相径庭的结论。造成的原因有可能是抽样方法、样本选择、图表表格等,下文将主要阐述一些用非DataFocus、power BI等工具而“人工”可视化的陷阱。(注:所有配图均用EXCEL制作)
首先是图表的过度拉伸。一般来说,横轴与纵轴比例在 1:1 至 1:2 之间,若没有在这个范围,数据展示则可能会与实际有偏差。左图显示 11/1 日至 11/14 日间趋势缓慢变化,右图暗示 11/1 日至 11/14 日间趋势急速变化。
第二是取值间隔不合理。当横轴与纵轴取值间隔是不连续且相差较大时,在给客户展现时应提前告知。左图的纵轴取值是等差数列,显示湖北、河南、江苏的数值远超于其他省市,右图的纵轴取值是等比数列,间隔较大,显示个省市的数值相差不大。
第三是相关性与因果性陷阱。下图所示冰淇淋销售数量与被鲨鱼攻击人数同趋势增加,能不能说冰淇淋销量增加导致了被鲨鱼攻击人数增加呢,显然这是不行的,是由于两者的共同影响因素气温的变化,导致两者数量增加,所以这两者只具有相关性而不具有因果性。总结来说两个变量 A 和 B 具有相关性,其原因是有很多种的,并非只有 A→B 或者 B→A 这样的因果关系。一个很常见的导致相关性的可能性是 A 和 B 都是同样的原因造成的:C→A 并且 C→B,那么 A 和 B 也会表现出明显的相关性,但并不能说 A→B 或者 B→A。
最后是图表类型的选择。选择合适的图表类型可以帮助我们更加直观地理解数据,不合适的图表类型让数据变得更加雾里看花。左图显示研发费用、人员工资所占比例相同,右图显示似乎人员工资比研发费用高很多,锥形图中需要看的是锥形的高度,而与锥形的体积无关,但是我们在看图中很难忽略锥形体积对我们的干扰,这会误导我们认为体积大的锥形图具有更大的数值。
综上所述,在查看图表时为了不落入陷阱需要注意以下几点:
1) 横轴与纵轴高度比例是否合理;
2) 坐标轴取值是否合理;
3) 数据是否经过特殊处理如标准化;
4) 变量之间是否具有因果关系;
5)是否选择了合适的图表类型