再谈数据可视化,下一个涨薪点或许就在这里

再谈数据可视化,下一个涨薪点或许就在这里 数据可视化是数据理解和数据处理中的重要一环

去年,在讨论合格数字营销者的十大素质的时候,曾经指出对数字营销者而言,网站分析和媒体分析是“赖以生存”的技能,其中包括了做报表的技能和数据可视化的技能

再谈数据可视化,下一个涨薪点或许就在这里 数字分析的三驾马车

数据可视化(Data Visualization)是理解数据的有效方法,它是让数据汇报对象更快更具体更准确理解数据背后的问题和机会的手段。不管你用的是Tableau、R、Excel、SAS、Google Data Studio还是其他Infogram这样的第三方工具,数据可视化总会是数据处理中最后压轴的工作。如果处理不好,那就会成为Avinash Kaushik所说的Death at the last-mile“死在终点线前”。

避免Chartjunk和Junkchart

顾名思义,Chartjunk就是图中垃圾元素,这些元素不单让阅读者分心失去数据要表达的重点。任何多余的文字、线条、坐标都会成为Chartjunk。举个栗子,随手搜个图,图中的英文皆替换为“没这个会死吗?”:

再谈数据可视化,下一个涨薪点或许就在这里 “不加这些会死吗?”

Junkchart就更要不得了。如下面这个图,有图还不如没图。

再谈数据可视化,下一个涨薪点或许就在这里 “除了三个18岁可饮酒其余均为19岁”

万恶的“饼图”

饼形图“Pie Chart”非常不利于表达数据间的大小。特别是要多组数据的时候。初学者喜欢用饼图来表示百分比,这无可厚非,因为饼图制作简单使用场景丰富。但我们看看下面这图:

再谈数据可视化,下一个涨薪点或许就在这里 不但没有正确排序而且,对那些“小数字”无法表现具体差异

“异曲同工”的还有下面这个饼图,可以体会一下:

再谈数据可视化,下一个涨薪点或许就在这里 等一下,柬埔寨和新西兰哪个更多些?各占多少?

下面这个饼图则完全是为了“好看”而存在:

再谈数据可视化,下一个涨薪点或许就在这里 沦为Junkchart的饼图

霜天建议慎重使用饼图,仅在少量数据点(如两个)和为了表现1/2,1/4,3/4,“大多数”的情况下使用。注意这里的饼图还包括环线图“Ring Chart”,道理是一样的。

专注改变的“线形图”

线形图、折线图“Line Chart”仅用于表示时间线前后的变化趋势。如果对不同类别的数据点来使用就会产生让人困惑的效果。下图就是一个常见的例子,改为柱形图为好:

再谈数据可视化,下一个涨薪点或许就在这里 自左到右并不是时间变化而是不同品类,用线形图意义不明

区别对待不同量级的数据

如果我问您在太阳系中,水星、月球和冥王星相比哪个直径更大,您是无法在下面这张图中找到答案的。因为太阳实在太大了,水星、月球和冥王星相对于太阳都只是一个像素。

再谈数据可视化,下一个涨薪点或许就在这里 太阳和太阳系行星大小对比

上图虽然可以非常直观地表现出:太阳的确巨大无比,占到太阳系总质量的99.8%很合理;木星和土星两个气巨星,以及天王星和海王星两个冰巨星都比地球大得多;但是要对比水星、月球和冥王星大小就不合适了。

再谈数据可视化,下一个涨薪点或许就在这里 把“巨星们”排出后来比较更直观

如果某几个数据点和其他的数据差距非常大的话,可以把它们隔离出来,或者用断节的柱形图来表示。另外,如果多个数据,他们的数据量及区别很大的话,可以用其他的方式来表示。线性坐标在这里就不合适了,适合用对数坐标表示。
如果你要表示少数民族人口的对比就很适合用对数坐标,因为回族的人口是土族的78倍。

再谈数据可视化,下一个涨薪点或许就在这里 少数民族人口统计

选用合适的坐标

既然上面提到了坐标,我们再强化一下。坐标必须要慎重选取,因为坐标会让数据产生视觉上的失真。请看下面这个糟糕的例子:
再谈数据可视化,下一个涨薪点或许就在这里 坐标轴错误示例
福克斯新闻曾经用过下面这张图让人们对边境拘押上升引起重视,其实并没有翻倍。

再谈数据可视化,下一个涨薪点或许就在这里 两年增长20%,并没有翻倍

堆积图的弱点

堆积图“Stack Chart”在显示整体数据对比的同时还可以显示某个数据集合内部的情况。下图显示了一个优秀的百分比堆积图:

再谈数据可视化,下一个涨薪点或许就在这里 川普和奥巴马对比明显

但是堆积图有一个很大的弱点,那就是不同数据集合间的比较会相对困难。下图就是一个例子:

再谈数据可视化,下一个涨薪点或许就在这里 由于起点不一,紫色部分的纵向比较困难

更危险的是,如果存在大小分布,那么小数据点会失去意义。如下图:

再谈数据可视化,下一个涨薪点或许就在这里 WTF?!这图想表达什么?

下图Tableau中也有堆积图,州与州之间的比较很困难。

再谈数据可视化,下一个涨薪点或许就在这里红条长短不一让其他类别的比较变得困难

成为一个色计师

颜色在数据可视化中起到很大作用,好的颜色布局能让读者更加容易地阅读数据。比如通常我们用绿色代表好,黄色代表中性,红色代表差(负数、赤字)。下图举例:

再谈数据可视化,下一个涨薪点或许就在这里 颜色和心的大小让满意和不满意立刻凸现出来

另外在热力图中,一般低频会用冷色调,高频用暖色调,如彩虹色谱。在此就不举例了。
在企业的实际应用中倾向于选择企业VI统一的色谱,但是颜色一多后就会牺牲对比度。因此我们需要找到一些平衡点。
再有就是在对比多个产品、企业、国家时,用色也十分有讲究。如果你要对比微博和微信,那么分别用红色和绿色更能让人快速读懂。如果你要对比阿里和百度,那么你可以选择橙色和蓝色。如果你要对比香港和澳门两个特区也可以用红绿两色。
正如Maureen Stone 在其《Choosing Colors for Data Visualization》一文中指出:Contrast and analogy are the principles that define color design.(对比和类比是定义色彩设计的两大原则),你既要让数据展示合理又要符合美学。

数据可视化小贴士

下面我们提一下一些零碎的数据可视化注意点:

  1. 一张图讲一个故事,Say NO to Data Puking
  2. 对于敏感数据,不要画成绝对数,还用百分比来代替。
  3. 添加趋势线有助于帮助理解之后的走势。由于数据的浮动频繁,一段时间的移动均线比实际值更加能表现出趋势。
  4. 画图前先把明显不靠谱的outlier去掉。
  5. 添加数据标签来代替坐标轴上的文字可以让读者的眼球省力一些。
  6. 没个金刚钻不要用3D图表,气泡图和雷达图比3D来得有用得多。
  7. 柱状图是最频繁要用到的图,有时候可以手动自己画矩形,不必拘泥工具。
  8. 手动画图还可以结合PPT的动画功能,演示时更有说服力。

最后,一些延伸阅读

本文参考了下面部分资料:

https://www.kaushik.net/avinash/its-not-the-ink-its-the-think-6-effective-data-visualization-rules/

Closing Data's Last-Mile Gap: Visualizing For Impact!

Data Visualization Inspiration: Analysis To Insights To Action, Faster!


https://moz.com/blog/impactful-data-storytelling
http://www.businessinsider.com/the-27-worst-charts-of-all-time-2013-6#canada-what-are-you-doing-that-y-axis-scale-those-grid-lines-the-fact-that-you-are-just-saying-every-provinces-age-is-19-except-three-where-its-18-this-is-terrible-9

希望本文对你有所帮助。

发表评论