继旭日图、漏斗图、饼图之后,我们又迎来一个 “象形”图表——河流图。虽然河流图是从堆积面积图演变而来,读图的原理也相同,但是在面对较大体量的数据时,河流图还是略胜一筹!
折线图是我们在数据可视化过程中常见的图表,当我们把折线与轴的围起的区域涂上颜色,变成了面积图,这时候两种图表的意义就不一样了。当把单色的面积变为多色的面积,就出现了不同类目的比较意义,且区别于条形图,具有连续比较的意义。继续往下进化,就出现了河流图,那么什么是河流图呢?
河流图(Streamgraph),有时候也叫做“主题河流图”(ThemeRiver),是堆积面积图的一种变形,通过“流动”的形状来展示不同类别的数据随时间的变化情况。但不同于堆积面积图,河流图并不是将数据描绘在一个固定的、笔直的轴上(堆积图的基准线就是x轴),而是将数据分散到一个变化的中心基准线上(该基准线不一定是笔直的)。
由河流图的组成图可以看出,河流图用颜色区分不同的类别,或每个类别的附加定量,流向则与表示时间的X轴平行。每个类别的对应数值则是通过 “河流”的宽度展示出来。每个类别的数值变化就会形同一条粗细不一的小河,汇集、扭结在一起,河流图也因此而得名。
以下图为例,作品《音曲繁美》就采用了这种河流图,它每一条的宽窄代表了音乐在特定年代流行的程度,用不同的颜色去区分不同的音乐,图表最后形成水流状的样子。
既然河流图是堆积面积图的变形,那么与堆积面积图相比,河流图具有哪些不同呢?
在我们之前的推送中,也和大家分享过堆积面积图的一些特点,比如不建议堆叠面积图中包含过多数据系列,最好不要多于7个,以免数据难以辨识。然而,较于堆积面积图,河流图在展示多类别及波动幅度大的数据时,可读性更强,外表也更美观。
2008年2月,《纽约时报》发布了一个最典型、最著名的河流图的例子《电影的衰退和流动:过去20年的电影票房收入》,描述了从1986年1月到2008年2月期间,所有电影的上映时间以及期间的周票房变化。在这个河流图中,流形状的宽度代表了某部电影的周票房,流形状的起始是由电影的上映时间决定的。颜色由电影的总票房决定,票房就是电影的“附加定量”,颜色越深代表了电影最终票房越高。
我们可以看到,从2007年4月中旬到7月,是高票房电影集中上映的时间,《蜘蛛侠3》、《加勒比海盗:世界的尽头》、《史瑞克3》等电影都获得非常高的票房收益,上映时间也几乎持续了3个月。但事实上,为了避免票房争夺,这段时间上映的电影数量不多,等到7月开始,大热电影档期结束,电影数量才多了起来。
利用交互技术,我们可以把鼠标移动到某一个流形状上,突出显示它的具体信息。同时,《纽约时报》把这个河流图做得相当“长”,拖动滚动条可以发现,纵观20年,汇入电影历史长河的“小河”越来越多,电影的票房收入整体不停上涨。电影历史的长河越来越宽阔,特定时期的票房高涨也越来越明显。
此图的设计者之一Lee Byron,在河流图的设计上做了非常大的贡献。上面提及的可视化是建立在Lee以前的可视化成果之上。他在本科的时候,就设计了一个河流图,呈现用户在last.fm上听音乐的变化历史。
根据河流图的基本原理,每一个流形状代表了一个艺术家,流形状的宽度代表了用户在给定的时间内收听歌曲的次数。颜色的色调与艺术家的一首歌被听到的最早日期相关,深浅则与该艺术家被收听的总次数相关。用户可以通过自己的聆听河流图,发现自己所听的歌曲与当时的心情,或者是特殊事件的关联,人生轨迹仿佛被音乐描绘出来。
实际上,这种多层叠加数据的可视化方法,最早出现在2000年Susan Havre, Beth Hetzler和Lucy Nowell的文章《ThemeRiver: In Search of Trends, Patterns, and Relationships》中。
这篇文章描述了一个名为“ThemeRiver”的互动系统的开发过程,其中使用一个文本分析引擎,对1959年11月到1961年6月期间,菲德尔·卡斯特罗的演讲、访谈以及其他文章的文本内容进行分析。河流图呈现出他在不同的时期使用的词语及次数。
面对诸如20年电影票房、听歌次数历史、文本分析等“巨量”数据,河流图表现得非常“从容”。
2008年,Jeff Clark对前100名Twitter用户的推文进行文本分析,发现最常用的单词除了“Scoble”(一位著名的美国博主)和“Obama”(前美国总统)之外,提及最多的是产品、技术或者技术事件的相关单词。这是因为顶级Twitter用户是走在前沿的“技术控”。
2011年,美国科技杂志《连线》的一篇文章运用河流图,描述了2010年9月8日至2010年9月15日期间,纽约市民拨打311市民服务专线所投诉的问题。噪音、路灯、街道设施是纽约市民最常反映的问题,特别是噪音的问题在睡眠时间里,投诉特别多。投诉的时间则集中在11:00-19:00的区间里。
2016年,《纽约时报》用一张河流图,就把世界各国在奥运会上的获奖情况展示出来。我们不仅可以看出各国的获奖情况,还借此看出世界历史的重要节点,包括两次世界大战、中国第一次参加奥运会、美国和前苏联抵制参加奥运会等。
堆积类图展示面对大量的数据时,通常可读性会降低,细小的堆积块难以观察。
河流图同样也会存在一些争议。就像上面提到的《纽约时报》关于电影历史票房的作品,有敏锐洞察力和读图能力的一部分人,能从图中看出电影的宏观层次季节性,看出哪些电影一直在“苟延残喘”。也有人赞美它运用颜色来区分高票房电影,以及凸显了电影上映数量变化。但也有一些人认为,河流图过于复杂和混乱,河流的形状会让人误会向上凸起的为正值,向下的为负值。
因此,在使用河流图的时候,我们要注意,除非使用交互技术,否则河流图无法精准地表达数据。但不可否认的是,在面对巨大数据量,且数值波动幅度大的情况下,河流图拥有优雅的视觉结构,能很好地吸引读者的注意力,同时凸显变化大的数据。
镝数的这个河流图则展示了1896-1932年,前五名国家在奥运会上奖牌数量的变化情况。同样的数据用在堆积面积图上,显然给我们解读数据带来更大的难度。
对的数据遇上对的图表,哪里还用怕发现不了有趣的事?
镝数图表-免费在线数据可视化利器,现在镝数还在免费赠送会员哦,海量精美图表模板等你来下载!
点击这里免费试用:镝数图表
如果还想知道图表的相关知识,可参看往期图表家族:
镝次元数据:这个图表神器不简单!产品、运营、销售、HR都爱它!zhuanlan.zhihu.com