# 数据可视化概述

# 什么是数据可视化

# 数据可视化有着非常久远的历史,最早可以追溯至远古时期。在远古时期,人类的祖先通过画图的方式记录对周围生活环境的认知 ;随着社会的发展,人类对世界的认知有了发展,已经能够灵活地运用柱形图、折线图等展示数据;随着计算机的普及,人们逐渐开始使用计算机生成更加丰富的图形。研究表明,80% 的人能记得所看到的事物,而只有 20% 的人能记得所阅读的文字。因此,相较于文字类型的数据,人眼对图形的敏感度更高,记忆的时间更久。
数据可视化是借助图形化的手段将一组数据以图形的形式表示,并利用数据分析和开发工具发现其中未知信息的数据处理过程。数据可视化其实是一个抽象的过程,简单来说就是将一个不易描述的事物形成一个可感知画面的过程,即从数据空间到图形空间的映射,如图 1-1所示。

# 无论原始数据被映射为哪种图形数据,最终要达到的目的只有一个——准确、高效、全面地传递信息,进而建立起数据间的关系,使人们发现数据间的规律和特征,并挖掘出有价值的信息,从而提高数据沟通的效率。换言之,数据可视化能实现让数据说话的目的。
为了让读者直观地看出文字数据与图形数据之间的差异,下面通过一个 KPI(KeyPerformance Indicator, 关键绩效指标)报告的示例进行说明。假设某公司员工在整理全年KPI 报告时准备了表格和图形两种形式的数据,分别如图 1-2 和图 1-3 所示。

# 图 1-2 中,表格列举了各季度的实际值、目标值和差距值,方便公司领导快速地知道具体的数值,但无法快速地了解各季度之间的比较情况。在图 1-3 中,每个矩形条的高度代表各季度实际值的多少,矩形条的上方标注了具体的值,下方标注了季度或年累计;虚线位置对应各季度目标值的多少 ;矩形条的颜色区分了是否完成指标的情况 :填充蓝色的矩形条代表已完成指标的季度,填充红色的矩形条代表未完成指标的季度。由图 1-3 可知,Q3 对应的矩形条是红色的,说明 Q3 未完成工作指标 ;Q2 对应矩形条的高度超过虚线且距离最远,说明该季度的工作完成得最好。公司领导通过图形可以快速且准确地了解各季度的情况,以便对公司下一年的工作做出有效决策。
综上所述,数据可视化是数据分析工作中重要的一环,对数据潜在价值的挖掘有着深远的影响。随着数据可视化平台的拓展、表现形式的变化,以及实时动态效果、用户交互使用等功能的增加,数据可视化的内涵正在不断扩大,相信数据可视化的应用领域会越来越广泛。

# 常见的数据可视化方式

# 我们通常所说的数据可视化是指狭义的数据可视化,即将数据以图表的方式进行呈现,常见于 PPT、报表、新闻等场景。图表是数据可视化最基础的应用,它代表图形化的数据,通常以所用的图形符号命名,例如使用圆形符号的饼图、使用线条符号的折线图等。下面介绍一些常见的图表,并结合一些应用场景给出图表示例。

# 折线图

# 折线图是将数据标注成点,并通过直线将这些点按某种顺序连接而成的图表,它以折线的方式形象地反映事物沿某个维度的变化趋势,能够清晰地展示数据增减的趋势、速率、规律及峰值等特征。折线图一般将时间序列作为 x 轴的数据,将时间序列对应的数值作为 y 轴的数据,适用于反映具有固定时间间隔的数据的变化趋势的场景,例如股票分析、天气预报等。例如,海口市 4 月 23—29 日的最高气温和最低气温的变化情况如图 1-4 所示。

image

# 柱形图

# 柱形图是由一系列宽度相等的纵向矩形条组成的图表,它利用矩形条的高度表示数值,以此反映不同分类数据之间的差异。柱形图一般将分类作为 x 轴的数据,将各分类对应的值作为 y 轴的数据,适用于中小规模数据集的各分类之间比较的场景。例如,2015-2018 年阿里巴巴公司的营业收入情况如图 1-5 所示。

# 条形图

# 条形图是横置的柱形图,由一系列高度相等、长短不一的横向矩形条组成。与柱形图相比,条形图更适用于矩形条数量较多的场合,但一般建议矩形条的数量不超过 30 个。例如,2019 年上半年快手用户对各类商品广告的关注率如图 1-6 所示。

# 堆积图

# 堆积图分为堆积面积图、堆积柱形图和堆积条形图。其中堆积面积图是由若干折线与折线或水平坐标轴之间的填充区域组成的图表,它的最大区域是一个代表所有数据总和的整体,堆积的各区域代表各组数据,用于反映整体与部分的关系 ;堆积柱形图和堆积条形图是由若干个以颜色或线条填充、高度不一的纵向矩形条或横向矩形条堆叠而成的图表,用于反映每个构成部分在总体中的比重。例如,2017 年全球及各地区一次性能源的消费结构如图 1-7 所示。

# 直方图

# 直方图又称质量分布图,是由一系列高低不等的纵向矩形条或线段组成的图表,用于反映数据的分布和波动情况。直方图通常将连续型数据分割成若干个不重叠的值范围分段,以此作为 x 轴的数据,将每个范围分段中统计的值频率作为y 轴的数据,适用于了解产品质量的分布规律、估算施工过程中的不合格率等工程领域,或者识别人脸特征的人工智能领域。例如,某厂商对 100 个抽样产品的质量级别评定情况如图 1-8 所示。

# 注意:
# 柱形图与直方图展示的效果非常相似,但两者又有所不同,主要区别为 :
(1)柱形图用于展示离散型数据(记录不同类别的数据)的分布,而直方图用于展示连续型数据(一定区间内连续数值所组成的数据)的分布 ;
(2)柱形图的各矩形条之间具有固定的间隙,而直方图的各矩形条之间没有任何间隙。

# 箱形图

# 箱形图又称盒须图、箱线图,是一种利用数据中的 5 个统计量(最小值、下四分位数、中位数、上四分位数和最大值)描述数据的图表,主要用于反映一组或多组数据的对称性、分布程度等信息,因形状如箱子而得名。箱形图能够识别异常值、判断偏态与尾重、比较数据形状,适用于品质管理的场景。例如,不同厂家所产地毯的耐用性比较如图 1-9 所示。

# 图 1-9 中 4 个图形从左到右依次代表厂家1、厂家2、厂家3和厂家4所产的地毯。由图 1-9 可知,每个图形的结构相同,包括一个矩形箱体、上下两条竖线、上下两条横线,其中箱体代表数据的集中范围,上下两条竖线分别代表数据向上和向下的延伸范围,上下两条横线分别代表最大值和最小值。若数据中存在异常值(也称为离群值), 则会以圆圈的形式显示到图中横线上方或下方。为了便于理解,下面通过图 1-10 来描述箱形的结构及异常值。

# 饼图

# 饼图是由若干个面积大小不一、以条形或颜色填充的扇形组成的圆形图表,它使用圆表示数据的总量,组成圆的每个扇形表示数据中各项占总量的比例大小,主要用于显示数据中各项大小与各项总和的比例。饼图中的圆与扇形分别代表整体与部分,可以形象地展示数据整体与各项数据的关系,适用于快速了解整体数据中各项数据分配情况的场景。例如,2018年全国居民的人均消费支出情况如图 1-11 所示。

# 值得一提的是,圆环图也能显示各项与整体之间的关系,它使用圆环表示整体,组成圆环的每个楔形表示各项的占比,外形像空心的圆饼。与饼图相比,圆环图可以展示多组数据的比例,但并不容易被人们理解,很多时候可以用堆积柱形图或堆积条形图替代。

# 散点图

# 散点图又称 X-Y 图,是由若干个数据点组成的图表,主要用于判断两变量之间是否存在某种关联,或者总结数据点的分布模式。散点图中数据点的分布情况可以体现变量之间的相关性 :若所有的数据点在一条直线附近呈波动趋势,说明变量之间是线性相关的 ;若数据点在曲线附近呈波动趋势,说明变量之间是非线性相关的;若数据点没有显示任何关系,说明变量之间是不相关的,常见于分析两变量相关性的场景。例如,股票回报率与基金回报率的投资分析情况如图 1-12 所示。

# 气泡图

# 气泡图是散点图的变形,它是一种能够展示多变量关系的图表。气泡图一般使用两个变量标注气泡在坐标系中的位置,使用第 3 个变量标注气泡的面积,适用于分类数据对比、多变量相关性等情况,常见于财务数据分析中。例如,第 1 梯队和第 2 梯队主流 App 用户量与上线时间的分布情况如图 1-13 所示。

# 值得一提的是,气泡图中过多的气泡会增加图表的阅读难度,因此气泡的数量不宜过多。为了能在有限的气泡中展示更多的信息,可以给气泡图中的气泡加入交互功能,单击该气泡即可查看其隐藏的信息。

# 误差棒图

# 误差棒图是使用误差棒注明被测量数据的不确定度大小的图表,用于表示测量数据中客观存在的测量偏差(标准差或标准误差)。误差棒图中误差棒是以被测量数据的平均值为中点,在表示测量值大小的方向上画出的一条线段,线段长度的一半为不确定度。例如,某城市上半年降雨量的统计分析如图 1-14 所示。

# 雷达图

# 雷达图又称蜘蛛网图、星状图、极区图,由一组坐标轴和多个等距同心圆或多边形组成,是一种表现多维( 4 维以上)数据的图表。雷达图中的坐标轴起始于同一个圆心点,结束于最外围圆周边缘,每个坐标轴代表一个指标,其上面会将多个维度的数据映射成点,连接数据点围成一个多边形,适用于对多指标对象做出全局性、整体性评价的场景,常见于企业经营状况的评价和财务分析。例如,某人通过霍兰德职业兴趣测试的结果如图1-15 所示。

# 统计地图

# 统计地图是一种以地图为背景,使用各种线纹、色彩、几何图形或实物形象标注指标数值及其在不同地理位置的分布状况的图表。统计地图主要用于说明某些现象在地域上的分布,适用于比较人口、资源、产量等在各地区的分布情况。例如,某平台朔州市用户的地域分布情况如图 1-16 所示。

# 3D 图表

# 3D 图表是一类在三维坐标系中呈现数据的图表。常用的 3D 图表包括 3D 散点图、3D 折线图、3D 曲面图、3D 直方图、3D 柱形图等0 与 2D 图表相比,3D 图表的效果更为酷炫,其在视觉上的表现力更强,且可仿真很多场景,适用于金融、气象、地理、建筑、交通等场景。例如,豆粕期权隐含波动率如图 1-17 所示。

# 选择正确的数据可视化图表

# 数据可视化的图表类型十分丰富,好的图表可以有效、清晰地呈现数据的信息。对于用户而言,选择正确的图表是十分关键的,不仅可以达到“一图胜千言”的效果,而且会直接影响分析的结果。
用户选择正确的数据可视化图表前,需要明确数据的逻辑关系。数据的逻辑关系可分为4种 :比较、分布、构成和联系。其中,比较关系主要关注数据中各类别或时间变化的情况 ;分布关系主要关注不同数值范围内包含数据量的情况 ;构成关系主要关注各部分与整体占比的情况 ;联系关系主要关注两个及两个以上的变量之间关系的情况。
数据可视化专家基于以上 4 种关系对图表的选择思路进行了总结,引导用户逐步明确需求,从而帮助用户快速且正确地选择图表。下面分别介绍基于比较、分布、构成和联系关系的数据可选择的图表,具体内容如下。

# 基于比较关系可选择的图表

# 基于比较关系的数据可选择的图表如图 1-18 所示。

# 由图 1-18 可知,若数据按照时间进行比较,当数据周期少时可以选择柱形图或折线图,当数据周期多时可以选择雷达图或折线图 ;若数据按分类进行比较,当每个项目中仅包含 1 个变量时可以选择表格、条形图或柱形图,当每个项目包含2个变量时可以选择不等宽柱形图。

# 基于分布关系可选择的图表

# 基于分布关系的数据可选择的图表如图 1-19 所示。

# 由图 1-19 可知,基于分布关系的数据包括单变量( 例如文化程度 )、2 个变量( 例如文化程度与收入期望 )、3 个变量(例如文化程度、收入期望与工作经验)。若数据为单变量,可以选择直方图或正态分布图 ;若数据为 2 个变量,可以选择散点图;若数据为 3 个变量,可以选择曲面图。

# 基于构成关系可选择的图表

# 基于构成关系的数据可选择的图表如图 1-20所示。

# 由图 1-20 可知,基于构成关系的数据按照是否变化可分为静态数据和随时间变化的数据。若是静态数据,可以选择饼图、瀑布图或堆积柱形图;若为随时间变化的数据,则先按照周期数分为少数周期数据和多周期数据,对于少数周期数据可以选择堆积柱形图,对于多周期数据可以选择堆积面积图。

# 基于联系关系可选择的图表

# 基于联系关系的数据可选择的图表如图 1-21 所示。

# 由图 1-21 可知,若数据中包含 2 个变量,可以选择散点图进行展示;若数据中包含 3 个变量,可以选择气泡图进行展示。