当我们阅读一个形象化的东西时我们看到的真的是我们得到的吗?

本文最初发表在Medium博客上多视图:可视化研究解释。

它总结并伴随我们的论文提供可视化的“海市蜃楼”这是在气2020最佳论文荣誉奖是由安德鲁·麦克纳特,戈登首日,迈克尔·科瑞尔说道

博士TL;

棕榈树和日落

当我们阅读可视化的东西时,我们看到的真的是我们得到的吗?视觉化有很多方式可以误导我们,例如,它们似乎向我们展示了一些有趣的东西,但仔细观察就会消失。这样的可视化“海市蜃楼”可以让我们看到数据中不存在的模式或得出结论。我们分析这些争吵的实体,并提供一个测试策略消除他们。


介绍

训练有素的数据可视化眼睛会注意到一些危险信号,表明正在发生误导。双轴不太匹配。误导颜色坡道。可疑的来源。虽然学习视觉化是如何误导人的和学习视觉化是如何产生的一样重要,但即使是勤奋的人也会被欺骗!

这些卑鄙的欺骗也不需要迂回地设计。当然,有些可视化是由糟糕的演员,大多数都不是。即使是用最好的意图精心设计的设计也会产生各种各样的困惑和错误。一个不小心或粗心的分析师可能会产生幻觉,意思是没有任何,或直接得出一个只得到模糊支持的结论。

对于下面左边的简单条形图,我们能说些什么呢?B地区的销售额似乎比A地区多50%。A地区的商店表现不佳吗?考虑到差异之大,我打赌你会下意识地回答是肯定的。

来源:https://arxiv.org/abs/2001.02316

来源:https://arxiv.org/abs/2001.02316

许多模式可以隐藏在聚合数据之后。例如,一个简单的平均值可能隐藏肮脏的数据、不规则的人口规模或一大堆其他问题。像我们简单的条形图这样的简单聚合是许多分析工具的基础,随后的分析通常是建立在这些潜在的不稳定基础之上的。

对于这些问题我们该怎么办?我们应该停止直观地分析数据吗?扔掉我们的电脑?也许我们可以形成一种理论,帮助我们建立一种方法,自动浮出和捕捉这些争吵的错误?

图表制作过程充满了图表创作者的代理时刻。什么算数据?操作数据的合适方法是什么?如何显示这些数据?我该如何理解它呢?所有这些问题的答案都会影响读者的最终结论。

图表制作过程充满了图表创作者的代理时刻。什么算数据?操作数据的合适方法是什么?如何显示这些数据?我该如何理解它呢?所有这些问题的答案都会影响读者的最终结论。

进入“海市蜃楼”

在制作图表或可视化的道路上有许多步骤和阶段,每一个步骤和阶段都容易出现错误。考虑一个简化的模型:分析师决定如何管理数据,如何将其转换成可用的形式,如何对数据进行可视化编码,最后决定如何真正地读取数据。当分析师做出一个决定时,他们行使代理权,并创造了错误的机会,这些错误可能会沿着这条管道蔓延,产生虚幻的见解。

像定义一个直方图可以掩盖潜在的数据质量问题,这反过来可能导致对趋势的不正确推断。在雷达图中任意选择坐标轴顺序可能会导致读者错误地认为一个求职者很好,而另一个则不够好。什么类型的决定犯罪实际上算作犯罪这可能会导致地图对某一特定地区的犯罪行为产生截然不同的印象。

虽然图表往往让人觉得值得信任,但创造它们的看似无害的选择可能会导致各种幻觉。来源:https://arxiv.org/abs/2001.02316

虽然图表往往让人觉得值得信任,但创造它们的看似无害的选择可能会导致各种幻觉。来源:https://arxiv.org/abs/2001.02316

“任何可视化的粗略阅读似乎会支持来自数据的特定信息,但更仔细的重新检查将消除或对这种支持产生重大怀疑的可视化。”"
我们都渴望在视觉分析(或其他任何领域)中获得洞察力。这种欲望会导致我们忽略重要的细节或忘记最佳实践。

我们都渴望在视觉分析(或其他任何领域)中获得洞察力。这种欲望会导致我们忽略重要的细节或忘记最佳实践。

在视觉分析中出现了幻影。它们是数据选择的结果。它们来自于设计选择。它们取决于你想用形象化来做什么。在一项任务中可能产生误导的内容可能不会干扰到另一项任务。例如,对于想知道散点图中相关关系的观众来说,一个糟糕的纵横比可能会产生海市蜃楼,但不太可能影响那些只想找到最大价值的人。

产生幻影的错误有熟悉的和不熟悉的名字:向下钻取的偏见,被遗忘的人口或丢失的数据集,樱桃采摘,可修改面积单位问题,同时可视化,还有更多。这个列表的注释和扩展版本包含在论文中补充。有一个庞大的宇宙,微妙和棘手的方式,海市蜃楼可以产生。

更糟糕的是,几乎没有什么自动化工具可以帮助读者或图表创建者知道他们在追求洞察力时没有欺骗自己。

这些事情真的会发生吗?

假设你对全球能源使用的趋势很好奇。解决这些问题的一种自然方式是启动Tableau并加入世界指标数据集其中包括2000年至2012年的重要世界统计数据。随着时间的推移(a)的趋势表明,2012年有一个急剧下降!这对环境来说是个好消息,如果它不是虚幻的,就像我们在(b)中看到的那样,当我们检查丢失的记录集时。

来源:https://arxiv.org/abs/2001.02316

来源:https://arxiv.org/abs/2001.02316

如果我们试图通过将折线图中的集合从SUM转换为MEAN来消除这些数据问题,我们会发现相反的结果是正确的!!2012年有一个急剧的增长。不幸的是,这个结论是另一个海市蜃楼。2012的唯一非空条目是经济合作与发展组织国家。这些国家的能源使用量比其他国家高得多(d)。

来源:https://arxiv.org/abs/2001.02316

来源:https://arxiv.org/abs/2001.02316

考虑到这些不规律,我们可以尝试将2012年的数据从数据中移除,关注其他数据中能源使用量的逐渐上升趋势。正如我们在左边所看到的,能源的使用似乎与平均预期寿命紧密相关,也许更多的能量意味着更幸福的生活对每个人来说。不幸的是,这也只是海市蜃楼。这个图表的y轴已经被改变,使趋势看起来类似,并掩盖了大多数国家的能源使用是持平的这一事实。

当然,你可能会说:

但我真的很聪明,我不会犯这种错误

太好了!恭喜你很聪明。不幸的是,即使是那些具有高数据可视化素养的人也会犯错误。视觉化是一种修辞手段容易轻信的人。图表系统通常会给人一种他们未必保证的可信度。通常你更容易相信自己最初的推断,然后继续前进。使用探索性工具的交互式可视化可能有助于消除幻想通常只是被普通读者浏览一下。有时候你只是累了,错过了一些“明显的”事情。

乍一看,这张臭名昭著的图表似乎在说,“坚守阵地”降低了枪支死亡人数,但仔细观察,它显示的恰恰相反!可怕的!(这个图表的作者并不是想要迷惑任何人,他们只是想探索一种新的设计语言)。来源:路透社

乍一看,这张臭名昭著的图表似乎在说,“坚守阵地”降低了枪支死亡人数,但仔细观察,它显示的恰恰相反!可怕的!(这个图表的作者并不是想要迷惑任何人,他们只是想探索一种新的设计语言)。来源:路透社

有些可视化问题很容易检测,比如轴指向一个不直观或非传统的方向,或者饼图中有很多楔形。这种类型的最佳实践知识并不总是可用的,例如,如果您试图使用一种新的可视化类型怎么办?(一个xenographic可能吗?)除了你的直觉,没有什么能指引你。

另外,更可怕的是,只有与特定图表相结合的特定数据集才会出现问题。为了解决这些问题,我们引入了一个测试策略(源自变质的测试),可以识别一些棘手的错误类,比如我们在前面的简单条形图中看到的聚合屏蔽不可靠的输入。

如果您知道系统的正确行为,那么测试错误是很容易的。只需检查系统并报告您的发现。在数据和编码的腹地出现错误时,我们就失去了这样一个指南针。相反,我们试图通过识别数据变化的对称性来找到指导。

散点图中点的排列顺序并不重要,对吧?然而,依赖于数据集,它通常可以!!这可能会擦除数据类或导致错误推论。我们通过打乱输入数据的顺序,然后比较两幅图像之间的像素级差异来测试这一属性。如果差异超过某个阈值,我们就知道可能有问题。这是我们技术的本质:对于特定的数据集,执行一个应该有可预测结果的更改(这里没有更改),并比较结果。

一个简单的散点图可以通过绘制顺序隐藏它所显示的分布。这个问题不会影响到每个数据集,但在这里,它隐藏了分布中间的美洲流行。来源:https://arxiv.org/abs/2001.02316

一个简单的散点图可以通过绘制顺序隐藏它所显示的分布。这个问题不会影响到每个数据集,但在这里,它隐藏了分布中间的美洲流行。来源:https://arxiv.org/abs/2001.02316

虽然它仍处于早期开发阶段,但我们发现,这种方法可以有效地捕获编码与数据匹配过程中出现的各种可视化错误。这些技术可以帮助揭示过度绘图、聚合、缺失聚合和各种其他上下文中的错误。如何有效地计算这些错误(因为它们的计算可能很麻烦)以及如何最好地向用户描述这些错误仍然是一个公开的挑战。

我们该怎么办呢?

可视化,以及创建可视化的人,很容易以微妙和困难的方式失败。我们相信视觉分析系统应该做更多的工作来保护他们的用户。这些系统可以做到这一点的一种方式是将可视化图像作为分析过程的一部分呈现给用户,希望这将引导他们进行更安全、更有效的分析。将我们的变形测试应用于可视化方法只是可视化验证工具箱中的一个工具。实现这一目标的正确接口仍然是未知的,尽管应用了一个软件的比喻产品毛羽似乎有前途的。欲了解更多细节,请查看我们的论文,看一看代码回购对于项目,还是看我们的气说话

关于

安德鲁·麦克纳特他是芝加哥大学计算机科学专业的博士生。他的工作主要集中在一般的信息可视化,以及自动导航系统(如linter),不寻常的或xenographical的数据可视化,以及作为可视化媒介的web应用程序。在过去的一段时间里,他在旧金山的多家公司担任数据可视化工程师,在那里他制作了可视化分析软件。他在波特兰里德学院(Reed College)接受过正式的物理教育,在App Academy接受过非正式的web开发教育。他真的很喜欢沙漠,水牛和摩托车。他对InfoVis、应用类别理论、仪表盘、测试以及javascript世界中的几乎任何东西都很感兴趣。

戈登首日是芝加哥大学计算机科学系的副教授。他研究图像分析和数据可视化,以提高基于图像的科学计算能力。科学将产生实验数据的测量工具与处理数据的计算工具结合起来。扫描成像方式(如MRI和共聚焦显微镜)的进步不断提高图像测量的速度、分辨率和复杂性。科学家们现在形成假设和进行实验的速度比他们找到或创建与他们的新图像数据最匹配的计算分析更快。不幸的是,创建新软件的过程对许多人来说仍然是缓慢或不透明的,而并行计算(大型图像所需的)的进步甚至使专家的过程变得复杂。

他与物理和生物医学研究人员合作,获取图像数据来回答科学问题。他的研究简化了信息可视化的创建,改进了相关图像特征的检测、采样和量化。他还对有效数据可视化的理论和感知基础感兴趣,并通过将他所有的研究软件开源来培养可重用和可再现的计算科学。

迈克尔·科瑞尔说道研究科学家在哪里Tableau软件他在那里从事信息可视化领域的工作。他特别感兴趣的是如何使用感知系统更好地向普通观众传达复杂的统计概念,但他也对文本分析、统计图形、不确定性可视化,以及可视化和机器学习的交集感兴趣。

他是一个博士后华盛顿大学交互数据实验室华盛顿大学计算机科学系,主管杰夫陆军。他获得了博士学位。从威斯康星大学麦迪逊分校2015年8月计算机科学系。