文档标签的五个陷阱——以及如何避免它们

尼克·亚当斯博士

无论你称之为“内容分析”、“文本数据标签”、“手工编码”还是“标签”,越来越多的研究人员和数据科学团队正在启动注释项目。许多人希望将人类的判断贴在文本上,以训练人工智能(通过有监督的机器学习方法)。其他人也尝试过自动文本分析,但发现它不够理想。现在,他们正在寻找一种方法来给文本贴上标签,这样就不难理解和解释了。有些人只是想要社会科学家一直想要的东西:一种能够大规模分析人类行为档案(比如最高法院的记录或外交信函)的方法。现在有如此多的数字化文本数据可供使用,有如此多的模式和见解有待发现,难怪人们对注释感到兴奋。

我们一直鼓励研究人员有远大的梦想,解决他们领域中最复杂和最具影响力的问题。但注释项目并不容易(我说的是,我在加州大学伯克利分校教研究方法、创建和领导文本分析的时候,已经咨询过一百多个注释项目d实验室的组织伯克利数据科学研究所)。在这里,我列出了五种最常见的出错方式,并提供了一些建议,让你保持清醒。

  1. 收集的数据太薄

这是研究人员最常犯的错误。当你第一次阅读你的文档样本时,你可能会因为一个单一的研究问题而感到兴奋,并决定只标记与该问题相关的内容。或者,也许你想标记更多的上下文信息,但有人建议你限制你的范围,这样项目就不会变得太大而难以管理。

限制概念方案(AKA编码方案、本体或标签集)的丰富性似乎是找到答案和发表期刊文章的最快方法。但它实际上会阻止你得到任何有用的答案,更不用说发表文章了。审稿人会很热心地指出你的研究中遗漏的变量,并建议你可能精心挑选了一些段落。自从比尔纳基的严厉批评以来,这一点尤其正确批判所有第一代手工内容分析方法。

此外,虽然你很容易很快地给你认为你需要的东西贴上标签来解决你的狭窄的研究问题,但标签项目是有启动成本的。并且,为了满足审稿人的要求,回到文档中去,或者通过一些线索进行调查,这不是一项微不足道的工作。只要您有准备好的注释者,并且他们正在阅读您的文档,就值得对潜在的混淆、调节、调节或工具变量进行标记。这样做不仅仅意味着满足挑剔的审阅者。这也意味着做更好的科学研究,发现你可能错过的复杂关系和机制——这类发现会让你的研究从优秀走向卓越。

2.收集的数据太少

如果您正在收集丰富的数据,您可能会认为执行分析不需要太多数据。如果你只是在写一份理论备忘录,或者只是试图证明某些新的社会现象或机制的存在,这可能是正确的。但是,如果人们对这种现象或机制感兴趣,他们很快就会想知道它在各种条件下是如何出现的,为什么会出现。这些问题只能通过收集和标记更多的数据来回答。

有时,人工智能和机器学习研究人员也会落入这个陷阱。他们希望通过机器学习过程使用数据标签来训练文本分类算法。问题是:他们根据原始文档中相当常见的一个变量标签估算注释作业的大小。他们的结果AI在标记变量时表现良好。但是它在根据其他变量/标签对文本进行准确分类方面很糟糕。这是因为他们在不太常见的变量/标签上收集的训练数据太少。

你的比较、统计分析和机器学习训练集的力量取决于多做一点,收集更多的数据。这常常是印象主义的,比什么都好一点的结果,和世界级的,改变游戏规则的结果之间的区别。

3.未能正确验证数据

语言是滑。这就是为什么诗歌可以如此美丽和感人——为什么机器不能理解它。但这也是为什么你的批评者似乎有这么多的弹药,因为他们试图在你的证据和结论中寻找漏洞。如果您想识别、统计、比较和分析作为文本数据记录的含义,那么您需要做好准备。这意味着你需要一个全面的验证策略。当有人问你如何知道你的团队标记了所有相关信息,并正确地标记了它们,仅仅说他们非常聪明和专注是不够的。仅仅报告他们对自己的工作有信心是不够的。现在的研究标准要求您显示多个相同地应用标签的独立注释器。有些工具可以很容易地找到并报告这个注释者共识,而另一些工具则让您自己去弄清楚——或者更有可能的是,请求评审者接受您的结果。

女人坐在办公桌前,周围堆满了文件

有更多的。注释者的技能和性能不仅会不同,而且会因项目中的不同变量/标签而不同。例如,对于“出席人数”这样简单的标签,注释者的差异可能比“堂吉诃德情绪的证据”这样主观的标签要小得多。你需要报告每个变量/标签的Krippendorf alpha分数,并确保它们高于适合你的领域和应用的评分者之间的可靠性阈值(通常社会科学约0.68或更高,或机器学习0.5或更高)。在这里,有些工具可以帮助您轻松地报告这些统计数据,而另一些工具则需要您训练数据科学技能并编写一些脚本。

除了这些指标之外,在进行过程中有能力监视和改进数据也很重要。有些工具允许您在最后计算所有内容。这总比什么都没有好,但是现在要对变量/标签定义和注释器指令进行改进,以允许您生成更高质量的标签,已经太晚了。理想情况下,您希望注释工具允许您及早且经常地监视和调整注释器的输出,这样您就可以改进您的过程,并确保足够的标签质量。最好的注释工具提供机器和人的数据验证特征,从而使高度一致的标签被自动接受,经验丰富的注释者可以判定边缘情况。

4.低估管理负担

如果你和大多数研究人员一样,你可能比你所知道的更专业。你每天都在和和你波长相同的人交谈。然后你去参加会议,振幅上升,但波长是一样的。对您来说,注释文档似乎很容易。你所要做的就是通读它们,然后把标签拖到相关内容上。没问题!

但如果你在做任何规模的项目,你都需要帮助。您很快就会发现,对您来说很明显的东西对您的注释者团队来说却不那么明显。他们对变量/标签的定义不会和你的完全重叠。对于难缠他们的例外情况,你需要更多的解释。你将不得不重复你自己几十次,直到你所有的指示都在你的密码本中很好地记录。然后,您将不得不重复自己更多,以确保每个人都在应用类似的代码本。

您还必须定义您的注释任务,以及您的团队中谁负责哪个任务。您将需要唠叨您的注释者完成他们的工作,并将其发回给您。在此之前,您必须培训他们如何使用您选择的任何注释工具。所有这些都变成了大量的工作。如果你的研究助理是最常见的一种类型——大学生,那么你将面临一个不受欢迎的惊喜。你必须每年至少重复一次你的培训过程,如果不是每个学期。虽然其他一些陷阱可能对已完成的注释项目有害,但这可能是最经常扼杀项目的一个陷阱。许多研究人员在经历了两三个学期令人头疼的管理问题后,放弃了他们的项目。为了确保你不会遭受这样的命运,你需要找到提高你的管理技能和能力的方法,或者仔细选择有助于(而不是加剧)这种陷阱的工具。

5.使用了错误的工具

大多数屈服于上述陷阱的项目都是由聪明能干的专业人士领导的。他们只是没有使用正确的工具。使用最可用的技术在高规模上收集丰富的数据是困难的。最初设计的CAQDAS包括AtlasTI、NVivo、MaxQDA和deoose

帮助一位专家对几百份采访记录进行注解。在团队中使用它们需要将您的专业知识完美地传递给每一个团队成员,这是一个容易出错的管理和文档挑战,总是会影响下游的数据质量。CAQDAS的用户经常陷入陷阱2(收集的数据太少)。然而,有时这些工具的用户会选择减少其标签的细微差别和复杂性,这常常使他们陷入陷阱#1(收集瘦数据)。

其他工具如LightTag、TagTog和DiscoverText更适合小型研究团队,但它们只设计用于非常简单的任务,如在推文中标记情感,或在文档中识别命名实体。希望使用非常丰富的标签集深入挖掘文档的用户很快就会发现,他们必须创建、管理和监督许多不同的任务,并从每个注释器池中收集、细化和重新路由不同的输出。当研究人员在第1和第2条之间走钢丝时,他们在努力管理任务分配(第4条)和数据质量(第3条)时,这些项目容易受到所有陷阱的影响。

像MTurk和Figure Eight这样的第一代人群注释平台在其他方面限制了项目经理。尽管他们能够接触到全球互联网劳动力,为获得大规模数据提供了希望(避免陷阱#2),但这些工具从来都不是为研究级注释而设计的。它们允许注释者对文本块进行分类(例如,将产品描述标记为“家具”),但它们不允许注释者在文本的特定单词和短语上放置分类标签,而所有其他工具都是这样做的。因此,这些平台的用户经常会发现自己陷入陷阱#1或#3。在这些平台上管理任务和数据也不容易。

只有一种工具专门用于帮助您从庞大的文档集中的每一个条目中收集所需的所有数据。它是由一位社会科学家和研究软件工程师创建的,他决心克服上面列出的所有缺陷。它被称为TagWorks,是第二代人群注释平台,通过定制的注释装配线有效地指导志愿者和人群工作者的工作。它的任务接口旨在产生高度有效的数据,而不需要您对注释者进行密切的培训和监督。因此,您的管理负载将减少一半,而文档吞吐量将增加10倍。

TagWorks的数据也受到科学家的信任。它具有监测、抽查、改进和测量项目数据的可靠性和注释者绩效的多种功能,得到了社会科学方法的全球领导者SAGE Publishing的认可。他们甚至投资了TagWorks的母公司。使用TagWorks,您可以在几个月而不是几年的时间内将您的专业知识应用到您的文档中——不需要进行任何权衡。

要获得更多关于注释项目的有用提示,请注册我们的电子邮件列表在这里。如果你想在计划下一个项目时安排一次免费咨询,请给TagWorks团队发邮件,地址是office@thusly.co

关于

Nick Adams是社会科学方法和自然语言处理方面的专家,也是提供TagWords服务的Thusly公司的首席执行官。他拥有加州大学伯克利分校的社会学博士学位,是Goodly实验室的创始人和首席科学家,Goodly实验室是一家位于加州奥克兰的非营利社会公益技术机构。