自动内容分析的有效性问题

通过Chung-hong Chan博士,曼海姆欧洲社会研究中心(MZES)。

自动内容分析工具存在有效性问题。多年来,研究人员已经认识到,在应用于其他研究之前,需要对针对特定环境开发的模型进行重新验证。然而,如何做到这一点的问题到目前为止仍然没有得到回答,这意味着许多使用这些工具的论文没有经过重新验证就发表了,因此可能是无效的。

现在,一个解决方案就在眼前。一个新的R包-乌龙-为经常使用的文本分析工具提供一套简单和标准化的测试。在这篇博文中,作者乌龙Chung-Hong Chan博士概述了工具的功能,可以立即向您的研究申请。


内容分析是对依赖于科学方法的消息的总结,定量分析(包括注意对客观性 - 运动性,先验设计,可靠性,有效性,概括性,可重量性和假设检测),并且不限于变量类型可以测量或呈现消息的上下文。
- Neuendorf(2002) -内容分析指南

正如自动柜员机(ATM)就是一个柜员机,自动内容分析仍然是一个内容分析。内容分析始终涉及材料的注释(编码)。在传统的内容分析中,此注释是手动完成的。在自动内容分析中,您可以猜到,此步骤是自动化的。这通常是使用主题建模或现成字典的(例如,受欢迎的语言查询和字数)。虽然受欢迎,但已经调用了这些方法的有效性,许多呼吁对研究人员自己的应用程序进行正确验证这些方法。

但是我们如何验证这些方法呢?该过程中最重要的部分是语义验证:检查模型的结果是否具有语义意义。由于人脑仍然是我们从文本中解读含义的最佳设备,语义验证可归结为将模型的结果与人类注释进行比较。

我开发了R包乌龙为了使自动内容分析的语义验证易于进行。R不是旨在是注释界面;作为其官方网站状态:“R是统计计算和图形的免费软件环境”主要的创新之一乌龙是将创建,管理和分析集成了循环测试。

验证主题模型

假设您有一个名为Abstract_Stm的主题模型。和乌龙茶,创建验证测试的整个过程,管理测试和分析测试可以只有四行代码完成:

' ' ' r

oolong_test < - create_oolong(Abstracts_stm)

oolong_test $ do_word_intrusion_test()

oolong_test锁()美元

oolong_test

' ' '

这个测试被称为“词汇入侵测试”,通过一个易于使用的图形用户界面进行管理,如下所示:

图1乌龙茶词语入侵测试

图1乌龙茶词语入侵测试

这些词是从主题模型abstract_stm的主题生成的。它们的意思应该非常相似。然而,一个随机单词被插入到串中。该测试的目标是从这组单词中挑选出奇数单词(侵入词)。如果主题模型具有语义意义,那么我们的评价者应该能够挑选出奇怪的单词(例如“coverag”)。人类评估者识别这些奇怪词汇的可能性可以通过模型的精度来量化。精度越高,模型在语义上就越有意义。

乌龙茶还支持“主题入侵测试”。有关详细信息,请参阅概述包裹

验证基于字典的方法

假设你想在一个名为trump2k的数据集中注释tweets的情感,它很简单:

' ' ' r

Oolong_test <- create_乌龙(input_corpus = trump2k, construct = "positive")

oolong_test do_gold_standard_test美元()

oolong_test锁()美元

oolong_test

' ' '

测试界面乌龙是这样的:

图2乌龙茶情感标注测试

图2乌龙茶情感标注测试

在这种情况下,我们的人类评估者需要选择1到5的分数来表示这款推文的阳性。在人类注释之后,乌龙可以生成这样的诊断数字:

图3:乌龙情感标注分布图

图3:乌龙情感标注分布图

此图显示了目标值(在本例中,情绪得分来自AFINN)与人类对感情的判断有关。图中还显示了基于字典的方法的有效性和可靠性的其他信息。再次说明,更多信息请参考软件包概述

进一步的发展

乌龙茶这几个月进步很大。例如,它现在支持R生态系统中的所有主题模型包(主题模型、stm、text2vec、BTM、keyATM等)。我们还在试验“两指”键盘界面,以实现对文本的超级快速的人工注释。在下面的视频中,一位评价者正在注释大量与研究问题相关的文本。评分员可以在20秒内批注5篇文章。她所需要做的就是阅读文章,然后按下键盘上的“q”或“w”键。

oolong fig4.gif

通过Sage概念赠款的支持,我们将延长乌龙支持通过互联网的大规模注释。例如,我们正在开发互联网部署版本乌龙,这样评估师就不需要在他们的电脑上安装R。我们也在考虑使用众包平台,如多产的

乌龙可在:https://github.com/chainsawriot/oolong

了解更多关于SAGE概念补助金的信息beplay