以更好的文本促进社会科学中的文本即数据革命

作者:英迪拉·森,SAGE海洋bepaly提款会黑吗研究员,莱布尼茨社会科学研究所GESIS三年级博士生

用望远镜看的女人

邓肯·沃茨博士赞扬数据革命创造了社会科学望远镜,也就是说,这个工具将使社会科学家能够在从社交媒体到数字化记录(比如政治家的演讲)的大规模数据集上反复测试他们的理论假设。但是,巨大的潜力带来了巨大的潜在缺陷,尽管社会科学家现在可以获得的大量数据有巨大的潜力,但也需要可扩展的自动化处理技术。

大规模数据的可用性带来了许多新的处理技术,特别是文本-数据社区,他们现在开发大规模内容分析的方法来回答各种各样的社会科学问题,比如两极分化的政治家的演讲是如何随着时间的推移发展到如何媒体在诸如#metoo(我也是)运动等民间运动中塑造了不同的角色.这些分析中有许多依赖于不同于用例的复杂技术,例如前者的主题建模,后者的内涵框架。分析或处理也高度依赖于所涉及的数据源或语料库;例如,与政治宣言相比,社交媒体内容具有非常不同的属性。然而,某些类型的处理对于所有类型的语料库和研究问题都是必要的——预处理或文本清理。

如前所述之前,不同的数据清理方法会导致非常不同的下游结果。即使是研究人员看似最无害的设计决定也可能产生意想不到的影响。为了方便社会科学家和其他对使用数字痕迹进行内容分析感兴趣的人,SAGE Ocean推出了Texti,这是一个非常整洁的web界面,用于尝试不同类型的清洁和预处理步骤或“转换”,目前正在开发中。bepaly提款会黑吗你可以提前注册在这里.在2020年的最后10周,我有幸在Texti上工作,为已经有用的列表添加了更多的转换,并更好地记录了该工具。更棒的是,我得到了Dr. Daniela Duca的指导,她一直支持我,给我很好的建议和指导。

关于我

目前,您可以将Texti用于PDF文档。我们补充了这个工具文档和一个存储库在寻找政治科学语料库和工作流程的大量有用资beplay国际娱乐备用网址源。我的任务是在Texti中添加更多的转换,美化全面的文档,推动文本挖掘社区更多地使用该工具,并希望贡献一些他们自己的转换。

功能我

Texti有几个有用的转换,它们是完全模块化的,可以根据特定研究人员的需要进行混合和匹配。Daniela和我对更多潜在的转换及其变体进行了头脑风暴,我致力于实现并将其中一些集成到Texti中。有四种(临时的)转换类别——干净、过滤、替换和格式,包含广泛的转换及其变体,为用户提供了极大的灵活性。Texti使用开源的、广泛使用的NLP库(如gensim和nltk)进行转换,比如删除停止词和引申。由于不同的库有不同的文本清理方法,我们决定从许多常用的库中包含相同转换的变体,比如词干。这不仅为用户提供了很大的灵活性、选择和效率,而且还帮助他们了解一个常见预处理步骤的实现中的微小差异如何影响他们的数据和分析。我们考虑了其他方式,可以在不需要用户进行大量编码的情况下为转换添加更多的灵活性。例如,我开发了几个转换,比如删除用户指定的所有自定义词,或者删除除用户指定的词以外的自定义词。这些特性结合在一起,允许用户迭代地为他们的特定用例寻找最佳的转换集和序列。

工作流

一旦用户以不同的顺序尝试转换,一旦他们对转换序列感到满意,他们就可以将其保存为一个“工作流”,他们可以与他人分享,或稍后返回。用户还可以下载作为python笔记本的工作流,并使用它在自己的系统上对自己选择的一批语料库进行大规模计算预处理。Texti允许用户拥有类似类型的语料库的基本/潜在工作流,从而允许重用其他用户设计的工作流。例如,我为政治宣言制定了一个建议的工作流程。

政治宣言的工作流程

宣言对于政治科学家来说,来自不同政党的数据是一个有趣的来源。这些宣言为许多不同类型的研究问题提供了丰富的信息来源,比如某些政党最可能关注哪些问题,或者哪种政党更可能使用民粹主义情绪.许多这样的宣言都可以在政治组织的网站上以pdf格式获得。虽然没有一个最佳的工作流程所有宣言,我们设计了一个推荐的工作流程,从剥去空白开始(在“干净”下),然后删除标点、标题和脚注(在一些宣言中经常出现),删除数字,然后删除停止词,简短的词,最后以引理化结束。正如前面提到的,虽然这是一个建议的基本工作流,但它也可以为特定的用例进行定制。例如,如果研究人员对研究宣言中提到的财务有兴趣,他们可能会使用“保持文本数字”的转换,而不是“删除数字”来保留句子,如“一个巨大的赤字500万欧元被产生”。

对Texti的贡献和访问

Texti不仅有助于灵活和可定制的研究,而且还可以根据研究人员的需要进行改进。这个知识库在Github上是公开的,我们鼓励研究人员贡献各种类型的语料库或新的转换,或者建议社区成员可以实现的潜在的新转换。我有一个绝对的爆炸和一个优秀的学习经验在Texti工作。加入有趣的活动,贡献或建议语料库、例子、工作流或转换

关于作者

英迪拉·森的照片

森英迪拉他是莱布尼茨社会科学研究所GESIS的三年级博士生,在计算社会科学(CSS)系研究使用数字痕迹进行社会研究时,错误和偏见是如何发生的。beplay官网ios通过自然语言处理和测量理论,她的研究重点是研究人员和政策制定者如何从数据中获得更准确和透明的见解。在进入GESIS攻读博士学位之前,她获得了印度理工学院(IIIT Delhi)的计算机科学硕士学位。甚至在那之前,她在维洛尔理工学院获得了学士学位(也是计算机科学)。她的出版物可以找到在这里.你可以打indira.sen@gesis.org