以更好的文本促进社会科学中的文本数据革命

作者:英迪拉·森,SAGE海洋bepaly提款会黑吗研究员,莱布尼茨社会科学研究所GESIS三年级博士生

穿过望远镜的女性

Duncan Watts博士欢呼数据革命以创造社会科学望远镜,即,将使社会科学家能够在社交媒体的大规模数据集中测试和重新测试社会科学家的工具,从社交媒体到数字化记录,如政治家的演讲。但潜在的潜在缺点具有巨大潜力,虽然现在对社会科学家现在可用的巨大数据巨大潜力潜力,但也需要可扩展,自动化的处理技术。

大规模数据的可用性已经引起了许多新的处理技术,特别是文本数据社区,现在正在开发大规模内容分析的方法,以回答许多不同的社会科学问题,例如偏振政治家的演讲如何长大是时候了媒体在诸如#metoo(我也是)运动等民间运动中塑造了不同的角色。其中许多分析依赖于复杂的技术,这些技术与用例不同于用法的用例,例如前者的主题建模,到后者的内涵帧。分析或处理也高度依赖于有问题的数据源或语料;例如,与政治宣言相比,社交媒体内容具有截然不同的特性。然而,各种语料库和研究问题所需的某些类型的处理 - 预处理或文本清洁。

正如所提到的那样,不同的数据清洁方法导致下游的结果非常不同。即使是研究人员最具无害的设计决策也可能发生意想不到的反冲。为了促进社会科学家和其他有兴趣使用数字痕迹进行内容分析的人,Sage Ocean推出了Texti,这是一种非常简洁的网络界面,用于尝试不同类型的清洁和预处理步骤或“转换”,目前正在开发中。bepaly提款会黑吗您可以注册早期访问权限这里。在2020年的过去10周内,我有权在Texti上工作,以向已经有用的列表添加更多的转换,并更好地记录该工具。甚至更好,我被丹妮拉杜卡博士思考,他们不断支持,并提供了出色的建议和方向。

关于Texti.

目前,您可以将Texti用于PDF文档。我们补充了这个工具文档A.存储库在寻找政治科学语料库和工作流程的大量有用资beplay国际娱乐备用网址源。我的任务是在Texti中添加更多的转换,美化全面的文档,推动文本挖掘社区更多地使用该工具,并希望贡献一些他们自己的转换。

Texti中的功能

Texti有几个有用的转换,它们是完全模块化的,可以根据特定研究人员的需要进行混合和匹配。Daniela和我对更多潜在的转换及其变体进行了头脑风暴,我致力于实现并将其中一些集成到Texti中。有四种(临时的)转换类别——干净、过滤、替换和格式,包含广泛的转换及其变体,为用户提供了极大的灵活性。Texti使用开源的、广泛使用的NLP库(如gensim和nltk)进行转换,比如删除停止词和引申。由于不同的库有不同的文本清理方法,我们决定从许多常用的库中包含相同转换的变体,比如词干。这不仅为用户提供了很大的灵活性、选择和效率,而且还帮助他们了解一个常见预处理步骤的实现中的微小差异如何影响他们的数据和分析。我们考虑了其他方式,可以在不需要用户进行大量编码的情况下为转换添加更多的灵活性。例如,我开发了几个转换,比如删除用户指定的所有自定义词,或者删除除用户指定的词以外的自定义词。这些特性结合在一起,允许用户迭代地为他们的特定用例寻找最佳的转换集和序列。

工作流程

一旦用户以不同的顺序尝试转换,一旦他们对转换序列感到满意,他们就可以将其保存为一个“工作流”,他们可以与他人分享,或稍后返回。用户还可以下载作为python笔记本的工作流,并使用它在自己的系统上对自己选择的一批语料库进行大规模计算预处理。Texti允许用户拥有类似类型的语料库的基本/潜在工作流,从而允许重用其他用户设计的工作流。例如,我为政治宣言制定了一个建议的工作流程。

政治宣言的工作流程

宣言来自不同政党是政治科学家的一个有趣的数据来源。这些宣言是许多不同类型的研究问题的丰富信息来源,例如哪些政党最有可能关注或哪种各种政党更有可能使用的问题民粹主义情绪。这些宣言中的许多都可以作为政治组织网站的PDF。虽然没有一个最好的工作流程全部宣言,我们设计了一个推荐的工作流程,从剥去空白开始(在“干净”下),然后删除标点、标题和脚注(在一些宣言中经常出现),删除数字,然后删除停止词,简短的词,最后以引理化结束。正如前面提到的,虽然这是一个建议的基本工作流,但它也可以为特定的用例进行定制。例如,如果研究人员对研究宣言中提到的财务有兴趣,他们可能会使用“保持文本数字”的转换,而不是“删除数字”来保留句子,如“一个巨大的赤字500万欧元被产生”。

贡献和访问Texti

Texti不仅有助于灵活可自定义的研究,但它也可以根据研究人员的需求增强。存储库在GitHub上公开可用,并鼓励研究人员贡献基数或新转型或建议社区成员可以实施的潜在新的变换。我有一个绝对的爆炸和在Texti上工作的优秀学习体验。同时加入乐趣并贡献或建议语料库,例子,工作流或转换

关于作者

英迪拉·森的照片

indira sen.他是莱布尼茨社会科学研究所GESIS的三年级博士生,在计算社会科学(CSS)系研究使用数字痕迹进行社会研究时,错误和偏见是如何发生的。beplay官网ios通过自然语言处理和测量理论,她的研究重点是研究人员和政策制定者如何从数据中获得更准确和透明的见解。在进入GESIS攻读博士学位之前,她获得了印度理工学院(IIIT Delhi)的计算机科学硕士学位。甚至在那之前,她在维洛尔理工学院获得了学士学位(也是计算机科学)。她的出版物可以找到这里。你可以到达她indira.sen@gesis.org.