从预处理到文本分析:用于挖掘非结构化数据的80种工具

作者:Daniela Duca, SAGE出版公司产品经理

文本挖掘技术已经成为社会科学家处理大规模社会数据的关键技术,无论是追踪两极分化的Twitter集合,理解观点和意识形态的政党文件,还是研究虚假信息传播的新闻语料库。

公共和私营部门的研究人员和开发人员在这一领域取得了长足的进步,特别是在过去一年。对文本表示的改进,如谷歌的BERT和OpenAI的GPT是计算语言学的热门话题因为他们击败自然语言理解的基准比预期更快。

与此同时,政治科学家喜欢贾斯汀里维默和他的同事们是结合实验方法,具有计算文本分析,以推断最有可能影响我们投票行为的特征或文本。其他人,正在使用平台伊拉穆特克hyperbase.这不需要编码技巧来运行大规模的文本分析项目。

在下面的信息图中,我们在其文本分析项目中确定了社会科学研究人员使用的r,python和matlab的80多个不同的应用程序,软件包和图书馆。我们几乎完全专注于对文本的统计,定量和计算分析,尽管这些工具中的一些可以用于探索定性目的的文本。

社会科学中的文本挖掘工具的信息图

社会科学中的文本挖掘工具的信息图

关键的外卖

大多数工具都是免费的,但是高性能工具需要编码技能。

我们已经确定的用于文本清理、预处理、丰富和各种分析的工具中,有超过70%(130个中的92个)是免费使用的,有少数提供了免费试用期。免费和/或开源的库和包,如scikit-learn、spacy、gensim、quanteda、NLTK是高性能的,也就是说,其输出即使不比某些付费选项和开源无代码选项好,也同样好。换句话说,你越想从你的语料库中得到,你就越需要适应R或Python来找到和使用这些包,特别是如果你想将转换器和语言表示模型应用到你的数据集。

图表显示文本挖掘的工具和包,1962-2019

大多数不需要编码技能的工具相对较大。

不编码的研究人员可以使用一套免费和一些付费的应用程序,比如Voyant,Lexi&co伊拉穆特克hyperbase.橙色文本和数据挖掘。旁边驾驶另一种软件开发于20世纪90年代至21世纪初,当时编程技能还不像今天这样普及。然而,这些工具提供的一些统计分析是值得注意的。

有很多用户界面的应用程序数量越来越多,其中一些是免费的,这使您能够丰富您的语料库。

一个重要的一步,主要是为那些建立自己的包和分析工具的步骤是丰富语料库。最常见的任务是致辞标记。我们指出,研究人员越来越需要向他们的语料库进行注释,以便培训主题建模或分类算法。这与蓬勃发展的Chatbot市场以及大型企业的需求结合在一起,正在推动为文本标签的付费Web应用程序和开源包的开发。在过去的三年里,超过了10个工具:Explosion Ai,Spacy背后的开发商,推出神童;亚马逊发布了GroundTruth SageMaker与Mechanical Turk和其他“人在循环中”的服务整合,比如Imerit.。可能是最活跃的doccano.它是免费使用的,在仅仅一年的时间里,贡献者就增长到了24人。我们已经投资了TagWorks,与机械土耳其人集成,提供了更加分层的注释模式。

最耗时的位是清洁和预处理。

虽然可以使用其中一些工具(例如Orange、IRaMuTeQ、Hyperbase、scikit-learn、MathWorks文本分析工具箱、NLTK、quanteda)对文本进行预处理和压缩,但在加载语料库之前,仍然需要格式化和清理语料库。我们从许多研究人员那里听说,他们最大的痛点和挫折是清理和做一些预处理。主要原因是:

  • 它需要多于预期的时间,他们花费的金额至少三倍(分析!);

  • 他们不愿意教授清洁和预处理,而把这些留给车间和工作组去做;和

  • 他们几乎从不回到这一部分的过程,尽管他们承认他们对预处理所采取的任何决策来测试他们的分析可能会增加其产出的额外信心。

有关少数工具可以帮助转换文件格式:PDFminer是PDF文档的Python解析器和分析器,可以将它们转换为HTML,但最常见的是反复逆变器从劳伦斯安东尼将PDF和文档转换为纯文本。TextClean是一个完整的用于清洁和归一化R中的文本文档的工具集合,它是开源的。如果您正在使用Web的现有文本数据集,如20新闻组或笔树库,您仍然需要在将它们拟合到分析算法之前进行一些工作,并且有一个Python中的包裹这可以简化此步骤。

一旦您掌握了一些这些工具,他们会节省您的时间。

有一件事是肯定的,有很多软件应用程序,库和软件包,可以帮助支持您的大规模文本分析项目。您可以尝试更容易使用的橙色,并转移到将参数分析算法和语言模型应用于越来越多的语料库。我们有让你开始的课程

关于

作为产品经理,Daniela负责SAGE Ocean的新产品,与初创公司合作,帮助他们将工具推向市场。bepaly提款会黑吗在加入SAGE之前,她与学生和研究人员领导的团队一起开发新的软件工具和服务,提供商业规划和市场开发指导和支持。她设计并运营了一个为期两年的项目,为与出版商合作开发新软件服务的研究人员提供创新资助,以支持研究数据的管理。她也是一名视觉艺术家,拥有金融技术经验和创新管理博士学位。你可以接通丹妮拉推特

daniela duca