作为一个计算社会科学家,如何接受文本分析beplay官网ios

嘉宾博客:Alix Dumoulin和Regina Catipon

社会科学家的经验

“滑倒”、“绊倒”或“跌倒”的标志

从电子商务到学术界,获取大数据已经改变了许多行业。在社会科学领域,研究人员利用创新的文本挖掘和分析方法,扩大了他们在政治科学、经济学、心理学等领域工作的规模和范围。

新的方法、对社会科学家增加的定量教育以及对相关文本数据的获取,使得以前局限于定性方法的创新研究得以出现,如估计人们的政治立场或检测恐怖主义言论中的情绪。

尽管在方法上取得了进步,但在收集和清洁语料库方面仍然存在一些挑战。beplay官网ios芝加哥大学知识实验室的计算社会科学家自然语言处理与计算语言学他向我们解释了为什么文本清理应该优先考虑。


“在我的职业生涯中,最耗时的就是文本清理。”

在收集了教学大纲、研究论文和工作清单之后,斯里尼瓦萨-德斯坎对所有三个语料库都采用了一种笼统的文本清理脚本。他发现他的主题模型结果“不错”,但不是他所期望的。最重要的是,他无法解释为什么教学大纲和工作列表之间的语义空间如此之大。他意识到每个语料库都需要自己独特的文本清理脚本。

当处理庞大的数据集时,花在清理上的时间可能会增加。他补充说,“光是清理就花了我三天时间,也就是说,我要处理225gb的文本数据。”
在早期花点时间清理文本,并手动检查清理后的文本,将为您省去以后的麻烦。

“你所做的清洁方式会极大地改变你得到的结果。”

为了帮助社会科学家和更大的数据科学社区访问高质量的文本源和工具,我们创建了一个语料库和脚本我们已经把它公布于众,欢迎捐款。以下是我们在整理回购协议时得到的一些要点。

了解政治社会科学语料库

根据它们的可用性和常见用法,我们找到了60多种政治文本。这些语料库包括英国议会演讲、美国法案和修正案、新闻稿和来自50个不同国家的政党宣言,以及不太常用的语料库,如贸易协定、演讲、电子请愿或国家协商的内容。

贴0. png图像

许多社会科学家会调用api或通过官方网站或政府开放数据倡议下载大量文件。从XML、PDF、JSON、纯文本到CSV文件,每个语料库的数据类型变化很大。虽然网上有很多文本来源,但没有政治科学文本和语料库的总列表。因此,我们创建了一个集中的存储库来帮助你开始你的文本分析过程。

开始进行文本挖掘

一旦收集了语料库,您将面临从文本中实际提取和构造信息的问题。要做到这一点,你可能需要:

  1. 预览的结构

  2. 确定想要的文本的位置

在理解了文本的特征之后,您可能有不同的方法来提取文本的主体。这些选项包括:

  • 保持所有文本

  • 不包括页眉和页脚

  • 识别头

  • 提取知识

  • 认识到实体

  • 标注或注释文本

在本例中,文化、威尔士语言和通信委员会的会议记录使用Python从XML文件中提取为文本。

Alix Dumoulin的XML文本解析过程的代码片段

Alix Dumoulin的XML文本解析过程的代码片段

此时,您可以选择保留或过滤哪些标记和文本。挖掘出文本之后,就可以继续清理了。

面对文本准备的挑战

任何数据科学家或计算社会科学家都会告诉你,文beplay官网ios本清理是一件痛苦的事情。但是文本清理和预处理之间的区别是什么呢?区别在于它们修改文本数据的程度。

文本清理,如删除空白或符号,首先清除和格式化语料库以进行预处理。然后预处理,如删除标点符号或标记化,修改内容,为分析做准备。比文本清理更重要的是,预处理转换文本数据,因此可以对分析产生更大的影响。例如,如果在预处理过程中去掉标点符号,就可能无法生成句子嵌入。或者,如果不删除停止词,可能会得到不准确的分类结果。事实上,根据这是土耳其研究人员在2013年做的一项研究,预处理可以与特征提取、特征选择和分类一样重要。

以下是你可能遇到的一些常见的文本准备例子:

  • 文本清理——去掉空格、删除元数据、垃圾字符以及重新格式化数字或html脚本。

  • 预处理——词干词干化、词元化、标记化和停止词删除。

  • 特别注意事项——个人信息(电子邮件地址、电话号码等)

例如,我们从前面提取的文本中取行。

委员会召开了视频会议。

\n

The meeting began at 13:29.

',

有段落

标签和换行符\n。还有一个时间的声明,这可能是有用的信息。

remove_tags函数可以删除所有HTML脚本,一个简单的字符串替换操作可以处理换行。

进口再保险
TAG_RE = re.compile (r '<[^>]+>')
英孚remove_tags(文本):

返回TAG_RE。子(”,文本)

english_text [1] = remove_tags (english_text [1])
english_text [1] = english_text[1]。替换(“\ n”、“”)

正则表达式还可以指定短语“会议开始…”出现时,以下内容应作为会议的时间标记。虽然一开始很耗时,但手工检查对于任何文本项目的成功都是不可或缺的。因此,建议尽早并且经常检查你的文本清洁情况。

如何做出贡献

回购目前主要集中于欧盟和美国的政治科学课本,但还可以增加更多的地区和国家。你知道有什么工具可以分析泰国的政治文本吗?也许你见过一个对希伯来语语料库进行NLP预处理的包?您可以在任何时候用更多的语料库和脚本为这个资源库做出贡献。找到回购贡献的步骤在这里

尽早使用我们的新工具:Texti

除了存储库之外,SAGE Ocean目前还在开发支持计算内容分bepaly提款会黑吗析的新工具,特别是希望减少用于清理的时间,以便专注于分析。随着文本分析领域的发展,研究者的需求也在增长。找出关于Texti和注册获得早期访问


关于这个客座博客的作者

Reg.jpg

Regina Catipon

Regina正在芝加哥大学攻读计算社会科学硕士学位。beplay官网ios她对在线网络中的信息传播和追踪新兴叙事感兴趣。她是一个新闻迷和星际迷航迷。现在你可以在芝加哥找到她,并在twitter上(很少)发帖@RKCAT

Alix.jpg

阿历克斯Dumoulin

Alix正在伦敦政治经济学院(London School of Economics)攻读应用社会数据科学(Applied Social Data Science)硕士学位,对公共政策、政治行为、应用机器学习和数据伦理感兴趣。她也是初创公司ethi的联合创始人,该公司帮助人们控制自己的个人数据并从中受益。她对此事遮遮掩掩@alix_dumoulin