分析人类语言的r包

一个来自文字创作者的客座博客:奥斯卡谢尔萨尔瓦多Giorgi安德鲁·施瓦兹。

R标志

在人工智能领域,变形金刚革新了语言分析。以前从来没有一种新技术能普遍提高几乎所有语言处理任务的基准:例如,通用语言理解,问题-回答,网络搜索.转换器方法本身是在上下文中概率地建模单词(即“语言建模”),于2017年引入,而第一个大型预训练通用转换器BERT于2018年从谷歌发布了开源版本。从那以后,伯特又出现了一波新的变压器模型,包括GPT、RoBERTa、蒸馏伯特、XLNet、transformer - xl、CamemBERT、XLM-RoBERTa等。的文本包使所有这些语言模型和许多r -用户更容易使用;还包括为社会科学家量身定制的人性化分析而优化的功能。

更符合实际的词嵌入

查看转换器语言模型实现的一种方法是语境词嵌入.它们产生向量(或数字列表),在给定单词周围的上下文下,这些向量表示单词的含义。创建上述高质量的语言模型需要大量的数据和计算机处理资源。beplay国际娱乐备用网址据估计如果使用标准的GPU云计算服务,RoBERTa模型将花费10万美元。幸运的是,可以使用pre-trained将文本数据映射为数字表示的语言模型(例如,单词嵌入);这些上下文词嵌入可以用于下游分析任务。

也许更有趣的是这些语言模型产生的结果更符合实际单词嵌入,这意味着单词的数字表示要考虑单词出现的上下文。例如,语境化的单词嵌入快乐在“我很快乐”和“我很快乐”上是不同的快乐”;至于这个词得到" I get the book "和" I get the idea "

要将文本数据转换为最先进的单词嵌入,请向textEmbed()函数提供文本数据和想要使用的模型的名称。

test_text_data <- c("hello, how are you", "I 'm fine thanks")变换文本更符合实际嵌入的worddembeddings <- textEmbed(test_text_data, model = 'bert-base-uncase ')

优化社会科学

个人使用的语言包含了丰富的心理学和社会信息,值得研究。例如,研究已经做到了该研究显示,通过分析个人的社交媒体文本,可以预测医疗记录中的抑郁症情况。而且,问个人为了描述他们的幸福,使用开放式问题预测相应的自我报告评分量表与强相关性(r > .7)。

要检查文本和数字(或分类)文本变量之间的关系,请向textTrain()函数提供文本的单词嵌入和数字变量。

通过使用例子数据text-package看到wordembeddings4语言_基于_评估_数据_8),我们可以检查的关系之间的个人的描述他们的满意度生活也就是说,satisfactiontexts)相应的自我报告的评级规模得分。model_sat_text_swls <- textTrain(worddembeddings4 $ satistiontexts, Language_based_assessment_data_8$swlstotal)

相关之间的预测观察到的满意度生活规模分数model_sat_text_swls美元的结果

文本还提供了功能,以可视化您的文本数据在单词嵌入空间和沿着不同的维度,如评分表分数。下面是一个例子,描绘了个人的反应,描述他们的和谐生活的评分量表得分在和谐生活(x轴)和生活满意度(y轴)。有统计学意义的单词用颜色绘制出来,单词的大小反映了它们出现的频率。

例子数据DP_预测_边境_SWLS_100)预处理textProjection函数。plot_projection <- textProjectionPlot(word_data = DP_projections_HILS_SWLS_100, y_axes = TRUE, min_freq_words_plot = 2, title_top = "", x_axes_label = "Low vs. High Harmony rating score", y_axes_label = "Low vs. High Satisfaction rating score", p_adjust_method = "bonferroni") plot_projection
文字图片1. png

文本有更多的功能来分析和可视化文本的不同方面:更多信息见www.r-text.org

总结

文本一揽子计划有两个主要目标。第一个目标是为r用户提供一个点解决方案用于将文本转换为最先进的上下文化单词嵌入,为下游任务做好准备。第二个目标是充当端到端解决方案为社会科学家提供最先进的人工智能技术。

关于

奥斯卡谢尔

奥斯卡谢尔斯托尼布鲁克大学的安德鲁·施瓦茨(Andrew Schwartz)和哥本哈根大学的伊莎贝尔·奥根斯坦(Isabelle Augenstein)是瑞典研究委员会资助的一名心理学研究人员。他的研究重点是通过自然语言处理和机器学习分析词汇和文本反应来衡量心理结构。

萨尔瓦多Giorgi

萨尔瓦多Giorgi他是美国国家药物滥用研究所(NIDA)的布伦达·柯蒂斯博士的计算机系统分析师,也是宾夕法尼亚大学H. Andrew Schwartz和Lyle H. Ungar手下的二年级博士生。他的研究重点是利用大规模社交媒体数据监测公共健康和福祉,以及机器学习应用于物质使用和恢复。

h·安德鲁·施瓦兹

h·安德鲁·施瓦兹他是纽约州立大学石溪分校(Stony Brook University)计算机科学系人类语言分析(HLAB)的主任,在那里他是助理教授。他的跨学科研究专注于健康和社会科学中以人为中心的自然语言处理。此前,Andrew是宾夕法尼亚大学的博士后研究员,在那里他共同创立了世界幸福项目,一个多学科联盟,专注于开发揭示和预测健康、性格和幸福差异的大规模语言分析。Andrew是ai -自然语言处理、心理学和健康信息学领域的活跃成员。他也是Python包,差分语言分析工具包(DLATK)的创建者和维护者之一。《纽约时报》、《今日美国》、《华盛顿邮报》等杂志刊登了他的研究文章,引起了广泛的兴趣。2011年,他获得了中佛罗里达大学的计算机科学博士学位,从事从网络获取常识的研究。