分析人类语言的r包

来自文本创建者的客人博客:奥斯卡·克尔萨尔瓦多Giorgi安德鲁·施瓦兹。

R标志

在人工智能领域,变形金刚有彻底改变的语言分析。从未有过新技术普遍改进了几乎所有语言处理任务的基准:例如,普通语言理解,问题 -回答,网络搜索。这transformer method itself, which probabilistically models words in their context (i.e. “language modeling”), was introduced in 2017 and the first large-scale pre-trained general purpose transformer, BERT, was released open source from Google in 2018. Since then, BERT has been followed by a wave of new transformer models including GPT, RoBERTa, DistilBERT, XLNet, Transformer-XL, CamemBERT, XLM-RoBERTa, etc. The文本包使所有这些语言模型和许多r -用户更容易使用;还包括为社会科学家量身定制的人性化分析而优化的功能。

更符合实际的词嵌入

查看转换器语言模型实现的一种方法是上下文词嵌入。它们会产生代表单词的含义的vectors(或数字列表)给出了周围的单词的上下文。要创建提到的高质量语言模型需要大量的数据和计算机处理资源。beplay国际娱乐备用网址它被估计了如果使用标准GPU云计算服务,Roberta模型将花费100万美元。幸运的是,可以使用它pre-trained语言模型将文本数据映射到数字表示(即,Word Embeddings);这些上下文中的嵌入式可以在下游分析任务中使用。

甚至更有迷人的是这些语言模型产生的东西更符合实际单词嵌入,这意味着单词的数字表示要考虑单词出现的上下文。例如,语境化的单词嵌入快乐的将在“我很高兴”中不同,而“我是不是快乐”;至于这个词得到在“我得到这本书”与“我得到了这个想法”。

要将文本数据转换为最先进的Word Embeddings,请使用您的文本数据提供TextEmbed()函数,以及您要使用的模型的名称。

test_text_data <- c("hello, how are you", "I 'm fine thanks")变换文本更符合实际嵌入式Wordembeddings < -  textembed(test_text_data,model ='bert-base-uncased')

优化社会科学

个人使用的语言包含了丰富的心理学和社会信息,值得研究。例如,研究有据表明,分析个人的社交媒体文本预测医疗记录的抑郁症。和,问个人为了描述他们使用开放式问题的幸福,预测具有强相关(r> .7)的相应的自我报告的评级尺度。

要检查文本和数字(或分类)文本变量之间的关系,请使用文本的Word Embeddings和数字变量提供TextTrain()函数。

经过使用例子数据文本包wordembeddings4_基于_评估_数据_8),我们可以检查关系之间个人'描述他们的满意度生活IE。,满意的文字)相应的自我报告评级规模分数。model_sat_text_swls < -  textTrain(Wordembeddings4 $满意文字,language_based_assessment_data_8 $ swlstotal)

相关性之间预料到的观察到的满意生活规模得分model_sat_text_swls $结果

文本还提供了功能,以可视化您的文本数据在单词嵌入空间和沿着不同的维度,如评分表分数。下面是一个例子,描绘了个人的反应,描述他们的和谐生活的评分量表得分在和谐生活(x轴)和生活满意度(y轴)。有统计学意义的单词用颜色绘制出来,单词的大小反映了它们出现的频率。

例子数据DP._预测_HILS._swls._100)具有到过预处理TextProight.功能。plot_proize < -  textproppleplot(word_data = dp_proizh_100,y_axes = true,min_freq_words_plot = 2,title_top =“”,x_abes_label =“低与高和声评分分数”,y_axes_label =“低与高满意度评分”,p_adjust_method =“bonferroni“)plot_projection.
文字图片1. png

文本有几个功能用于分析和可视化文本的不同方面:有关更多信息,请参阅www.r-text.org.

总结

文本一揽子计划有两个主要目标。第一个目标是为r用户提供一个点解决方案用于将文本转换为最先进的上下文化单词嵌入,为下游任务做好准备。第二个目标是充当端到端解决方案为社会科学家身份定制了最先进的AI技术。

关于

奥斯卡·克尔

奥斯卡·克尔是一位心理学研究员,作为由瑞典研究委员会资助的博士后,由安德鲁施瓦茨(Stony Brook University)和Isabelle Augenstein(哥本哈根大学)进行监督。他的研究侧重于用自然语言处理和机器学习分析的文字和文本响应来测量心理构建。

萨尔瓦多Giorgi

萨尔瓦多Giorgi他是美国国家药物滥用研究所(NIDA)的布伦达·柯蒂斯博士的计算机系统分析师,也是宾夕法尼亚大学H. Andrew Schwartz和Lyle H. Ungar手下的二年级博士生。他的研究重点是利用大规模社交媒体数据监测公共健康和福祉,以及机器学习应用于物质使用和恢复。

H. Andrew Schwartz.

H. Andrew Schwartz.他是纽约州立大学石溪分校(Stony Brook University)计算机科学系人类语言分析(HLAB)的主任,在那里他是助理教授。他的跨学科研究专注于健康和社会科学中以人为中心的自然语言处理。此前,Andrew是宾夕法尼亚大学的博士后研究员,在那里他共同创立了世界幸福项目,一个多学科联盟,专注于开发揭示和预测健康、性格和幸福差异的大规模语言分析。Andrew是ai -自然语言处理、心理学和健康信息学领域的活跃成员。他也是Python包,差分语言分析工具包(DLATK)的创建者和维护者之一。《纽约时报》、《今日美国》、《华盛顿邮报》等杂志刊登了他的研究文章,引起了广泛的兴趣。2011年,他获得了中佛罗里达大学的计算机科学博士学位,从事从网络获取常识的研究。