有一种日益增长的学术研究,看起来emoji使用的各个方面

作者:爱丁堡大学博士生亚历山大·罗伯逊

emoji和社会

如果你有一部过去8年生产的手机,或者你使用过社交媒体,你可能对表情符号很熟悉。五颜六色的图标上世纪90年代首次在日本出现,现在无处不在,在我们的网络生活中也越来越常见。尽管诸如ᕕ(ᐛ)ᕗ等更详细的表情符号在互联网的某些角落仍然很受欢迎,但它们几乎已经取代了它们的前身——基于标点符号的表情符号。Perhaps the most compelling example of emoji popularity was the "face with tears of joy" emoji being selected as the牛津词典年度词汇在2015年,你会在许多关于这个主题的学术论文的介绍中发现这个事实。

新增的表情符号通常会成为新闻,为了突出问题或原因,已经有很多活动要求添加特定的表情符号。芬兰的一个教堂想要宽恕表情符号,一个孩子的慈善机构一段emoji克服月经周围的耻辱,和显示异族情侣的表情按照火种宣战遵循。特定表情符号不可用,慈善机构乔的宫颈癌信任用它们来提高人们的意识吗涂抹测试的重要性鼓励公众就这个问题进行对话。

Emoji和研究

除了对表情符号的广泛兴趣外,越来越多的学术研究关注表情符号使用的各个方面。有些是从计算的角度,有些采用社会学或语言学的方法。

有效的表情符号词汇嵌入

预先训练的Word Embedings,用于各种类型的自然语言任务来代表文本,通常包括Emoji,因为Emoji通常会从文本中删除,作为预处理的一部分。But it turns out that you can use the canonical text descriptions of emoji (e.g. is described as "woman shrugging") to train these embeddings very quickly, rather than training on large corpora as is usually required. Seeemoji2vec:从表情符号的描述中学习表情符号的表达全部细节。

从文本预测表情符号

自然语言处理的一个中心任务是语言建模。给定一个单词序列,该模型预测出最有可能出现的下一个单词。在表情设置中,目的是预测最有可能出现的表情。这通常是一个分类任务,输入的文本被标记为最常用的表情符号的子集之一。这种限制的动机是由于表情符号相对于单词来说是相对罕见的(传统语言模型通常不会预测表情符号),在处理罕见/不常见的表情符号时,使用所有3000多个表情符号进行分类会有类似的问题。关于最近一次试图解决预测罕见表情符号问题的尝试,请参见通过Label-Wise Lights Lstms解释的表情符号预测

的语义emoji

广义上来说,个人表情符号意味着什么?他们有积极的还是消极的联想?它们会激起快乐还是悲伤的情绪?这一领域的研究检查了人类对表情符号的判断,结果显示大多数判断是积极的,人们通常同意每个表情符号的情感联系。这些发现在使用不同人类语言的人之间也是一致的。这些结果的方便的可视化表示可以在表情象征情绪排名的网站。

解释emoji

如果你一直使用安卓或苹果手机,那么你可能没有意识到同一个表情符号可以在不同的平台上以不同的方式呈现。检查Emojipedia上的“鬼脸”词条有关它们的示例。尚未普遍同意的表情符号的研究表明,当Emoji在不同的平台上发送并收到Emoji时,这种分歧更大。有关详细信息,请参阅“幸福快乐”或“准备战斗”:对表情符号的不同解释

Emoji和认同

处理Sharon Goldwater教授Walid Magdy博士爱丁堡大学我们的研究着眼于表情符号在推特上的使用情况,以及我们使用的表情符号如何随着我们是谁、我们在谈论什么以及我们在与谁交谈而变化。这项工作的一个关键组成部分是表情符号皮肤色调修改器。该表情包于2015年推出,让我们可以在特定的表情包上涂上肤色,让它们看起来更人性化。

有肤色和没有肤色的表情符号应用的例子。

有肤色和没有肤色的表情符号应用的例子。

添加这些肤色的增加产生了很多在线讨论。这是关于做Emoji Research的一件方便的事情 - 您可以在日常邮件网站的评论中进行良好的索赔,并将其转化为研究问题。那么,有人会伤心用它们,因为已经有这么多表情符号?白人会愿意使用它们,或者至少那些不是白色的上级人士的人?人们会用它们沉迷于“数字黑脸”或作为在线种族主义虐待的一部分?

从2017年制作的大约10亿推文的语料库开始,我发现大约14%的表情符号至少有一个表情符号,7%含有肤色的表情符号含有肤色。所以他们肯定被使用了!随着下面的图像显示,使用的最常见的肤色实际上是白色的。

按区域划分的表情符号肤色比例。

按区域划分的表情符号肤色比例。

但是,我们需要更多的数据,以回答有关滥用使用的问题。由于滥用使用最有可能涉及使用与自己的肤色不符的表情符号的人,因此我们需要了解推文背后的人的肤色。这是一个注释任务 - 我们将用户的Twitter配置文件照片显示为三个注释器,要求他们确定肤色,只保留所有注释者同意的用户。

有了这些关于Twitter用户的基本信息,我们可以看看“不合适的推文”:浅肤色的人使用深肤色的表情符号,反之亦然。然后我们可以对这些推文进行情感分析,看看它们是否是负面的。

下面的图表显示了每一组推文所占的比例,按情绪排序。中立的推文没有显示出来,因为他们的数量远远超过其他的。负面的推文很少,尤其是当我们认为它们是比例所有推文。事实上,大多数非中性推文是积极的,手动检查负推文没有透露预测的种族虐待。似乎如果人们将成为Twitter上的种族主义,他们不需要表情符号来做 - 他们有老式的语言。

表情符号不恰当语气使用的情感分析。

表情符号不恰当语气使用的情感分析。

拥有带注释的用户的数据集的另一个好处是,我们可以检查单个群体。上面显示的肤色分布实际上只是看了最常见的肤色,而且可能会因为更浅肤色的用户数量更多而出现偏差。更有趣的是人们使用的肤色是否反映了他们的身份。为了做到这一点,我们把带注释的用户按肤色分组,并确定他们最常用的表情符号肤色。结果如下所示使用与实际肤色相匹配或接近的肤色。

每组音调使用情况。

每组音调使用情况。

肤色2的用户和肤色5的用户是例外,他们大多使用肤色1和肤色4。这是为什么呢?让我们来看看应用在苹果平台上的“人”表情的五种肤色。

一个表情符号上的音调。

一个表情符号上的音调。

有两件事值得注意。首先,肤色的发色2是金色!因此,这种肤色的用户如果不是金发,可能会被劝阻不要使用它。第二,从最亮到最暗的肤色分布并不平滑——肤色4/5之间的差异比任何其他两个相邻的肤色之间的差异更明显。在三维色彩空间中绘制这些色调(因为它们出现在不同的平台上)突出了最暗色调的不同之处。

声调在HSV空间的分布。

声调在HSV空间的分布。

在现实生活中,用户可能会有这种最深的肤色,但表情符号的设计方式非常简单——没有做任何事情来保留细节,因此当使用肤色时,这些表情符号失去了很多特征。

尽管存在这些设计问题,但表情符号的肤色修饰在Twitter上尤其受有色人种的欢迎,他们比白人用户更有可能使用它们,而且如果他们一开始就使用它们,他们也会更频繁地使用它们。这些修饰词是由统一码联盟引入的,因为“世界各地的人们希望有表情符号,反映更多人类多样性,特别是对于肤色”他们似乎已经实现了这一目标。

你可以找到全文,发表在ICWSM, 上arXiv.org

使用Twitter数据

如果您有兴趣使用Twitter数据,那么最简单的方法就是这样Python的Tweepy包,这不仅简化了身份验证,还可以处理速率限制。自动处理您可以访问的快速/通常可以访问Twitter数据,可节省您必须编写自己的代码,并有助于避免各种讨厌的错误和错误。

或者,存在您可以使用的现有数据集。查看这个列表在Github上开始。对于更学术的数据集,看一看大学间政治和社会研究联盟由密歇根大学主持。

注释数据可能是耗时的,所以我用众包来执行此操作。在研究时,我使用了图8,但他们不再提供学术定价。但是,我可以推荐多产的这样就可以很容易地找到参与者进行在线注释和实验。

关于

亚历山大·罗伯逊(Alexander Robertson)是爱丁堡大学(University of Edinburgh)数据科学博士培训中心(Centre for PhD Training in Data Science)的博士研究生。他的研究结合了计算方法和实验心理语言学,来回答人们如何在社交媒体上使用和理解表情符号的问题。