bepaly体育下载

以更好的文本促进社会科学中的文本即数据革命

大规模数据的可用性带来了许多新的处理技术,特别是文本-数据社区,他们现在开发大规模内容分析的方法来回答各种各样的社会科学问题,比如两极分化的政治家的演讲是如何随着时间的推移发展到如何媒体在诸如#metoo(我也是)运动等民间运动中塑造了不同的角色。这些分析中有许多依赖于不同于用例的复杂技术,例如前者的主题建模,后者的内涵框架。分析或处理也高度依赖于所涉及的数据源或语料库;例如,与政治宣言相比,社交媒体内容具有非常不同的属性。然而,某些类型的处理对于所有类型的语料库和研究问题都是必要的——预处理或文本清理。