解锁犯罪数据用于研究:来自2019年SAGE概念拨款获奖者的更新

Bennett Kleinberg博士

Bennett Kleinberg博士

去年我们宣布了文本清洗作为2019年SAGE概念奖助金项目的获胜者。这个新的软件工具是由伦敦大学学院犯罪科学系的托比·戴维斯博士、班尼特·克莱恩伯格博士和马克西米兰·莫泽斯博士开发的,它使用机器学习和自然语言处理来解锁以前未开发的犯罪数据,到目前为止,由于需要对其中包含的个人身份信息进行匿名化,还无法进行研究。

一年后,我们采访了Text Wash团队,解释了为什么我们需要用文本匿名化来处理犯罪数据,为什么需要替换现有的方法,以及这个新的软件工具将为研究人员和从业者提供的机会。

我们有哪些犯罪数据以及在研究中使用它的障碍是什么?

在社会科学和人文学科的免费文本来源中存在大量数据。此数据包含丰富的信息,但研究社区无法利用,因为它无法访问,或者因为它无法分享道德或法律原因。

在犯罪科学领域,我们正在寻找的数据类型是犯罪事件的自由文本描述,犯罪者的访谈以及犯罪的其他描述。由于这些数据集包含个人的个人数据,因此在没有首先使其匿名的情况下无法共享。如果我们发现有效的方法来做这件事,数据可以更多地告诉我们更多关于如何发生犯罪以及犯罪所涉及的行为的类型。

Dr. Bennett Kleinberg, part of the team behind the winner of the 2019 SAGE Concept Grant, Text Wash, discusses what text anonymization means in social research.

","raw":false},"hSize":null,"floatDir":null,"html":"","url":"https://www.youtube.com/watch?v=8OEAFhUrvdk&list=PLyR4L_Unhl2nkWJ1peZBmUytGE3VBEGq-&index=2","width":854,"height":480,"providerName":"YouTube","thumbnailUrl":"https://i.ytimg.com/vi/8OEAFhUrvdk/hqdefault.jpg","resolvedBy":"youtube"}" data-block-type="32" id="block-yui_3_17_2_1_1583939247609_24869">

" data-provider-name="YouTube">

当前文本匿名化的方法有哪些问题?

匿名犯罪数据的当前程序涉及一个人手动通过文本并跨越可能揭示身份的任何信息。这是有问题的,因为它阻碍了匿名过程的扩大。

另一个问题是目前可用的工具没有正确验证,因此我们并不真正知道他们在从文本中分离个人的身份有多好。

匿名文本数据中最大的挑战是什么?

匿名文本数据中的两个最大挑战是什么匿名和如何匿名化。

什么指在文本中的哪些信息您需要重复文本以完全匿名。这对我们来说可能从人类的角度看起来直观,但在电脑设置中,这更难以实现。

至于如何如果我们假设我们找到了我们需要匿名的所有单词和短语,我们需要找到以语义有意义的方式替换这些信息的方法。例如,您可以将所有敏感的单词用信件替换为X,但是,结果文本可能与原始版本不具有相同的语义含义。我们的目标是与文本清洗做的是找到这些单词的替代品,使得序列的语义在匿名后保留,因此对于定量和定性文本分析来说仍然有价值。

文本清洗工作如何?

文本清洁有助于研究人员和从业者以大规模匿名化文本数据。它通过使用来实现这一点来自自然语言处理的最新技术它是让计算机以人类使用语言的方式理解语言的过程。我们将此与机器学习结合,从文本中获取信息,然后自动标记或匿名,这样个人就无法被识别,同时保留文本的语义含义,以便研究人员可以使用它进行大规模的自动数据分析。

研究人员有什么好处?

通过使用文本洗涤,以便向广大银行的犯罪数据进行开放,可以识别新类型的犯罪和新的Modus Operandi从我们现有的数量数据来看,这可能并不明显。

我们的关键卖点文本清洗是我们想要使它可用于从业者和研究人员访问。我们的目标是通过提供研究人员可以进一步使用和开发的开源软件工具来做到这一点。与此同时,我们正在开发一个可以掌握在从业者手中的工具,就像警察一样,他们可以在本地在他们的计算机上使用他们的电脑,以运行他们可以与研究人员或其他人分享的文本数据的匿名化对数据感兴趣的合作伙伴。

其益处也将超越犯罪科学。由于文本数据出现在其他领域,如医学和流行病学,我们希望我们正在为我们的特定研究问题建立的工具也将适用于这些领域。