PN3-Linguistic Regularities in Continuous Space Word Representations

读论文,连续空间词表示的语言规律,原文。来自 NAACL 2013。

概述

本论文展示了通过训练神经网络模型获得的连续空间中的词表示(也就是进行word2vector)能够捕捉到一些有趣的语言规律。并且关系也可以通过特定的向量偏移来表征(例如king-man+woman对应的向量与queen的向量接近),这使得基于词向量偏移的向量推理成为可能。具体来讲,通过句法类比问题展示了word2vector捕捉句法规律的能力,通过向量偏移方法展示了word2vector捕捉语义规律方面的能力。

RNN

关于RNN不再赘述,可以参考这里。

句法类比

本文新建了一个数据集,用于类比问题测试,形式类似“a to b as c to ?”。囊括了形容词的原型比较级最高级,单词单数复数,名词所有格非所有格。

语义规律

使用SemEval-2012 task2评估关系相似度。例如,对于 ClassInclusion:Singular Collective 关系,典型的词对是 clothing:shirt。为了测量目标词对 dish:bowl 是否具有相同关系的程度,我们形成类比 “clothing 相对于 shirt 就像 dish 相对于 bowl”,并评估其有效性。

向量偏移方法

如上,句法与语义都被表述为类比问题。要回答类比问题 a:b as c:(d?)(其中 d 是未知的),我们找到嵌入向量 x_a, x_b, x_c(都归一化为单位范数),并计算 y=xb−xa+xc。 y是我们期望的最佳答案的连续空间表示。当然,可能没有单词正好位于该位置,因此我们接下来搜索与 y 具有最大余弦相似度的单词,并输出它。

image-20240518135005432

实验

相比于其他方法,RNNLM确实在数据集上表现最好。即可以捕获到相应的规律。