PN3-Linguistic Regularities in Continuous Space Word Representations

2024-05-18 DL, NLP Comments

读论文，连续空间词表示的语言规律，原文。来自 NAACL 2013。

概述

本论文展示了通过训练神经网络模型获得的连续空间中的词表示（也就是进行word2vector）能够捕捉到一些有趣的语言规律。并且关系也可以通过特定的向量偏移来表征（例如king-man+woman对应的向量与queen的向量接近），这使得基于词向量偏移的向量推理成为可能。具体来讲，通过句法类比问题展示了word2vector捕捉句法规律的能力，通过向量偏移方法展示了word2vector捕捉语义规律方面的能力。

RNN

关于RNN不再赘述，可以参考这里。

句法类比

本文新建了一个数据集，用于类比问题测试，形式类似“a to b as c to ？”。囊括了形容词的原型比较级最高级，单词单数复数，名词所有格非所有格。

语义规律

使用SemEval-2012 task2评估关系相似度。例如，对于 ClassInclusion:Singular Collective 关系，典型的词对是 clothing:shirt。为了测量目标词对 dish:bowl 是否具有相同关系的程度，我们形成类比 “clothing 相对于 shirt 就像 dish 相对于 bowl”，并评估其有效性。

向量偏移方法

如上，句法与语义都被表述为类比问题。要回答类比问题 a：b as c：（d？）（其中 d 是未知的），我们找到嵌入向量 x_a, x_b, x_c（都归一化为单位范数），并计算 y=xb−xa+xc。 y是我们期望的最佳答案的连续空间表示。当然，可能没有单词正好位于该位置，因此我们接下来搜索与 y 具有最大余弦相似度的单词，并输出它。

实验

相比于其他方法，RNNLM确实在数据集上表现最好。即可以捕获到相应的规律。

本文链接： http://example.com/2024/05/18/paperReading003/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

王二木Buaa Software Engineering

北航软工在读