IT 论文精读 · PAPER 4

Word2Vec(词向量)

Mikolov 等 · Google · ICLR Workshop 2013

EN →

这篇论文干了什么?

2013 年,Google 的 Tomas Mikolov 团队发布了 Word2Vec:一种让计算机自己读海量文章、然后给每个词发一个「意义坐标」的方法。神奇之处在于,这些坐标居然能做算术:「国王 − 男人 + 女人 ≈ 女王」。今天你用的搜索、推荐,以及 ChatGPT 读懂你每个字的第一步——「把词变成向量」——都是从它这里普及开的。

先说个怪事

在这之前,计算机眼里的词只是编号:「猫」是 4102 号,「狗」是 9527 号,「冰箱」是 233 号。在它看来,「猫」和「狗」的关系,跟「猫」和「冰箱」的关系一模一样——毫无关系。想让它知道「猫和狗都是宠物」,只能靠人一条条编词典:编不完、跟不上新词,还搬不到别的语言去。

那个点子

Word2Vec 的想法可以叫「物以类聚」:一个词的意思,就藏在它常跟哪些词待在一起。「猫」和「狗」都常出现在「喂」「掉毛」「宠物医院」旁边,所以它们意思近;「冰箱」的邻居则是「保鲜」「插电」。既然如此,就给每个词在一张巨大的「意义地图」上安个家——让邻居相似的词住得近。这张地图不用人来画,机器自己读文章就能画出来。

怎么画出这张地图?

靠一场做了亿万次的「完形填空」。把一句话里的某个词遮住,让机器根据周围的词去猜;猜错了,就把相关的词在地图上挪一挪位置,让下次更容易猜对。就这么一句句读、一次次挪,读完几十亿个词之后,用法相似的词自然被推到了一起。更妙的是,地图上的「方向」也有了意义:从「男人」走到「女人」的那段路,跟从「国王」走到「女王」的那段路,方向和长短几乎一样——所以才算得出开头那道著名的算术。

带来了什么

从此「把任何东西变成坐标」成了 AI 的通用招式:词、句子、商品、用户、歌曲……都能安进各自的地图,「找相似」变成了「量距离」。搜索、翻译、推荐系统都靠它上了一个台阶,它也是后来 BERT、ChatGPT 这条路线的起点。诚实说一句短板:每个词在地图上只有一个固定位置,「苹果」是水果还是公司,它分不开——这得等后来的模型来解决。

一句话记住

让机器读海量文章做「完形填空」,给每个词在意义地图上安个家:意思近的住得近、语义关系变成方向,连「国王 − 男人 + 女人 ≈ 女王」都算得出来。「万物皆可变坐标」的时代由此开始。

想看 CBOW / Skip-gram 结构图、负采样和实验数字? → 切到精读版