IT 论文精读 · PAPER 3

AlexNet — 用深度卷积网络认图

Krizhevsky, Sutskever, Hinton · 多伦多大学 · NeurIPS 2012

EN →

这篇论文干了什么?

2012 年,多伦多大学三个人(Krizhevsky、Sutskever、他们的导师 Hinton)造了一个叫 AlexNet 的神经网络,参加了图像识别界最权威的比赛(认出一张图里是猫、是狗、还是某种蘑菇,共 1000 类)。结果它断崖式地赢了——错误率几乎只有第二名的一半。这一战,直接点燃了往后十几年的深度学习革命:今天的人脸解锁、相册自动分类、自动驾驶看路,源头都能追到这一篇。

旧世界是怎么认图的

在这之前,让电脑认图,靠的是专家手工写规则:人先绞尽脑汁设计一套「怎样算是一条边、一个角、一块纹理」的公式,把图片榨成一串数字,再交给机器去分类。麻烦在于——这套规则是人拍脑袋定的,换个任务往往就不灵,遇到猫的千百种姿势、光线、遮挡就露怯。多少年过去,机器认图的水平一直卡着上不去。

新在哪

AlexNet 的路子反过来:不再由人来写规则,而是让机器自己从一百多万张图里「看」出规律。它是一个很深的网络,一层层地看:底层自己学会看出边缘和色块,中层拼出眼睛、轮子这样的部件,高层再拼成「这是一只猫」。整套「怎么认」的本事,全是它自己从海量图片里练出来的,没有一条是人手写的。

它是怎么做到的

三个关键让这件事第一次真的跑起来:

① 用打游戏的显卡来训练。这么大的网络算量惊人,用普通处理器要算到天荒地老。他们改用显卡(GPU)——显卡本是为游戏画面而生,天生擅长「成千上万个小计算一起做」,正好对上神经网络的胃口,把原本要几个月的训练压到几天。

② 一个更爽利的「开关」。网络里每个单元都要决定「这个信号放不放行」。老办法反应迟钝、越深越学不动;他们换成一个极简的开关——负的就关掉、正的原样放行,干脆利落,让训练快了好几倍。

③ 防死记硬背的两招。网络太强,容易把训练图背下来、换新图就抓瞎。一招是训练时随机让一部分单元「请假」,逼剩下的都练出真本事、别互相依赖;另一招是把每张图翻转、平移、微调颜色,凭空造出更多训练图

带来了什么

它把机器认图的错误率一口气砍掉一大截,让所有人看清:与其请专家写规则,不如把数据和算力喂给一个足够深的网络,让它自己学。这句话成了此后整个 AI 行业的共识。说句诚实的:AlexNet 靠的不是什么全新理论,而是把几个已有的老点子、海量数据和显卡算力恰好凑到了一起——是一场「规模」的胜利,代价是它很吃数据、也很吃算力。

一句话记住

AlexNet 让一个很深的网络自己从百万张图里学会「怎么认图」,靠显卡训练、爽利的开关和防背题的两招第一次真正跑通,在 2012 年图像大赛上断崖式夺冠——从此 AI 走上「深度学习」这条路。

想看网络结构图、ReLU 曲线和实验数字? → 切到精读版