2012年10月29日,傍晚。
    义大利,佛罗伦斯。
    古老的文艺復兵之城在夕阳下泛著金色的光芒。
    阿诺河静静流淌,远处圣母百花大教堂的穹顶在晚霞中显得格外壮丽。
    陈阳站在酒店房间的窗前,看著窗外的风景。
    这是他第一次来欧洲,第一次参加国际学术会议。
    身后,传来敲门声。
    “陈阳,准备好了吗?晚上的欢迎晚宴快开始了。“
    开口的是朱军教授,水木大学计算机系的教授,这次也来参加eccv会议。
    得知陈阳要来做演讲,朱军主动提出带他一起来,一路上照应这个第一次出国的大一学生。
    “好了,朱老师。“陈阳拿起西装外套穿上。
    镜子里的少年,穿著得体的深蓝色西装,头髮梳得整齐,眼神中带著超越年龄的沉稳。
    “走吧。“
    朱军笑著说,“今晚来的都是计算机视觉领域的顶尖人物,好好认识一下。“
    会议酒店的宴会厅里,水晶吊灯发出柔和的光芒。
    身著正装的学者们三三两两地聚在一起,端著红酒交谈著。
    空气里瀰漫著香檳和烤牛排的味道,还有各种语言交织的低语声。
    陈阳跟著朱军走进大厅,立刻感受到了几道目光落在自己身上。
    “朱,好久不见!“
    记住我们101看书网
    一个满头银髮的老者走过来,用略带口音的英语打招呼。
    “安德鲁!“
    朱军热情地握手,“你也来了!“
    安德鲁·齐瑟曼,牛津大学的教授,计算机视觉领域的传奇人物之一。
    “这位是?“齐瑟曼的目光落在陈阳身上。
    “我的学生,陈阳。“
    朱军介绍道,然后压低声音补充,“star city data的那个。“
    齐瑟曼的眼睛瞬间亮了。
    “你就是陈阳?“
    他用力握住陈阳的手,“天啊,我还以为你至少是个博士后!“
    “您好,齐瑟曼教授。“
    陈阳用流利的英语回应,“很荣幸见到您。“
    “荣幸的是我!“
    齐瑟曼激动地说,“6.5%!你知道吗,当我看到那个数字的时候,我以为是系统出错了!“
    周围几个学者听到这边的动静,也围了过来。
    “你就是star city data的作者?“
    “天啊,这么年轻?“
    “你真的只是大一学生?“
    陈阳被围在中间,礼貌地点头回应。
    “各位,“
    朱军笑著帮他解围,“陈阳刚下飞机,让他先喘口气吧。明天的演讲,他会详细介绍技术细节的。“
    “对对对,明天!“
    齐瑟曼拍了拍陈阳的肩膀,“小伙子,我会坐在第一排听你的演讲。“
    人群渐渐散开,但不时还有人投来好奇的目光。
    “习惯就好。“
    朱军低声对陈阳说,“从今天开始,你就是这个圈子的焦点了。“
    陈阳端起一杯果汁,看著大厅里那些学术界的传奇人物。
    他们中有的写出了开创性的论文,有的培养了无数顶尖人才,有的创办了改变世界的公司。
    而现在,他们都在谈论著同一个话题——那个来自中国的6.5%。
    宴会厅的另一端,几个年轻人也在討论著。
    “听说了吗?今年的冠军是个中国大一学生。“
    “6.5%的错误率,简直不可思议。“
    “明天一定要去听他的演讲。“
    10月30日,下午两点。
    eccv 2012闭幕式。
    会议主厅里座无虚席,走廊上都站满了人。
    讲台上,李飞飞正在做开场介绍。
    “今年的imagenet挑战赛,出现了一个令人震惊的成绩。“
    大屏幕上显示出排行榜前三名:
    **rank 3: oxford vgg | 26.5%**
    **rank 2: supervision (toronto)| 16.4%**
    **rank 1: star city data (china)| 6.5%**
    台下响起一阵惊嘆声。
    “第二名团队的成绩已经是巨大的突破,將错误率从26%降到了16%。“
    李飞飞说,“但第一名的成绩,则完全超出了我们的想像。“
    她顿了顿,目光扫过台下:
    “6.5%的top-5错误率,这意味著什么?意味著我们距离人类的识別水平,已经非常接近了。“
    “接下来,让我们有请star city data团队的代表,来自清华大学的陈阳,为我们带来今天的闭幕演讲——《deep residual learning for image recognition》。“
    掌声响起。
    陈阳从第一排站起身,走上讲台。
    聚光灯打在他身上,台下数百双眼睛盯著他。
    他深吸一口气,接过话筒。
    “各位下午好,我是陈阳。“
    他的声音平静而清晰,英语发音標准。
    “在开始之前,我想先问一个问题:为什么深度神经网络不能无限加深?“
    大屏幕上出现了一张图表,显示著网络层数和准確率的关係。
    “传统观点认为,网络越深,表达能力越强。但事实上,当网络超过一定深度后,准確率反而会下降。“
    陈阳点击翻页。
    “这就是所谓的退化问题。很多人认为这是过擬合导致的,但实际上,即使在训练集上,深层网络的表现也不如浅层网络。“
    台下的学者们点头,这確实是困扰业界多年的难题。
    “那么,问题出在哪里?“
    陈阳的语气突然变得锐利:
    “问题在於,我们让网络学习的东西太难了。“
    他点击下一页,屏幕上出现了一个简单的示意图。
    左边是传统网络:输入x经过两层网络,输出h(x)。
    右边是残差网络:输入x经过两层网络得到f(x),然后加上原始输入x,输出h(x)= f(x)+ x。
    “这就是残差学习的核心思想。“
    陈阳的声音在寂静的会场里迴荡:
    “与其让网络直接学习h(x),不如让它学习残差f(x)= h(x)- x。“
    “为什么这样更简单?因为在很多情况下,最优映射接近於恆等映射。也就是说,f(x)接近於0,比直接学习h(x)要容易得多。“
    台下开始有窃窃私语声。
    “太简单了……“
    “为什么我们之前没想到?“
    “等等,这真的有效吗?“
    陈阳似乎听到了这些质疑,他点击下一页。
    屏幕上出现了一系列实验结果。
    “在cifar-10数据集上,我们测试了不同深度的网络。“
    红色曲线代表传统网络,蓝色曲线代表残差网络。
    在20层以下,两条曲线几乎重合。
    但当层数超过20层后,红色曲线开始下降,而蓝色曲线却持续上升。
    在110层时,残差网络的准確率依然在提升。
    “这意味著什么?“
    陈阳的目光扫过台下,“这意味著,残差学习解决了退化问题。我们可以训练真正的深度网络了。“
    掌声开始零星地响起,然后越来越热烈。
    “在imagenet上,我们构建了一个152层的残差网络。“
    大屏幕上出现了网络结构图,层层叠叠,像一座摩天大楼。
    台下响起一阵倒吸冷气的声音。
    “152层?!“
    “这怎么训练的?“
    陈阳继续说:“很多人问我,这么深的网络,需要多强大的硬体?超级计算机?“
    他点击下一页。
    “我们的集群:12块nvidia gtx 680显卡。“
    台下一片譁然。
    “gtx 680?“
    “那不是游戏显卡吗?“
    “2gb显存怎么可能训练152层?“
    “我知道大家在想什么。“陈阳笑了,“152层的网络,模型大小超过20gb,怎么可能在2gb显存的卡上运行?“
    他点击下一页:
    “答案是:模型並行和数据並行的混合框架。“
    屏幕上出现了一张复杂的架构图,展示了如何將模型切分到多张显卡上,同时保持高效的训练速度。
    “我们设计了一套自適应的並行策略,根据每一层的大小和计算量,动態分配到不同的gpu上。“
    “通过精心设计的显存管理和梯度累积策略,我们实现了在消费级显卡上训练超深度网络。“
    台下的学者们疯狂地记笔记。
    齐瑟曼坐在第一排,眼睛一眨不眨地盯著屏幕。
    这不只是一个天才的算法,还是一个天才的工程实现。
    “最终,在imagenet验证集上,我们的resnet-152达到了6.5%的top-5错误率。“
    大屏幕上出现了最终的结果对比:
    2011年冠军:26.2%
    2012年第二名:16.4%
    resnet-152:6.5%
    “相比去年的冠军,我们將错误率降低了75%。“
    陈阳停顿了一下,目光扫过台下每一个人:
    “这不是终点,而是起点。残差网络的出现,意味著深度学习真正进入了可以实用化的阶段。“
    “它可以应用在图像识別、目標检测、语义分割等各个领域。“
    “在星城数据,我们已经將resnet应用到了实际业务中。“
    屏幕切换到新的页面,显示著几个应用案例。
    “第一,验证码识別。我们的星眼系统,基於resnet架构,对各类复杂验证码的识別准確率达到99.7%以上。“
    “第二,证件识別。身份证、驾驶证、发票等各类证件的ocr识別,准確率超过99.5%,处理速度是传统方法的10倍以上。“
    “第三,我们正在探索更多应用场景,包括人脸识別、医疗影像分析等。“
    台下开始有人窃窃私语。
    “原来他们已经在做商业化了。“
    “难怪能做出这么强的模型。“
    陈阳继续说:
    “深度学习不应该只停留在实验室里。resnet的目標,就是让ai技术真正走进现实世界,解决实际问题。“
    他的声音坚定有力:
    “这就是星城数据的使命——让每一个企业、每一个开发者,都能用上最先进的ai技术。“
    陈阳鞠了一躬:
    “谢谢大家。“
    掌声如雷鸣般响起。
    整个会场的人都站了起来。
    持续了將近两分钟的掌声,才逐渐平息。
    演讲结束后,陈阳被一群学者围住。
    “能详细讲讲混合併行框架吗?“
    “残差连接在目標检测上效果如何?“
    “你们的证件识別系统是如何实现的?“
    “星城数据现在接商业合作吗?“
    陈阳耐心地回答著每一个问题。
    齐瑟曼教授挤到前面,激动地说:
    “陈阳,你愿意来牛津做访问学者吗?我们有最好的实验室,最优秀的团队。“
    话还没说完,旁边一个教授打断道:
    “陈,考虑一下mit吧!我们可以为你提供全额奖学金,还有独立的研究经费。“
    陈阳有些不知所措,朱军在一旁笑著说:
    “各位,陈阳还是大一学生,让他先把本科读完吧。“
    人群中,一个穿著考究西装的中年人递上名片:
    “陈先生,我是红杉资本的汤姆·詹森。您的公司非常有潜力,不知道是否考虑接受投资?“
    陈阳接过名片,礼貌地说:
    “谢谢您的关注。星城数据確实在寻求资金支持,不过我们更看重战略投资而不只是资金。“
    “理解。“
    汤姆点头,“那我们保持联繫。如果需要,隨时可以找我。“
    类似的投资人,今天找上陈阳的已经有七八个了。
    还有几家科技公司的代表,想谈技术授权。
    甚至有猎头想挖他去谷歌和facebook,开出的薪水高达百万美元。
    陈阳一一应对,不卑不亢。
    人群散去后,一个年轻人走过来。
    “你好,陈阳。“
    他伸出手,“我是亚歷克斯·克里热夫斯基。“
    “你好。“陈阳握住他的手。
    “你的resnet很厉害。“
    亚歷克斯真诚地说,“我们的工作和你比起来,差得太远了。“
    “不,每个工作都有它的价值。“
    陈阳说,“深度学习的发展需要所有人的努力。“
    亚歷克斯愣了一下,然后笑了:“你真会说话。不过,我確实很好奇,你是怎么想到残差连接这个idea的?“
    “灵感来源於高速公路网络的概念,加上一些数学上的直觉。“陈阳简单地说,“如果你感兴趣,我们可以交流。“
    “好。“亚歷克斯点头。
    两人交换了联繫方式。
    当晚,陈阳回到酒店房间。
    手机里塞满了各种邮件和消息。
    学术界的邀请函、投资人的bp、媒体的採访请求、企业的合作意向。
    他打开笔记本,开始整理今天收集到的名片和联繫方式。