第20章演讲

佚名 / 著投票加入书签

    2012年10月29日，傍晚。
    义大利，佛罗伦斯。
    古老的文艺復兵之城在夕阳下泛著金色的光芒。
    阿诺河静静流淌，远处圣母百花大教堂的穹顶在晚霞中显得格外壮丽。
    陈阳站在酒店房间的窗前，看著窗外的风景。
    这是他第一次来欧洲，第一次参加国际学术会议。
    身后，传来敲门声。
    “陈阳，准备好了吗？晚上的欢迎晚宴快开始了。“
    开口的是朱军教授，水木大学计算机系的教授，这次也来参加eccv会议。
    得知陈阳要来做演讲，朱军主动提出带他一起来，一路上照应这个第一次出国的大一学生。
    “好了，朱老师。“陈阳拿起西装外套穿上。
    镜子里的少年，穿著得体的深蓝色西装，头髮梳得整齐，眼神中带著超越年龄的沉稳。
    “走吧。“
    朱军笑著说，“今晚来的都是计算机视觉领域的顶尖人物，好好认识一下。“
    会议酒店的宴会厅里，水晶吊灯发出柔和的光芒。
    身著正装的学者们三三两两地聚在一起，端著红酒交谈著。
    空气里瀰漫著香檳和烤牛排的味道，还有各种语言交织的低语声。
    陈阳跟著朱军走进大厅，立刻感受到了几道目光落在自己身上。
    “朱，好久不见！“
    记住我们101看书网
    一个满头银髮的老者走过来，用略带口音的英语打招呼。
    “安德鲁！“
    朱军热情地握手，“你也来了！“
    安德鲁·齐瑟曼，牛津大学的教授，计算机视觉领域的传奇人物之一。
    “这位是？“齐瑟曼的目光落在陈阳身上。
    “我的学生，陈阳。“
    朱军介绍道，然后压低声音补充，“star city data的那个。“
    齐瑟曼的眼睛瞬间亮了。
    “你就是陈阳？“
    他用力握住陈阳的手，“天啊，我还以为你至少是个博士后！“
    “您好，齐瑟曼教授。“
    陈阳用流利的英语回应，“很荣幸见到您。“
    “荣幸的是我！“
    齐瑟曼激动地说，“6.5%！你知道吗，当我看到那个数字的时候，我以为是系统出错了！“
    周围几个学者听到这边的动静，也围了过来。
    “你就是star city data的作者？“
    “天啊，这么年轻？“
    “你真的只是大一学生？“
    陈阳被围在中间，礼貌地点头回应。
    “各位，“
    朱军笑著帮他解围，“陈阳刚下飞机，让他先喘口气吧。明天的演讲，他会详细介绍技术细节的。“
    “对对对，明天！“
    齐瑟曼拍了拍陈阳的肩膀，“小伙子，我会坐在第一排听你的演讲。“
    人群渐渐散开，但不时还有人投来好奇的目光。
    “习惯就好。“
    朱军低声对陈阳说，“从今天开始，你就是这个圈子的焦点了。“
    陈阳端起一杯果汁，看著大厅里那些学术界的传奇人物。
    他们中有的写出了开创性的论文，有的培养了无数顶尖人才，有的创办了改变世界的公司。
    而现在，他们都在谈论著同一个话题——那个来自中国的6.5%。
    宴会厅的另一端，几个年轻人也在討论著。
    “听说了吗？今年的冠军是个中国大一学生。“
    “6.5%的错误率，简直不可思议。“
    “明天一定要去听他的演讲。“
    10月30日，下午两点。
    eccv 2012闭幕式。
    会议主厅里座无虚席，走廊上都站满了人。
    讲台上，李飞飞正在做开场介绍。
    “今年的imagenet挑战赛，出现了一个令人震惊的成绩。“
    大屏幕上显示出排行榜前三名：
    **rank 3: oxford vgg | 26.5%**
    **rank 2: supervision (toronto)| 16.4%**
    **rank 1: star city data (china)| 6.5%**
    台下响起一阵惊嘆声。
    “第二名团队的成绩已经是巨大的突破，將错误率从26%降到了16%。“
    李飞飞说，“但第一名的成绩，则完全超出了我们的想像。“
    她顿了顿，目光扫过台下：
    “6.5%的top-5错误率，这意味著什么？意味著我们距离人类的识別水平，已经非常接近了。“
    “接下来，让我们有请star city data团队的代表，来自清华大学的陈阳，为我们带来今天的闭幕演讲——《deep residual learning for image recognition》。“
    掌声响起。
    陈阳从第一排站起身，走上讲台。
    聚光灯打在他身上，台下数百双眼睛盯著他。
    他深吸一口气，接过话筒。
    “各位下午好，我是陈阳。“
    他的声音平静而清晰，英语发音標准。
    “在开始之前，我想先问一个问题：为什么深度神经网络不能无限加深？“
    大屏幕上出现了一张图表，显示著网络层数和准確率的关係。
    “传统观点认为，网络越深，表达能力越强。但事实上，当网络超过一定深度后，准確率反而会下降。“
    陈阳点击翻页。
    “这就是所谓的退化问题。很多人认为这是过擬合导致的，但实际上，即使在训练集上，深层网络的表现也不如浅层网络。“
    台下的学者们点头，这確实是困扰业界多年的难题。
    “那么，问题出在哪里？“
    陈阳的语气突然变得锐利：
    “问题在於，我们让网络学习的东西太难了。“
    他点击下一页，屏幕上出现了一个简单的示意图。
    左边是传统网络：输入x经过两层网络，输出h(x)。
    右边是残差网络：输入x经过两层网络得到f(x)，然后加上原始输入x，输出h(x)= f(x)+ x。
    “这就是残差学习的核心思想。“
    陈阳的声音在寂静的会场里迴荡：
    “与其让网络直接学习h(x)，不如让它学习残差f(x)= h(x)- x。“
    “为什么这样更简单？因为在很多情况下，最优映射接近於恆等映射。也就是说，f(x)接近於0，比直接学习h(x)要容易得多。“
    台下开始有窃窃私语声。
    “太简单了……“
    “为什么我们之前没想到？“
    “等等，这真的有效吗？“
    陈阳似乎听到了这些质疑，他点击下一页。
    屏幕上出现了一系列实验结果。
    “在cifar-10数据集上，我们测试了不同深度的网络。“
    红色曲线代表传统网络，蓝色曲线代表残差网络。
    在20层以下，两条曲线几乎重合。
    但当层数超过20层后，红色曲线开始下降，而蓝色曲线却持续上升。
    在110层时，残差网络的准確率依然在提升。
    “这意味著什么？“
    陈阳的目光扫过台下，“这意味著，残差学习解决了退化问题。我们可以训练真正的深度网络了。“
    掌声开始零星地响起，然后越来越热烈。
    “在imagenet上，我们构建了一个152层的残差网络。“
    大屏幕上出现了网络结构图，层层叠叠，像一座摩天大楼。
    台下响起一阵倒吸冷气的声音。
    “152层？！“
    “这怎么训练的？“
    陈阳继续说：“很多人问我，这么深的网络，需要多强大的硬体？超级计算机？“
    他点击下一页。
    “我们的集群：12块nvidia gtx 680显卡。“
    台下一片譁然。
    “gtx 680？“
    “那不是游戏显卡吗？“
    “2gb显存怎么可能训练152层？“
    “我知道大家在想什么。“陈阳笑了，“152层的网络，模型大小超过20gb，怎么可能在2gb显存的卡上运行？“
    他点击下一页：
    “答案是：模型並行和数据並行的混合框架。“
    屏幕上出现了一张复杂的架构图，展示了如何將模型切分到多张显卡上，同时保持高效的训练速度。
    “我们设计了一套自適应的並行策略，根据每一层的大小和计算量，动態分配到不同的gpu上。“
    “通过精心设计的显存管理和梯度累积策略，我们实现了在消费级显卡上训练超深度网络。“
    台下的学者们疯狂地记笔记。
    齐瑟曼坐在第一排，眼睛一眨不眨地盯著屏幕。
    这不只是一个天才的算法，还是一个天才的工程实现。
    “最终，在imagenet验证集上，我们的resnet-152达到了6.5%的top-5错误率。“
    大屏幕上出现了最终的结果对比：
    2011年冠军：26.2%
    2012年第二名：16.4%
    resnet-152：6.5%
    “相比去年的冠军，我们將错误率降低了75%。“
    陈阳停顿了一下，目光扫过台下每一个人：
    “这不是终点，而是起点。残差网络的出现，意味著深度学习真正进入了可以实用化的阶段。“
    “它可以应用在图像识別、目標检测、语义分割等各个领域。“
    “在星城数据，我们已经將resnet应用到了实际业务中。“
    屏幕切换到新的页面，显示著几个应用案例。
    “第一，验证码识別。我们的星眼系统，基於resnet架构，对各类复杂验证码的识別准確率达到99.7%以上。“
    “第二，证件识別。身份证、驾驶证、发票等各类证件的ocr识別，准確率超过99.5%，处理速度是传统方法的10倍以上。“
    “第三，我们正在探索更多应用场景，包括人脸识別、医疗影像分析等。“
    台下开始有人窃窃私语。
    “原来他们已经在做商业化了。“
    “难怪能做出这么强的模型。“
    陈阳继续说：
    “深度学习不应该只停留在实验室里。resnet的目標，就是让ai技术真正走进现实世界，解决实际问题。“
    他的声音坚定有力：
    “这就是星城数据的使命——让每一个企业、每一个开发者，都能用上最先进的ai技术。“
    陈阳鞠了一躬：
    “谢谢大家。“
    掌声如雷鸣般响起。
    整个会场的人都站了起来。
    持续了將近两分钟的掌声，才逐渐平息。
    演讲结束后，陈阳被一群学者围住。
    “能详细讲讲混合併行框架吗？“
    “残差连接在目標检测上效果如何？“
    “你们的证件识別系统是如何实现的？“
    “星城数据现在接商业合作吗？“
    陈阳耐心地回答著每一个问题。
    齐瑟曼教授挤到前面，激动地说：
    “陈阳，你愿意来牛津做访问学者吗？我们有最好的实验室，最优秀的团队。“
    话还没说完，旁边一个教授打断道：
    “陈，考虑一下mit吧！我们可以为你提供全额奖学金，还有独立的研究经费。“
    陈阳有些不知所措，朱军在一旁笑著说：
    “各位，陈阳还是大一学生，让他先把本科读完吧。“
    人群中，一个穿著考究西装的中年人递上名片：
    “陈先生，我是红杉资本的汤姆·詹森。您的公司非常有潜力，不知道是否考虑接受投资？“
    陈阳接过名片，礼貌地说：
    “谢谢您的关注。星城数据確实在寻求资金支持，不过我们更看重战略投资而不只是资金。“
    “理解。“
    汤姆点头，“那我们保持联繫。如果需要，隨时可以找我。“
    类似的投资人，今天找上陈阳的已经有七八个了。
    还有几家科技公司的代表，想谈技术授权。
    甚至有猎头想挖他去谷歌和facebook，开出的薪水高达百万美元。
    陈阳一一应对，不卑不亢。
    人群散去后，一个年轻人走过来。
    “你好，陈阳。“
    他伸出手，“我是亚歷克斯·克里热夫斯基。“
    “你好。“陈阳握住他的手。
    “你的resnet很厉害。“
    亚歷克斯真诚地说，“我们的工作和你比起来，差得太远了。“
    “不，每个工作都有它的价值。“
    陈阳说，“深度学习的发展需要所有人的努力。“
    亚歷克斯愣了一下，然后笑了：“你真会说话。不过，我確实很好奇，你是怎么想到残差连接这个idea的？“
    “灵感来源於高速公路网络的概念，加上一些数学上的直觉。“陈阳简单地说，“如果你感兴趣，我们可以交流。“
    “好。“亚歷克斯点头。
    两人交换了联繫方式。
    当晚，陈阳回到酒店房间。
    手机里塞满了各种邮件和消息。
    学术界的邀请函、投资人的bp、媒体的採访请求、企业的合作意向。
    他打开笔记本，开始整理今天收集到的名片和联繫方式。

第20章 演讲

第20章演讲