Episode Details

2567.一个AI从业者的十年

Episode 253 Published 1 year, 8 months ago

Description

欢迎收听雪球出品的财经有深度，雪球，国内领先的集投资交流交易一体的综合财富管理平台，聪明的投资者都在这里。今天分享的内容叫一个AI从业者的十年。来自DrChuck。

2015年，我刚参加工作，第一个任务是识别图片里的物品。传统做法是，找到物品的特征，用机器学习设计特征工程，做成模版，拿着模版进行特征匹配。做了几个月，效果差强人意。

突然一则新闻吸引了我的注意力，谷歌旗下的DeepMind开发了一款围棋程序AlphaGo，要与世界冠军李世石对弈。赛前大家并不看好 A I ，甚至人工智能专家李开复也觉得 A I 赢不了。事实让众人大跌眼镜，AlphaGo以4:1大胜李世石。这个结果给了我极大震撼，因为中国人知道围棋的难度。19乘19的棋盘，状态空间复杂度高达10的171次方，远大于宇宙中原子的个数，单靠近似穷举不可能解出答案。

我疯了一般去寻找背后的故事。

原来，AlphaGo的核心是卷积神经网络。这是杨乐昆在1989年提出的一种图像识别算法。为什么这个技术在二十多年后才被人重视？因为数据和算力不足。

直到2012年，深度学习之父辛顿的两名学生在李飞飞主导的ImageNet超大规模视觉识别挑战赛上一鸣惊人，人们才终于见识到威力。他俩基于吴恩达的工作，创造性的将英伟达的 G P U 用于训练一个600万参数的深度神经网络AlexNet。

AlexNet在学习了1000万张李飞飞团队辛苦标注的图片后，将图像识别的准确率提高了10%以上，遥遥领先于亚军。在AlexNet的基础上，科学家们再接再厉，提出了一个又一个更深更大的网络，ZFNet，VGGNet，GoogleNet，每年都在进步。

到了2015年，华人学者何恺明，曾经的广东高考状元，提出了152层的极深网络ResNet，参数量过千万，至此，AI的图像识别准确率终于超过了人类。

了解到这些背景，我兴奋得浑身发抖。开发人员再也不需要手工设计图像特征，深度网络通过海量数据学到的特征，远胜资深专家的多年经验。

为了深入学习，我开始使用亚马逊云服务 A W S ，很快就被英伟达的 C U D A 惊艳到了。 C U D A 非常高效，吸引了众多研究员和工程师，英伟达的开发人员也热心解答各种漏洞问题。渐渐的，越来越多的算法首发在 C U D A 上，更多的改进算法为了超越前者也只能用 C U D A ，形成了网络效应，用的人越多越好用。

当年还没有现在这么完善的深度学习框架，我入门靠的是华人学者贾扬清在写毕业论文之余开发的Caffe。这位大神慷慨开源了他基于 C U D A 的研究框架，又在博士毕业后成为谷歌的TensorFlow和Meta的PyTorch两大当今最流行框架的主要贡献者。

有了这些武器，我总算可以把图像识别算法换成深度卷积网络，效果显著，准确率飞升。但我知道永远不能自满，这是个眨眼十年的领域。得益于科学家们的开源精神，网络的架构不断进化。

2017年，谷歌提出了Transformer自注意力架构。所谓自注意力，简单说就是只关心输入之间的关系，而不再关注输入和输出的关系，这是一个颠覆性的变化。这篇论文发布之前，虽然深度学习已经取得长足进展，但AI的各个分支，视觉，语音，语言理解等，还是相对割裂的，每个领域有自己的模型。

之后，则是Transformer一统天下，各领域专家的知识整合以及多模态融合变得愈加轻松。李飞飞的高徒安德烈，甚至惊叹，也许人类偶然窥见了和自然界类似的强大架构，造物主沿着这个路径复制，造就了今天的大千世界。

Episode Details

2567.一个AI从业者的十年

Description

Listen Now

Love PodBriefly?