人工智能前沿技术与产业发展趋势（二）

大数据下驱动下感知智能产品研发

微信图片_20170721095943.jpg

让我们来看看大数据驱动下感知智能产品的研发。

深度CNN标志性的突破出现在2012年，Hinton带领他的两位博士生，在2012年的ILSVRC 比赛中获得了冠军。ILSVRC 比赛相当于什么呢？可以理解为计算机视觉物体识别中的“世界杯足球赛”，每年都举行。其训练与测试数据集ImageNet有1500万幅图片，涉及22000种物体的分类（2011年秋版本），如猫、狗、大象等等。他们当时使用了2块GPU加速，训练了一周，取得了15.3%的Top-5错误率。而传统视觉方法的最好结果是26.2%，2016年这个结果已经下降到3.08%，比人类的5.1%好了不少。创新之处就是将深度卷积神经网络与大数据（1500万幅图片）和GPU Cuda并行编程结合起来了。可以说由此揭开了深度学习在计算机视觉、语音识别和自然语言理解中大规模研究的序幕。微信图片_20170721100044.jpg

2013年开始产业界真正高强度深度介入。很多标志性的事件，比如说，2013年3月Hinton受聘于Google（包括Google收购其3人初创企业DNNresearch）。2013年12月9日LeCun获邀受聘于Facebook，创建并执掌Facebook的人工智能研究院。2014年1月Google以5亿多美元收购Demis Hassabis的人工智能创业公司DeepMind，2年后该公司推出了引起全社会高度关注的AlphaGo。2014年5月吴恩达受聘于百度，担任百度首席科学家等。

大数据驱动下感知智能产业的框架结构：一是应用层，也就是人工智能+细分领域，比如说无人驾驶、机器视觉或者语音识别；二是技术层，涉及模型/算法，开源代码；三是基础层，就是大数据，计算引擎/深度学习芯片这两点支撑。深度学习的市场图谱，包括四个方面：技术巨头，开源代码、大学研究，还有半导体公司——做芯片的，主要是做计算引擎。

什么是大数据？我就说一个观点。我们说大数据通常体量巨大，一般不能用常规的统计学与平稳随机过程方法来处理，因为已经不满足i.i.d独立同分布假设了。而且通常只关注整体的关联关系，而不是因果关系。从这个角度来说，现在很多所谓的大数据分析都是炒概念，其实就是常规的统计分析或者说数据挖掘，不是真正含义上的大数据分析。

真正意义上的大数据分析是什么呢？四个V特别重要，数据体量巨大，从TB级别上升到PB级别；数据类型众多；价值密度低，但商业价值高，也就是数据中大量都是垃圾，垃圾里面找金矿，很少很少，去找这个东西，这个是不能用传统方法处理的，因为大部分是非结构化和半结构化数据。事实上，结构化数据用传统数据挖掘手段就可以处理，现在很多人其实干的是这件事情。

对深度学习来说有很多开源代码框架和工具集，比如谷歌的TensorFlow，加州伯克利的Caffe，Bengio的Theano，Facebook的Torch，微软的CNTK，都开源了，目的就是为了形成一个人工智能产业生态。

ImageNet有1500多万张照片，还有Caltech-101，Caltech-256，CIFAR-10，CIFAR-100，MNIST，US-PS，SVHN，还有人脸识别库LFW等等，这些都是公开的，而且公开的数据集也逐渐增多，但它们是属于研究性质的。

真正有价值的私有大数据，其重要性如同原油一样属于战略资源，被跨国企业拥有和贪婪追求，这个重要性特别大，国内外的差距在不断加大。

微信图片_20170721100457.jpg

我们知道，深度卷积神经网络采集与喂食的大数据越多，越能获得更好的直觉模拟。现在需要更大的数据，这个模型真正的进展，数据越多越好，这个是以前完全不能想象的事情。举个例子，Google的无人驾驶汽车它的总行驶里程已超过241万km，还有特斯拉六个月就采集了超过7500万km的大数据，每天都在大量采集数据。

对算法公司来讲，无论是采用以前的传统计算机视觉还是现在的深度学习方法，企业最大的优势之一，就是它拥有的大数据优势，例如做ADAS产品的以色列标杆企业Mobileye。既然要做大数据，就要对它进行清洗和标签。为此一定要选择一个特定的应用场景，或者说一定要做一个非常细的划分，垂直领域里面还要有细分领域，这样才有可能得到各种工况、各种情形下的完整大数据，才可以进行标签等等。

在移动互联网时代，大数据的采集可以采用“众集”的方法，标签可以采取“众包”的方法，比如说现在Google有54辆车，已经开始考虑到大数据中潮湿情况怎么办，多雨情况怎么办，还有高温、多尘等等，商业化进程不断推进。

目前使用的完全监督学习的深度卷积神经网络有一个缺点，要求配合使用大数据。换句话说，要认识飞机，必须将全世界所有飞机的照片都给他看，包括不同气候条件下，不同时间段，不同地方与背景、姿态等等，都要给它看；做无人驾驶则必须要考虑到各种天气、各种道路、各种时间段的大数据等等。这是现在这个方法的缺点。人可不是这么干的。人要认识一个东西很简单，要他看两、三架飞机他就把所有的飞机都认得了。这就是小样本学习或者说是“举一反三”。

在大数据和计算引擎的驱动下，基于深度学习方法的视觉物体识别能力，在许多Benchmark评测中，正在达到或超过人类的水平，语音识别再过2-5年也能达到人的水平，文本理解也比过去飞速进步了许多，许多确实可以进行工程产品的开发了。

我们举几个例子，2012年以后深度学习成为视觉物体识别的主流方法，2014年以来，又成为人脸识别的主流方法；同时大数据成为性能提升的关键。在ILSVRC 比赛中，从2013年开始就再也没有传统机器视觉方法了，全部是深度学习方法；就这个问题，人的水平是5.1%，微软去年初的4.94%第一次超过人类的水平，去年底该比赛的冠军也是微软，错误率降低为3.57%，目前全世界最好的记录是Google的3.08%，都是企业取得的成绩，这种趋势非常明显，因为这些科技巨头才拥有高效的研发团队和计算资源。

人脸识别也是这么一个故事。针对LFM人脸识别数据集，深度CNN超过了人类的识别能力，香港中文大学的汤晓鸥团队第一次超过了人类97.53%的正确率。百度现在做的最好，99.77%，第二名是腾讯的优图，99.65%，第三是谷歌的99.63%，已经超过人不少了。

至于基于深度学习的视觉物体检测与定位，目前也可以做到像素水平的分割。例如，这是长颈鹿、斑马，进行像素水平的物体分割，再分类识别；分类做的很好了，比人做的还好。

还有一个标志性结果就是把深度卷积神经网络与再励学习结合起来，应用于神经动态规划问题。AlphaGo学术上就叫神经动态规划问题，这个问题很多年以前就有研究。现在唯一的区别就是有了大数据，有了深度卷积神经网络，所以叫深度再励学习。其实在AlphaGo之前，在去年2月份，Google的DeepMind就有了深度再励学习的结果，发表在《自然》杂志上，只不过没有引起那么大的社会关注。利用深度再励学习发展的深度Q-网络，用于玩Atari像素游戏。49种游戏里面，不是靠编程，而是靠学习的方法去建立深度Q-网络；这49种游戏，包括太空入侵者、功夫大师等等，学49种游戏，一个职业选手在那玩，它就在边上学，看屏幕上的像素和评分，输出是一个虚拟的游戏操纵杆；看像素怎么运动，打多少分？学完以后49种游戏里面，29种超过职业选手水平；这条线是人类水平，假设是100分“智商”，计算机的评分最高达到2500多，比人还玩得好很多，它完全通过学习的方法，这是与IBM深蓝不同的。AlphaGo这个也是发表在《自然》上，也是封面论文。这个事情我就不说了，因为全社会都在热烈讨论。把人类战胜了，而且以后看起来人类也很难再战胜它，因为它可以学习，每天都在学，很可怕。

总之，深度卷积神经网络在量级上开始与生物神经系统，比如说皮层上的功能柱接近了。已经有几十万个神经元，训练样本几亿、几十亿，未来可能还能达到上百亿的大数据，这个需要很强的计算硬件支撑。神经网络的突触连接权最多已达到10亿，微软的ResNet网络，深度为152层，甚至可以做到1000层；2万多种物体都可以识别出来，狗、猫都能认出来，叫出名字来，以后可以有更多种类的物体可以被识别，实现更宽垂直领域的通用人工智能。

现在看来，神经网络的发展历经“三起两落”，1970年、2000年前后是寒冬，什么事都做不了，在人工智能领域中被边缘化。现在一枝独秀，应该说主要是时代进步了，因为互联网时代我们才有可能采集大数据，然后采用“众包”的方法做标签。另外就是由于游戏的超速发展出现了强有力的GPU，采用GPU分布式集群系统后，才能为深度学习提供超强的计算硬件引擎。

深度卷积神经网络为什么那么好呢？因为它首先是一种仿生模型。但是必须指出，深度卷积神经网络，现在的方法是完全监督学习的，这个跟人脑是不相同的。人的大脑视觉皮层有两个通路，一个是腹侧通路管分类的，一个背侧通路是管定位的，应该说它们的学习是半监督的，LGN、V1等可塑性几乎没有。

另外，美国MIT麦戈文脑科学研究所用电极阵列完成的猕猴高级视皮层实验表明，生物系统的V4、IT皮层的特征映射图，与深度卷积神经网络非常接近，令人叹为观止。总之，作为一种感知智能模型，深度卷积神经网络迄今最好地模拟了生物视觉通路，在大数据和深度学习芯片的强力支撑下，具有强大的自动分层特征学习能力，在上述列举的细分领域超过了人类的识别能力。大数据下的感知智能的发展为环境理解与自然人机交流、人机协作和人机共融的进步，带来了历史性的机遇与挑战。

“大数据+深度CNN”，这是实实在在的进步，确实可以鼓吹大家着手进行以完全监督深度CNN为核心的人工智能产品开发了。它具有的达到人类水平的分类识别能力，前面已经说了很多例子了，比如谷歌DeepMind的AlphaGo与DQN，谷歌ImageNet，IBM Watson，微软同声传译，百度IDL集成模型（人脸识别）和Deep Speech 2（语音识别）等等，都见证了深度CNN的强大能力，极有可能催生一场弱人工智能革命，重塑很多产业。

附加题目