大数据下驱动下感知智能产品研发
让我们来看看大数据驱动下感知智能产品的研发。
真正意义上的大数据分析是什么呢?四个V特别重要,数据体量巨大,从TB级别上升到PB级别;数据类型众多;价值密度低,但商业价值高,也就是数据中大量都是垃圾,垃圾里面找金矿,很少很少,去找这个东西,这个是不能用传统方法处理的,因为大部分是非结构化和半结构化数据。事实上,结构化数据用传统数据挖掘手段就可以处理,现在很多人其实干的是这件事情。
对深度学习来说有很多开源代码框架和工具集,比如谷歌的TensorFlow,加州伯克利的Caffe,Bengio的Theano,Facebook的Torch,微软的CNTK,都开源了,目的就是为了形成一个人工智能产业生态。
我们知道,深度卷积神经网络采集与喂食的大数据越多,越能获得更好的直觉模拟。现在需要更大的数据,这个模型真正的进展,数据越多越好,这个是以前完全不能想象的事情。举个例子,Google的无人驾驶汽车它的总行驶里程已超过241万km,还有特斯拉六个月就采集了超过7500万km的大数据,每天都在大量采集数据。
对算法公司来讲,无论是采用以前的传统计算机视觉还是现在的深度学习方法,企业最大的优势之一,就是它拥有的大数据优势,例如做ADAS产品的以色列标杆企业Mobileye。既然要做大数据,就要对它进行清洗和标签。为此一定要选择一个特定的应用场景,或者说一定要做一个非常细的划分,垂直领域里面还要有细分领域,这样才有可能得到各种工况、各种情形下的完整大数据,才可以进行标签等等。
在移动互联网时代,大数据的采集可以采用“众集”的方法,标签可以采取“众包”的方法,比如说现在Google有54辆车,已经开始考虑到大数据中潮湿情况怎么办,多雨情况怎么办,还有高温、多尘等等,商业化进程不断推进。
目前使用的完全监督学习的深度卷积神经网络有一个缺点,要求配合使用大数据。换句话说,要认识飞机,必须将全世界所有飞机的照片都给他看,包括不同气候条件下,不同时间段,不同地方与背景、姿态等等,都要给它看;做无人驾驶则必须要考虑到各种天气、各种道路、各种时间段的大数据等等。这是现在这个方法的缺点。人可不是这么干的。人要认识一个东西很简单,要他看两、三架飞机他就把所有的飞机都认得了。这就是小样本学习或者说是“举一反三”。
人脸识别也是这么一个故事。针对LFM人脸识别数据集,深度CNN超过了人类的识别能力,香港中文大学的汤晓鸥团队第一次超过了人类97.53%的正确率。百度现在做的最好,99.77%,第二名是腾讯的优图,99.65%,第三是谷歌的99.63%,已经超过人不少了。
还有一个标志性结果就是把深度卷积神经网络与再励学习结合起来,应用于神经动态规划问题。AlphaGo学术上就叫神经动态规划问题,这个问题很多年以前就有研究。现在唯一的区别就是有了大数据,有了深度卷积神经网络,所以叫深度再励学习。其实在AlphaGo之前,在去年2月份,Google的DeepMind就有了深度再励学习的结果,发表在《自然》杂志上,只不过没有引起那么大的社会关注。利用深度再励学习发展的深度Q-网络,用于玩Atari像素游戏。49种游戏里面,不是靠编程,而是靠学习的方法去建立深度Q-网络;这49种游戏,包括太空入侵者、功夫大师等等,学49种游戏,一个职业选手在那玩,它就在边上学,看屏幕上的像素和评分,输出是一个虚拟的游戏操纵杆;看像素怎么运动,打多少分?学完以后49种游戏里面,29种超过职业选手水平;这条线是人类水平,假设是100分“智商”,计算机的评分最高达到2500多,比人还玩得好很多,它完全通过学习的方法,这是与IBM深蓝不同的。AlphaGo这个也是发表在《自然》上,也是封面论文。这个事情我就不说了,因为全社会都在热烈讨论。把人类战胜了,而且以后看起来人类也很难再战胜它,因为它可以学习,每天都在学,很可怕。
总之,深度卷积神经网络在量级上开始与生物神经系统,比如说皮层上的功能柱接近了。已经有几十万个神经元,训练样本几亿、几十亿,未来可能还能达到上百亿的大数据,这个需要很强的计算硬件支撑。神经网络的突触连接权最多已达到10亿,微软的ResNet网络,深度为152层,甚至可以做到1000层;2万多种物体都可以识别出来,狗、猫都能认出来,叫出名字来,以后可以有更多种类的物体可以被识别,实现更宽垂直领域的通用人工智能。
深度卷积神经网络为什么那么好呢?因为它首先是一种仿生模型。但是必须指出,深度卷积神经网络,现在的方法是完全监督学习的,这个跟人脑是不相同的。人的大脑视觉皮层有两个通路,一个是腹侧通路管分类的,一个背侧通路是管定位的,应该说它们的学习是半监督的,LGN、V1等可塑性几乎没有。
另外,美国MIT麦戈文脑科学研究所用电极阵列完成的猕猴高级视皮层实验表明,生物系统的V4、IT皮层的特征映射图,与深度卷积神经网络非常接近,令人叹为观止。总之,作为一种感知智能模型,深度卷积神经网络迄今最好地模拟了生物视觉通路,在大数据和深度学习芯片的强力支撑下,具有强大的自动分层特征学习能力,在上述列举的细分领域超过了人类的识别能力。大数据下的感知智能的发展为环境理解与自然人机交流、人机协作和人机共融的进步,带来了历史性的机遇与挑战。
“大数据+深度CNN”,这是实实在在的进步,确实可以鼓吹大家着手进行以完全监督深度CNN为核心的人工智能产品开发了。它具有的达到人类水平的分类识别能力,前面已经说了很多例子了,比如谷歌DeepMind的AlphaGo与DQN,谷歌ImageNet,IBM Watson,微软同声传译,百度IDL集成模型(人脸识别)和Deep Speech 2(语音识别)等等,都见证了深度CNN的强大能力,极有可能催生一场弱人工智能革命,重塑很多产业。