上一题下一题
跳转到
 
 
  世界如此多姿,发展如此迅速,窥一斑未必还能知全豹。但正如万花筒一样,每一个管窥都色彩斑斓。  
 
 
  知识通道 | 学习首页 | 教师首页 | PK首页 | 知识创造首页 | 企业首页 | 登录
 
本文对应知识领域
人工智能前沿技术与产业发展趋势(二)
作者:邓志东 申领版权
2017年07月21日 共有 1660 次访问 【添加到收藏夹】 【我要附加题目
受欢迎度:

大数据下驱动下感知智能产品研发


让我们来看看大数据驱动下感知智能产品的研发。

深度CNN标志性的突破出现在2012年,Hinton带领他的两位博士生,在2012年的ILSVRC 比赛中获得了冠军。ILSVRC 比赛相当于什么呢?可以理解为计算机视觉物体识别中的“世界杯足球赛”,每年都举行。其训练与测试数据集ImageNet有1500万幅图片,涉及22000种物体的分类(2011年秋版本),如猫、狗、大象等等。他们当时使用了2块GPU加速,训练了一周,取得了15.3%的Top-5错误率。而传统视觉方法的最好结果是26.2%,2016年这个结果已经下降到3.08%,比人类的5.1%好了不少。创新之处就是将深度卷积神经网络与大数据(1500万幅图片)和GPU Cuda并行编程结合起来了。可以说由此揭开了深度学习在计算机视觉、语音识别和自然语言理解中大规模研究的序幕。
2013年开始产业界真正高强度深度介入。很多标志性的事件,比如说,2013年3月Hinton受聘于Google(包括Google收购其3人初创企业DNNresearch)。2013年12月9日LeCun获邀受聘于Facebook,创建并执掌Facebook的人工智能研究院。2014年1月Google以5亿多美元收购Demis Hassabis的人工智能创业公司DeepMind,2年后该公司推出了引起全社会高度关注的AlphaGo。2014年5月吴恩达受聘于百度,担任百度首席科学家等。
大数据驱动下感知智能产业的框架结构:一是应用层,也就是人工智能+细分领域,比如说无人驾驶、机器视觉或者语音识别;二是技术层,涉及模型/算法,开源代码;三是基础层,就是大数据,计算引擎/深度学习芯片这两点支撑。深度学习的市场图谱,包括四个方面:技术巨头,开源代码、大学研究,还有半导体公司——做芯片的,主要是做计算引擎。
什么是大数据?我就说一个观点。我们说大数据通常体量巨大,一般不能用常规的统计学与平稳随机过程方法来处理,因为已经不满足i.i.d独立同分布假设了。而且通常只关注整体的关联关系,而不是因果关系。从这个角度来说,现在很多所谓的大数据分析都是炒概念,其实就是常规的统计分析或者说数据挖掘,不是真正含义上的大数据分析。

真正意义上的大数据分析是什么呢?四个V特别重要,数据体量巨大,从TB级别上升到PB级别;数据类型众多;价值密度低,但商业价值高,也就是数据中大量都是垃圾,垃圾里面找金矿,很少很少,去找这个东西,这个是不能用传统方法处理的,因为大部分是非结构化和半结构化数据。事实上,结构化数据用传统数据挖掘手段就可以处理,现在很多人其实干的是这件事情。

对深度学习来说有很多开源代码框架和工具集,比如谷歌的TensorFlow,加州伯克利的Caffe,Bengio的Theano,Facebook的Torch,微软的CNTK,都开源了,目的就是为了形成一个人工智能产业生态。

ImageNet有1500多万张照片,还有Caltech-101,Caltech-256,CIFAR-10,CIFAR-100,MNIST,US-PS,SVHN,还有人脸识别库LFW等等,这些都是公开的,而且公开的数据集也逐渐增多,但它们是属于研究性质的。
真正有价值的私有大数据,其重要性如同原油一样属于战略资源,被跨国企业拥有和贪婪追求,这个重要性特别大,国内外的差距在不断加大。

我们知道,深度卷积神经网络采集与喂食的大数据越多,越能获得更好的直觉模拟。现在需要更大的数据,这个模型真正的进展,数据越多越好,这个是以前完全不能想象的事情。举个例子,Google的无人驾驶汽车它的总行驶里程已超过241万km,还有特斯拉六个月就采集了超过7500万km的大数据,每天都在大量采集数据。

对算法公司来讲,无论是采用以前的传统计算机视觉还是现在的深度学习方法,企业最大的优势之一,就是它拥有的大数据优势,例如做ADAS产品的以色列标杆企业Mobileye。既然要做大数据,就要对它进行清洗和标签。为此一定要选择一个特定的应用场景,或者说一定要做一个非常细的划分,垂直领域里面还要有细分领域,这样才有可能得到各种工况、各种情形下的完整大数据,才可以进行标签等等。

在移动互联网时代,大数据的采集可以采用“众集”的方法,标签可以采取“众包”的方法,比如说现在Google有54辆车,已经开始考虑到大数据中潮湿情况怎么办,多雨情况怎么办,还有高温、多尘等等,商业化进程不断推进。

目前使用的完全监督学习的深度卷积神经网络有一个缺点,要求配合使用大数据。换句话说,要认识飞机,必须将全世界所有飞机的照片都给他看,包括不同气候条件下,不同时间段,不同地方与背景、姿态等等,都要给它看;做无人驾驶则必须要考虑到各种天气、各种道路、各种时间段的大数据等等。这是现在这个方法的缺点。人可不是这么干的。人要认识一个东西很简单,要他看两、三架飞机他就把所有的飞机都认得了。这就是小样本学习或者说是“举一反三”。

在大数据和计算引擎的驱动下,基于深度学习方法的视觉物体识别能力,在许多Benchmark评测中,正在达到或超过人类的水平,语音识别再过2-5年也能达到人的水平,文本理解也比过去飞速进步了许多,许多确实可以进行工程产品的开发了。
我们举几个例子,2012年以后深度学习成为视觉物体识别的主流方法,2014年以来,又成为人脸识别的主流方法;同时大数据成为性能提升的关键。在ILSVRC 比赛中,从2013年开始就再也没有传统机器视觉方法了,全部是深度学习方法;就这个问题,人的水平是5.1%,微软去年初的4.94%第一次超过人类的水平,去年底该比赛的冠军也是微软,错误率降低为3.57%,目前全世界最好的记录是Google的3.08%,都是企业取得的成绩,这种趋势非常明显,因为这些科技巨头才拥有高效的研发团队和计算资源。

人脸识别也是这么一个故事。针对LFM人脸识别数据集,深度CNN超过了人类的识别能力,香港中文大学的汤晓鸥团队第一次超过了人类97.53%的正确率。百度现在做的最好,99.77%,第二名是腾讯的优图,99.65%,第三是谷歌的99.63%,已经超过人不少了。

至于基于深度学习的视觉物体检测与定位,目前也可以做到像素水平的分割。例如,这是长颈鹿、斑马,进行像素水平的物体分割,再分类识别;分类做的很好了,比人做的还好。

还有一个标志性结果就是把深度卷积神经网络与再励学习结合起来,应用于神经动态规划问题。AlphaGo学术上就叫神经动态规划问题,这个问题很多年以前就有研究。现在唯一的区别就是有了大数据,有了深度卷积神经网络,所以叫深度再励学习。其实在AlphaGo之前,在去年2月份,Google的DeepMind就有了深度再励学习的结果,发表在《自然》杂志上,只不过没有引起那么大的社会关注。利用深度再励学习发展的深度Q-网络,用于玩Atari像素游戏。49种游戏里面,不是靠编程,而是靠学习的方法去建立深度Q-网络;这49种游戏,包括太空入侵者、功夫大师等等,学49种游戏,一个职业选手在那玩,它就在边上学,看屏幕上的像素和评分,输出是一个虚拟的游戏操纵杆;看像素怎么运动,打多少分?学完以后49种游戏里面,29种超过职业选手水平;这条线是人类水平,假设是100分“智商”,计算机的评分最高达到2500多,比人还玩得好很多,它完全通过学习的方法,这是与IBM深蓝不同的。AlphaGo这个也是发表在《自然》上,也是封面论文。这个事情我就不说了,因为全社会都在热烈讨论。把人类战胜了,而且以后看起来人类也很难再战胜它,因为它可以学习,每天都在学,很可怕。

总之,深度卷积神经网络在量级上开始与生物神经系统,比如说皮层上的功能柱接近了。已经有几十万个神经元,训练样本几亿、几十亿,未来可能还能达到上百亿的大数据,这个需要很强的计算硬件支撑。神经网络的突触连接权最多已达到10亿,微软的ResNet网络,深度为152层,甚至可以做到1000层;2万多种物体都可以识别出来,狗、猫都能认出来,叫出名字来,以后可以有更多种类的物体可以被识别,实现更宽垂直领域的通用人工智能。

现在看来,神经网络的发展历经“三起两落”,1970年、2000年前后是寒冬,什么事都做不了,在人工智能领域中被边缘化。现在一枝独秀,应该说主要是时代进步了,因为互联网时代我们才有可能采集大数据,然后采用“众包”的方法做标签。另外就是由于游戏的超速发展出现了强有力的GPU,采用GPU分布式集群系统后,才能为深度学习提供超强的计算硬件引擎。

深度卷积神经网络为什么那么好呢?因为它首先是一种仿生模型。但是必须指出,深度卷积神经网络,现在的方法是完全监督学习的,这个跟人脑是不相同的。人的大脑视觉皮层有两个通路,一个是腹侧通路管分类的,一个背侧通路是管定位的,应该说它们的学习是半监督的,LGN、V1等可塑性几乎没有。

另外,美国MIT麦戈文脑科学研究所用电极阵列完成的猕猴高级视皮层实验表明,生物系统的V4、IT皮层的特征映射图,与深度卷积神经网络非常接近,令人叹为观止。总之,作为一种感知智能模型,深度卷积神经网络迄今最好地模拟了生物视觉通路,在大数据和深度学习芯片的强力支撑下,具有强大的自动分层特征学习能力,在上述列举的细分领域超过了人类的识别能力。大数据下的感知智能的发展为环境理解与自然人机交流、人机协作和人机共融的进步,带来了历史性的机遇与挑战。

“大数据+深度CNN”,这是实实在在的进步,确实可以鼓吹大家着手进行以完全监督深度CNN为核心的人工智能产品开发了。它具有的达到人类水平的分类识别能力,前面已经说了很多例子了,比如谷歌DeepMind的AlphaGo与DQN,谷歌ImageNet,IBM Watson,微软同声传译,百度IDL集成模型(人脸识别)和Deep Speech 2(语音识别)等等,都见证了深度CNN的强大能力,极有可能催生一场弱人工智能革命,重塑很多产业。




 

相关新闻

人工智能前沿技术与产业发展趋势(四)
人工智能前沿技术与产业发展趋势(三)
人工智能前沿技术与产业发展趋势(一)
人工智能给产业发展将带来什么惊喜?
全球经济危机与未来30年中国经济前景
发改委最新备案PE名单折射新趋势 外资本土化凶猛
楼市降价:抵制?欢迎?
生物技术制药的现状和展望

您可能对这些感兴趣  

人工智能前沿技术与产业发展趋势(四)
人工智能前沿技术与产业发展趋势(三)
人工智能前沿技术与产业发展趋势(一)
人工智能给产业发展将带来什么惊喜?
C 列举指定进程的模块
ASP、JSP、PHP 三种编程技术比较
修改U盘图标
windows 7 的上帝模式
windows 的一些快捷键 尽量不要用鼠标了
怎样去掉桌面图标阴影

题目筛选器
日期:
类型:
状态:
得分: <=
分类:
作者:
职业:
关键字:
搜索

 
 
 
  焦点事件
 
  知识体系
 
  职业列表
 
 
  最热文章
 
 
  最多引用文章
 
 
  最新文章
 
 
 
 
网站介绍 | 广告服务 | 招聘信息 | 保护隐私权 | 免责条款 | 法律顾问 | 意见反馈
版权所有 不得转载
沪ICP备 10203777 号 联系电话:021-54428255
  帮助提示    
《我的太学》是一种全新的应用,您在操作中遇到疑问或者问题,请拨打电话13564659895,15921448526。
《我的太学》