认知智能前沿研究
第三个讲一下认知智能前沿研究。这可能意义更大,但目前不适合进行工程应用。我们前面说过必须要用大数据把所有飞机给深度监督学习模型看,它才会认识飞机。我们人是小样本学习或者叫“举一反三”,看到两三辆汽车就知道这是什么东西了。
“大数据+深度CNN”的感知智能的方法,我们叫“举三反一”,或者叫数据驱动的方法。但是感知智能的进步,我觉得这个是实现智能模拟的一个基石。我们人为什么会有智能呢?我们一张开眼,眼前的一切物体都分类了,没有这种“模式”识别能力就谈不上进一步的认知智能。
不过需要提醒的是,现在还是前沿研究阶段,未到做产品研发阶段。例如高考人工智能机器人、智能金融、智能医疗、智能新闻写作等等。还有IBM的沃森医生等认知商业。还有想法向量,更多种类的物体识别,比如说这是狗,各种各样的狗我都能认识,哪怕有遮挡,姿态发生变化,不同背景等。然后再把各种“概念”或想法向量联系起来,也是通过学习的方法进行时空递归,进行长短期记忆和与记忆的交互式学习等,不是通过编程。再加上注意力机制、记忆整合、通道整合等,还包括知识蒸馏、知识迁移。现在比较火的还有长短期记忆网络(LSTM),这个网络是端到端的序列学习,它里面也有非常好的模拟,例如具有学习能力的神经元门控机制的模拟。
学习方法有三种:监督学习、再励学习和无监督学习。再励学习(reinforcement learning)也称强化学习或称增强学习,“再励”这个术语最初来自于心理学。你做出决策后跟环境交互,最后的结局你失败了或成功了,失败就要受惩罚,成功就要受奖励。人和动物的局部行为学习方式,就是这样的。这方面的研究很早就有了。
现在看来,深度卷积神经网和再励学习,这两个是成功的,它们的结合更成功。深度监督学习,大数据一定要有标签,选定细分领域这是有可能的,如果领域选大之后很难做到。AlphaGo有深度监督学习,也有深度再励学习,就是自己跟自己对弈学习,自己跟环境交互得到惩罚或者奖励。这样通过与环境反复的交互,重演“长记性”。
最重要的是深度无监督学习,这个现在还没有成功,这个也是大家最感兴趣的,更像人类“举一反三”的学习方式。如果这个突破以后,我们也许就不需要那么多的大数据了。大数据成本太高,而且很多情况下得不到。我们很多技巧性或过程性的东西靠经验或与记忆进行交互式学习,这种经验学习就是深度无监督学习研究的内容。
深度无监督学习是人工智能的“黑科技”。一个人看几辆火车,你从语义上告诉他这个东西名字叫火车,他就知道了,他就马上联系起来,全世界的火车他都认识了。实际上,你不会告诉他火车是什么什么物理特性,是什么什么外部描述,你告诉他火车这个“名称”就行了,所以它首先要进行无监督学习,然后才是跟语义结合起来,从而轻松地获得技巧和常识。
不幸的是,这些研究结果都没有像深度卷积神经网络一样,具有一定的脑科学基础。
深度无监督学习、深度递归神经网络,包括长短期记忆网络(LSTM),在脑科学上都没有理论与实验依据,所以很难说短时间内会出现强人工智能。我想一定是这样的趋势,先做弱人工智能,做图象识别、语音识别或者文本理解,再逐步把垂直领域扩大,变成一个通用人工智能,再扩大到全方位,此时什么能力都比人强了,它可以看懂、听懂,同时还可以替你做决策,替你做情感分析与交流,完全代替人,这种强人工智能,现在看来相当长一段时间之内完全不太可能实现。
另外,关于人工智能是否能让机器拥有意识?其实人脑是有奖赏机制或有这样的功能模块的。你做一件事情感到很愉悦、很幸福、很成功,这就是一个评价机制,这部分我就不展开了。总之,大脑里肯定是没有编程、没有符号、没有灵魂的,神经信息的载体是神经元的发放序列,同时它是通过学习而不是编程获得的感知与认知能力。