Yan LeCun眼中的深度学习与人工智能未来

Readface专栏 · 发表于 2016-4-7 11:01:01

在过去的几年，人工智能的快速发展让我们的智能手机、社交网络、搜索引擎能够相当准确地识别声音、面孔以及照片上的物体。这些巨大进步很大一部分与新一类机器学习方式，亦即深度学习出现有关。

LeCun首先提出这样一个问题，打造智能机器，应该复制大脑吗？不必要，但可以从大脑汲取灵感。大脑是一台运作高效的计算机，而人工智能系统的效率仅为其百万分之一（考虑到神经突触的复杂性）。因此，我们可以从大自然汲取灵感，但不要太多。1957年诞生的感知器是第一台学习机器，也是先辈们对生物神经学科的深刻理解和融会贯通，一个简单的带有自适性“突触性权重”的模拟神经元，感知器算法实际上是在不断“猜测”正确的权重和偏移量。

接下来，LeCun介绍了一般机器学习，监督学习，大规模机器学习。上世纪五十年代末以来，模式识别的传统模式是固定（Fixed）/工程化选取的特征（engineered features）（or固定内核） +可训练分类器。传统模式识别: 固定（Fixed）/人工特征提取（Handcrafted Feature Extractor）；主流现代的模式识别：无监督中级层面特征（Unsupervised mid-level features）；深度学习：表征具有层级性，能进行训练。深度学习，灵感源自大脑视觉皮层的信号处理：杏仁核通路具有多层级的。所谓深度，就是不止有一个非线性特征转换层级。

多层神经网络
多层神经网络的特点。多层简单单元（Multiple Layers of simple units）；每个单元计算输入加权和（Each units computes a weighted sum of its inputs)；通过非线性函数的加权和（Weighted sum is passed through a non-linear function）；学习算法改变权重（The learning algorithm changes the weights）。

典型的多层神经网络结构：线性模块（Linear Module ）， ReLU 模块 (Rectified Linear Unit) ，成本模块（ Cost Module）：平方距离（Squared Distance）以及目标函数（Objective Function ）。

通过组合模块打造一个网络。

在任何结构运行方面，他指出，任何连接图表都是允许的；任何模块都是允许的；绝大多数框架提供自动区分。

最后谈到了多层网络目标函数非凸。

CNN
一种特殊的深度学习系统类型叫卷积网络（convolutional network， ConvNet），在图像和语音识别上非常的成功。ConvNets是一种人工神经网络，其构造受到视觉皮质结构的启发。ConvNets以及其他深度学习系统的特别之处在于，能够端到端地学习整个感知过程。深度学习系统自动学习感知世界中恰当表征，作为学习过程的一部分。

架构上，CNN多加了这两层——（卷积层和pooling层），也是卷积神经网络（CNNs/ConvNets）和普通旧神经网络的主要区别。

卷积网络（vintage 1990）以及Hubel & Wiesel's 的视觉皮层结构模型。根据Hubel和Wiesel的层级模型，视觉皮层中的神经网络具有一个层级结构：LGB（外侧膝状体）→样品细胞→复杂细胞→低阶超复杂细胞→高阶超复杂细胞。低阶超复杂细胞和高阶超复杂细胞之间的神经网络具有一个和简单细胞与复杂细胞之间的网络类似的结构。在这种层状结构中，较高级别的细胞通常会有这样的倾向，即对刺激模式的更复杂的特征进行选择性响应，同时也具有一个更大的接收域，而且对刺激模式位置的移动更不敏感。因此，模型中就引入了类似于层级模型的结构。

整体结构: multiple stages of Normalization Filter Bank Non-Linearity Pooling。

一些应用（脸部识别，读取支票，行人探测，场景解释/标签等等），以及使用CNN进行物体识别和定位，语音识别。LeCun指出，CNN（将）无处不在。

自然语言理解，FB的Q&A系统以及新型的深度学习结构，记忆增强网络
记忆增强网络超越了感知，具有推理（reasoning）、attention和事实记忆（factual memory）的能力。深度学习系统正被用于越来越多的应用领域，比如，图片和视频管理、内容过滤、医学成像分析、面部识别、自动驾驶汽车、机器人知觉和控制、语音识别、自然语言理解和语言翻译。

阻碍人工智能发展的障碍是什么
四个方面：对深度学习的理论误解；将表征/深度学习与推理、计划以及记忆等结合起来；将监督学习，无监督学习以及加强学习结合成单一算法；进行无监督学习的有效方式。

学习的三种类型：
加强/无监督/监督学习，以及各自进行预测所需信息量，其中，无监督学习是人工智能领域的暗物质（dark matter)。它只是一种学习形式，能够提供足够信息来训练有数以亿计参数的大型神经网络。但是，我们并不知道如何去进行无监督学习（甚至去表达它），为什么这么难？因为世界就是不可预测的。

机器学习会和人类智能大不同

人和动物通过演进形成了几个基本的行为驱动力。人类相互恶行相加，绝大多数都是这些基本驱动所致。但是，人工智能没有这些基本驱动力，只能由我们植入。很难想象一个没有这些基本驱动力的智能体。那么，如何做到呢？打造几个基础、不变，硬连接（hardwired）的驱动力。人类训练会将回报与行为联系起来，让人快乐和舒服。这就是孩子（和社会性动物）学习社会行为的方式。那么，我们能够防止不安全的人工智能吗？可以，就像我们防止不安全的飞机和汽车。人类级别的人工智能的出现是一个渐进的过程，不会孤立出现。前进的人工智能现在是科学问题，不是技术问题。单个突破会被立刻复制。绝大多数好想法都来自学术界。区分自动化和智能，很重要。

结论
深度学习正让一波新的应用成为可能。如今，深度学习和CNN正被广泛采用。我们需要硬件和软件来嵌入应用。但是，我们离模仿人类动物的学习能力还很远。我们忽略了一个关键因素，预测性（或无监督）学习：即机器模拟环境的能力，通过对环境的观察和与之互动来预测未来和理解世界如何运作的机理。现在，这是一个非常活跃的研究主题。