深度学习的实现与发展
摘 要感知器相关概念是Frank Rosenblatt提出的人工神经网络的基本理论框架。在感知器的理論前提下,结合反向传播等算法,机器学习达到了有监督的浅层学习水平。过去的三十年里,得益于计算机性能的提高和Geoffrey Hinton,Yann LeCun等研究者的贡献,深度神经网络所涉及的几种学习思想和技术如卷积神经网络、受限玻尔兹曼机、自动编码器等大幅度提高了机器的学习效率。如今,深度学习的研究成果已经成功应用在语言识别、目标识别、神经语言程序学、人工智能等领域,具有巨大的发展潜力和社会价值。深度学习有向无监督的学习和复杂数据模型分析等方面发展的趋势。
【关键词】深度学习 机器学习 卷积神经网络 反向传播算法 玻尔兹曼机
1 前言
深度学习(Deep Learning)[1]是建立在计算机神经网络理论和机器学习理论上的系统科学,它使用建立在复杂的机器结构上的多处理层,结合非线性转换方法算法,对高层复杂数据模型进行抽象。
如今深度学习的研究成果已成功应用于语音识别、模式识别、目标识别、自然语言编程、人机对弈、人工智能[2]、智慧城市等领域。1997年IBM公司研发的人机对弈系统“深蓝”(Deep Blue)击败国际象棋世界冠军卡斯帕罗夫(Garry Kasparov)[3],从此深度学习和人工智能开始进入人们的视野。2011年,该公司的“华生”(Watson)超级电脑在综艺节目“危险边缘”(Jeopardy)中战胜最高奖金得主和连胜纪录保持者,再一次引发社会对机器智能的关注。2016年,在被认为是计算机无法胜任的中国围棋的棋牌游戏中,Google“DeepMind”公司研发的“AlphaGo”成功击败世界著名围棋选手李世石,在领域内引起了轩然大波。可见深度学习科学离人类社会并不遥远。
2 深度学习的基础和实现
在深度学习科学诞生和发展的60年历程中,不断有更加先进的学习模式和算法被使用。后文的业界调研综述中所介绍的3种学习方法和神经网络如今已经被广泛使用或演化,这些研究成果都有着划时代的意义,对深度学习发展产生了深远的影响。
2.1 深度学习的思想基础-误差逆传播算法(BP算法)
BP神经网络(如图1)是1986年Rumelhart和McClelland[4]等人提出的,是一种按误差逆传播算法训练的多层前馈神经网络,它存储大量映射模式关系,无需揭示其映射方程。BP算法的核心思想是采用最速下降法(梯度下降法),通过反向传播调试网络的权值和阈值,使得其误差平方和最小。
通过数学推导,得出误差逆传播算法的主要特点是:连接权重与学习模式误差成比例变化。
BP网络所提供的BP算法,有着一定的非线性映射能力、多层前馈网的泛化能力和样本容错能力。但是由于其学习速率是固定的,网络的收敛速度很慢,对于复杂问题难以高效解决。其次,BP算法可以使权值收敛到某个值,但是不能保证其为误差平面的最小值,因为梯度下降方法所求的是局部最小值。同时,隐含层和单元选择没有固定的要求,因此会产生一定的冗余。
2.2 图像处理领域的里程碑-卷积神经网络
20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现网络结构可以降低反馈神经网络的复杂性,进而提出了卷积神经网络的概念。由于其避免了对图像的前期预处理,可以直接输入原始图像,CNN已经成为神经网络的标志性代表之一。
CNN的基本结构[5]有多种解释,本文的介绍包括两层:其一为特征提取层,神经元的输入层与前一层的局部连接域相连从而提取特征,提取完毕之后每个特征也会相互确立稳定的关系。其二是特征映射层,计算层由特征映射层组成,每个特征映射是一个平面,平面上所有神经元共享权值。共享权值的思想也是CNN的独特之处。这种双层特征提取结构有效提高了特征的分辨率。
CNN的首个实现是日本科学家K.Fukushima于1980年提出的“新识别机”,之后Alexander和Taylor提出的“改进认知机”避免了耗时的误差反向传播,进一步提升了CNN的实用价值。
2.3 深度神经网络的实现基础-玻尔兹曼机和受限玻尔兹曼机
如图2,玻尔兹曼机[6]是Hinton和Sejnowski提出的随机递归神经网络,也可以看做是随机的Hopfield网络,因样本分布遵循玻尔兹曼分布而命名为BM。
如图3,RBM是一个双向概率图模型,只有可见层节点与隐层节点之间有连接权,可见层节点与可见层节点与隐层节点之间没有连接权。
可见RBM的结构比BM的网络拓扑结构更简单,因为各层内部神经元之间没有连接,很大程度上提高了网络训练与学习的效率。RBM结构相比BM显得简单,因此在构造深度置信网络(DBN)时都是先构造出RBM,再将某些RBM堆栈起来得到DBN。
3 发展趋势和挑战
3.1 数据的表示和模型的选择还有进步空间
毋庸置疑,数据是机器学习的基本要素,也是神经输入网进行反馈的源头。数据的表示和建模对深度学习的性能有着很大的影响。目前关于数据表示,有局部表示、分布表示和稀疏分布表示。那么是否有新的表示思路来更新数据模型,如加入不同的稀疏惩罚对RBM和EA训练进行改进。在能量函数方面,如果不增加隐藏单元的数量,只利用非参数形式的能量函数,是否能扩充RBM的容量。这些都是需要进一步研究的问题。
在学习模型上,除了CNN、DBN和EA等成型的网络之外,是否还存在其他的训练学习模型。为了挖掘DBN的优势,结合其结构特点,可以提出新颖的学习模型。比如参考基因网络、人体免疫网络、社会人际网络等等。
3.2 特征提取方法是算法设计的核心
高斯伯努利模型是特征模型的范例,除此之外是否还有其他成功的模型可以用来提取数据特征。未来的特征算法研究将主要集中在自适应的特征提取和自动编码机制等方面。在提取特征的逻辑层方面,除了树结构和图结构,还有哪些泛化结构可以高效抓取特征进行分析和传递。尽管当前普遍的预训练和判别微调方法对许多语言识别上都有不错的效果,但在某些语言识别中却不尽如人意。特征提取算法仍然需要进一步地改进和提升,以应对大数据的冲击,排除信息安全方面的隐患。
3.3 学习可控性是安全性的前提
学习可控性是机器学习需要关注的一个问题,即到底赋予机器多少权限和思维能力。在機器学习的研究阶段,研究者始终在寻求一种赋予机器思维的能力,而基本上并不关心这些思维训练之间的互相作用。在阿西莫夫的著名科幻小说《我,机器人》(“I,Robot”)[7]中,阿西莫夫定义了机器人必须遵守的三大法则,由于机器的逻辑思维能力有限,接受的数据信息也有限,难以根据不同的情况做出更加人性化的决策。在小说和电影的结尾,机器人的学习能力超越了人类的预料,其陷入了一个“为了保护人类而伤害人类”的思维黑洞。这个结局很好地体现了机器学习的最大隐患—“学习失控”。虽然如今的机器学习水平无法达到这样的程度,但是这样的设想也不是没有道理和科学依据的。在机器学习科学研究的初期,研究者必须考虑这样的因素,摒弃互相冲突和矛盾的思维模型,并且始终控制机器的学习延展力。
4 结束语
本文系统介绍了深度学习(Deep Learning)领域的相关信息。结合计算机神经网络和机器学习的相关概念,得出了“深度学习是建立在深度结构神经网络上的复杂思维模式机器学习”的认识。
本文着重介绍了深度学习的3种重要的方法:BP算法、卷积神经网络、玻尔兹曼机和受限玻尔兹曼机,之后又对深度学习的发展趋势和挑战进行了说明。为了方便读者阅读本文,笔者附上深度学习的发展历程图(如图4),仅供参考。
参考文献
[1]S.Haykin.神经网络与机器学习[M].申富饶,徐烨,郑俊等,译.第三版.北京:机械工业出版社,2011.
[2]M.Negnevitsky.人工智能:智能系统指南[M].第三版.北京:机械工业出版社,2011.
[3]吴军.浪潮之巅(上)[M].第二版.北京:人民邮电出版社,2014:15-38.
[4]E.Rumelhart,L.McClelland.Paralleldistributedprocessing[M].BradfordBook,1987.
[5]Y.LeCun.LeNet-5,convolutional neural networks [M].Retrieved,2013.
[6]Ackley,David H and Hinton,Geoffrey and Sejnowski,Terrence J.A learning algorithm for Boltzmann machines,Cognitive science(EI sevier)9(01):140-170.
[7]阿西莫夫.我,机器人(第二版)[M].北京:科学普及出版社,1983.
作者简介
骞宇澄(1996-),男,陕西省西安市人。成都市双流区四川大学软件工程专业,本科生。研究方向为机器学习。
刘昭策(1996-),男,山西省运城市人。成都市双流区四川大学软件工程专业,本科生。
作者单位
四川大学 四川省成都市 610207