范文_深度学习研究概述

《科技创新导报》

级别：国家级分类：科技周期：旬刊

主管单位：中国航天科技集团

主办单位：中国宇航出版社；北京合作创新国际科技服务中心

国内刊号：CN 11-5640/N

国际刊号：ISSN 1674-098X

收稿编辑：QQ /电话2880067970 / 0531-85701017

投稿邮箱：kejitougao@163.com

期刊名称	（*）投稿期刊名称
文章标题	（*）投稿论文的题目
作者姓名	（*）只需填写通讯作者
作者电话	（*）方便编辑及时沟通
作者邮箱	（*）方便编辑做详细用稿答复
上传稿件	（*）限word文件
投稿附言	有需要交代的话，填写此处。

期刊信息

期刊名称：科技创新导报

主编：戴敦文

出版周期：旬刊

出版地区：北京市

定价：20.00元

收录：知网、万方、维普、龙源

社址：北京市朝阳区百子湾西里金海商富中心北京市阜城路14号

邮政编码：100048

范文-深度学习研究概述-科技创新导报

深度学习研究概述

聂振海1 贾丹2

1.长春工程学院计算机技术与工程学院 1300012

2.长春经济技术开发区财务结算中心 1300012

摘要：在语音识别，图像识别，自然语言处理，深度学习扩展了机器学习研究领域，并推动人工智能的迅速发展。

机器学习是人工智能的一个重要分支，通过程序算法，从大量的训练数据集中无监督学习，不断的归纳总结并对新的数据样本能够智能识别和预测。基于“深度神经网络”（DNN，深层神经网络）的机器学习模型，已在语音识别，图像识别和自然语言处理领域取得突破。 DNN的关键技术是深度学习（DL，Deep learning）。

上世纪80年代末，人工神经网络反向传播算法（BP，反向传播）发明，极大地扩展了机器学习的研究基础，继而推进基于统计模型的机器学习范畴。 BP算法允许使用的人工神经网络模型，从大量的统计规律，预测未知事件的训练样本的学习。根据对比的实验结果，基于人工规则的统计模型机器学习方法，结果表明具有相对优越性。基于人工神经网络BP算法，虽然被称为多层感知器（多层感知器），但仍然是一个浅层的模型，只具有一个隐藏层节点。 90年代以来，众多基于浅层模型的机器学习算法应运而生，如支持向量机（SVM），Boosting，最大熵法（LR）等。这些模型的结构通常只包含一个隐层节点（SVM，Boosting），或者不隐藏节点（LR）。在学术研究和工业应用中证明：这些机器学习模型是一个巨大的成功。自2000年以来，随着IT行业的蓬勃发展，智能分析和大数据预测的技术在在互联网领域呈现出巨大的市场需求，基于浅层模型的机器学习算法获得不断应用推广。如移动应用平台的搜索广告系统：谷歌的AdWords广告的点击率估算，网络搜索排序（如雅虎和Bing搜索引擎），垃圾邮件过滤系统，社交媒体上的推荐系统内容推广。

传统的机器学习模式是，通过监督学习和半监督学习，人工控制采样数据集的特征，浅层机器学习模型主要负责特征分类或预测。当基于统计模型的特征提取时，特征提取的好坏将成为决定整个系统性能优劣的关键因素。深度学习对机器学习模型和大量的训练数据的本质不同在于，即通过有许多隐藏的多层神经网络中无监督学习出更多隐含的特征，从而提高对数据集的分类或预测的准确性。深度学习模式不同于传统的浅层学习模型：1.机器模型结构往往多于1层，通常有五层并隐含多层节点; 2.强调无监督学习，通过逐层功能的重要性变换映射出样品从原来特征空间改造成一个新的特征空间表示，使得分类或预测变得容易实现。利用大数据的特点来机器学习，阐明了基于深度学习的方法对比基于人工特征提取规则的传统浅层机器学习方法，更能深刻揭示出数据背后所隐含的丰富信息。

支持深度学习的基础，是因为人类大脑系统确实含有丰富的层次。 2006年，多伦多大学的杰弗里•辛顿教授发表了一篇文章，介绍了传统机器学习的突破，即深度学习。1.基于人工神经网络隐层的学习能力优异的特性，无监督学习更能深刻获取大数据的隐含信息，从而方便地对数据进行可视化或分类处理。 2.深度学习的难度可以通过无监督学习“逐层初始化”有效地克服。谷歌，Facebook等大数据顶尖的IT企业现在广泛深入的进入深度学习研究领域，在大数据时代，更复杂，更强大的模型往往更深刻地揭示出丰富的数据信息内涵，并对未来或未知事件做出更准确的预测。

语音识别

在语音识别领域，深度学习面临的问题是海量数据信息处理问题。在其声学建模部分，它通常面对十亿级别以上的训练样本。谷歌语音识别的研究小组发现，比对训练DNN预测误差和测试大致相等的样本之后，预测误差对训练样本的通常模式将显著小于测试样品。由于大量的数据包含了丰富的信息层面，DNN大容量复杂的模型也是欠拟合状态。

传统的语音识别系统，基于统计概率模型对每个建模单元描述时，大多采用高斯混合模型（GMM）。这种模式适用于大量数据的训练，成熟的区分度技术支持。但是高斯混合模型本质上是一种浅层网络建模，不能完全描述出空间分布特性的状态。第二，GMM建模特征尺寸通常为几十维，不能充分地描述特征之间的相关性。最后，GMM模型本质上是一种可能性的概率模型，虽然区分度训练可以模拟并将一般模式类区分开来，但效果一般。基于神经网络的语音识别系统深入彻底改变了原来的语音识别技术框架。基于神经网络的深度可以充分地描述特征之间的相关性，它将语音设有多个连续的帧，多帧并在一起，构成一个高维特征，神经网络的最终深度可用于模拟高维特征的训练。由于使用人脑的多层神经网络的仿真结果的深度，可以进行逐步信息特征提取，最终形成理想模式的分类特征。其具体使用方法如下：在实际解码处理中，使用传统的统计语言模型，解码器使用常规的动态WFST译码器，采用传统的HMM声学模型的模型语音模型。当声音输出分布模型计算，完全与神经网络的后验概率乘以先验概率后输出，以取代传统的HMM模型输出GMM的可能性概率。 2011年，使用DNN技术的微软语音识别研究组，相对于传统的GMM语音识别系统，执行一个语音模型的语音识别系统，其相对误差的识别率下降25％，是语音识别领域的重大突破。

图像识别

1989年，纽约大学教授扬•LeCun公布的卷积神经网络-CNN的研究。 CNN具有一个卷积神经网络结构与深度，通常至少两个非线性卷积层可训练，两个非线性固定卷积层（池层）和一个完整的连接层，总共至少5个隐藏层。 CNN的结构的灵感来自于著名的胡贝尔 - 威塞尔生物视觉模型，特别是模拟视皮层简单细胞V1和V2复杂的细胞行为层。一段时间以来，CNN虽然对规模小的问题有比较好的效果，但对大规模高像素的图像识别，如高清晰度的自然图像内容的理解效果并不理想。 2012年，杰弗里•辛顿在著名的ImageNet问题，利用更深层次的CNN获得出更好的结果，并将错误率的评测从26％降低到15％。辛顿的模型，该输入图像的像素是不介入任何人工特征提取干预。识别效率变得优异的部分原因是因为优化的算法，从而防止过度拟合技术，同时受益于硬件带来GPU计算能力的提升和更多的训练数据集。深入学习将取代“人工特点+机器学习”的传统模型，逐渐成为图像识别的主流方法。

自然语言处理

深度学习的另一个应用领域是自然语言处理（NLP）。加拿大蒙特利尔大学Yoshua Bengio教授，提议将词映射到一个矢量表示空间用Embedding方法，然后用非线性神经网络模型来表示。在2008年，工业界成功使用结构化和多维卷积解决嵌入词性标注，组块，命名实体识别，语义角色标注四种典型的NLP问题。相较于声音和图像，语言是人类独有的创造性成果，全部符号的生成通过人类的大脑处理系统，但人工神经网络模拟人脑的结构，在处理自然语言没有显示出明显的优势。深度学习在自然语言处理方面广泛的扩展空间。

在大数据时代，深度学习已经推进机器学习研究的快速发展，引起学术界和工业界的充分重视。在实际应用中，深度学习已经在语音识别，图像识别与自然语言处理方面取得了显著的进步，从而促进人工智能的不断发展。