基于深度学习的图像识别算法研究分析

/ 4

基于深度学习的图像识别算法研究分析



江春 1,麦志坚 1,罗亦言 2,邱素贞 3 ,李湘棱 1



( 1.南宁学院数字经济学院,南宁 530200; 2.南宁学院信息化处,南宁 530200; 3.南宁学院人工智能学院,南宁 530200;)


Jiang Chun, Mai Zhijian,Luo Yiyan Qiu Suhen,

(Nanning University, Guangxi Nanning, 530200)


第一作者:江春(1984-),男,广东廉江人,研究生,副教授,主要从事计算机应用、信息管理系统开发等研究。

通讯作者:邱素贞(1982-),女,广西合浦人,硕士研究生,副教授,主要研究方向为计算机技术、信息化教育。

第二作者:麦志坚(1982-),男,汉族,广西南宁人,硕士研究生,副教授,主要从事电子商务、数字经济、计算机应用研究



基金资助:南宁学院教授培育工程《基于深度学习和图形定位算法研究与应用》 (2021JSGC08);南宁学院教授培育工程《基于深度学习的表情识别算法在自闭症谱系障碍治疗中的应用研究》(2021JSGC03);2022年度广西高校中青年教师科研基础能力提升项目(2022KY1789);2021年度广西高校中青年教师科研基础能力提升项目(2021KY1802)。




摘要:随着智能化、科技化、信息化时代的到来,计算机的算法应用已经遍布各个领域。本文针对机器学习领域范畴之中的深度学习,通过对其基本理论的实践应用,研究其对人类有着特殊功能与作用的图像识别等技术。深度学习在图像识别方面的应用方面技术优势明显。传统的方法不能有效满足当前图像识别要求,因此,深度学习是图像识别研究的热点。基于此,文章论述了深度学习的基本思想,探讨了深度学习常用模型,如深度信念网络、卷积神经网络算法原理。

关键词:深度学习;图像识别算法;深度神经网络;卷积神经网络


大数据时代图像数据规模快速增长,如何从海量图像数据中快速准确地识别出有价值的图像数据成为迫切需要解决的问题。基于深度学习借助深度神经网络构建图像识别算法,通过分层方式采集图像的特征信息,自动学习图像的特征信息,从而高效识别图像。在此背景下,基于深度学习的图像识别算法不断出现,其中具有代表性的算法模型包括深度信念网络、卷积神经网络、循环神经网络这三种。而卷积神经网络是目前基于深度学习的最为理想的算法模型,文章重点论述了基于深度学习的图像识别算法。



1、深度学习的内容

作为仿真人脑的计算方式,深度学习的“深度”是其最大特点,这里的深度即包含多个层次的隐含层,深度学习并非传统的I/O关系而是端对端的关系。如含有n层隐含层的深层网络S,其各个隐含层可以用表示,其中输入为I,输出为O,系统分布式可用,表示,其中表示一种输入形式,当输入I为0时,说明输入I经过逐层变换后,输入输出之间的信息没有丢失,表示每一个隐含层的信息量相等,但这里输入输出理论上相等,但在时间中往往更能会丢失,因此需要持续修正系统参数,降输入输出之间的误差降到最低,以获取I的层次特征表示:通过多层堆叠将上层输出设为下层输入,分级表达数据,通过调节参数减少误差,这是深度学习的基本思想。

1.1 深度学习原理

深度学习是机器学习的方法之一。其概念是由Hinton等人于2006年提出的,它起源于人类对于人工神经网络的研究。深度学习的原理简单来说就是通过组合简单的特征,形成其它更加复杂、抽象、无法明确限定的特征。它是一种基于对数据进行表征的学习方法。深度学习的具体学习过程可以理解为,计算机通过深度学习网络层级之间的参数迭代更新,使训练结果无限逼近真实值,从而达到训练目标。学习的主要途径就是通过梯度下降,在学习的过程中使用统计学知识进行算法优化。目前,深度学习已在计算机视觉,自动控制,自然语言处理和自动驾驶等领域得到广泛应用。

1.2 深度学习的发展

我们将机器学习的发展历程大致分为两个阶段,一个是浅层学习阶段另一个就是深度学习阶段。由于浅层学习无法解决那些结构更加抽象、無无法形式化描述的问题。因此,促进了我们对深度学习算法的探究。

深度学习的蓬勃发展,给很多领域诸带来了积极影响。例如,对于卷积神经网络的应用,就对图像识别技术的发展起到了促进的作用。此外,深度学习的引入也对提升语音识别的正确率做出巨大的贡献。同时,它在车辆检测、交通标志识别上也取得了重大成就,甚至在交通标志分类上超越了人类。

1.3 深度学习的展望

现如今深度学习飞速发展并被广泛应用于各个领域,但是我们对于深度学习的研究仍处于发展阶段,还存在许多问题需要我们进一步解决。比如在模型结构上,人脑是一个立体结构,它同时兼顾着平面层的分布以及纵向的排列,但是当前我们运用的网络结构只有平面结构。因此为了进一步研究深度学习,我们势必要找到一种更加空间化的模型结构。另外,我们希望能在提升训练精度的情况下保持速度,但是由于深度学习的结构网络复杂,模型结构层次多,在海量数据的影响下,训练速度很容易受到影响。所以如何在保证训练精度的前提下仍能提高速度,仍需要我们更深层的研究。



2、图像识别的含义、作用、优缺点

2.1 图像识别的含义

图像识别技术是应用深度学习算法的一种实践应用,主要用于智能手机中的人脸识别技术、银行ATM机的人脸识别技术等。在日常生活中,图像识别应用非常广泛,无论是在驾驶证考试照刷课时过程中的人脸拍照,还是智能手机中的指纹解锁,都属于图像识别领域。图像识别技术是使用卷积算法的应用领域,卷积算法是对数据的各个具体的特征进行的运算,在大脑神经的思考与运算中,通过对神经的具体特征进行了解与掌握来运行算法。理解图像识别的具体含义的关键为图像的具体模式识别,是指模式的具体识别技术在图像研究领域的具体应用,是对已经了解并且输入的图像信息进行筛选、分析,识别模型,从而建立新的图像模型的过程。图像识别的方法有贝叶斯分类法、模板匹配法等,贝叶斯分类法是指通过具体的特征与模板特征进行比较,观察两种特征是否吻合,若完全吻合,算法正确,可以得知具体特征的根本属性。但由于贝叶斯分类法中会有一个假象值,假象值可能与其真实值是不匹配,针对这一弊端,提出了模板匹配法,这一方法研究某一物质的特定特征具体位于什么地方,通过特征进行相应的模板匹配,主要研究特征位于图像的那个部位,进而匹配它。

无论是对图像识别技术方法的探究还是对图像识别原理的探究,图像识别都是基于深度学习理论的实践。通过图像识别技术,能够更为有效地解决日常生活中图像鉴定的难题,同时,能够为人们的日常生活提供便利。

2.2图像识别的作用

图像识别的作用上文提到诸多,通过图像的匹配或者图像的识别满足日常生活的需求与日常的生活需要,主要通过图像识别进行大数据的匹配,深度学习主要是就大脑神经网络的运作过程与思考过程进行的外部模拟。图像识别就是利用此项技术进行的技术应用,通过图像识别技术可以帮助大众满足日常生活需要,快捷方便,省时省力。如在超市中的人脸扫描可以快速确认顾客的样貌,方便顾客省时省力进行结账;又比如在驾照考试中的人脸识别,通过对五官主要特征进行识别,可以有效验证参加考试人员的身份。图像识别在日常生活中的应用颇多,这主要依靠的是图像识别的识别与监督技术。图像识别技术在日常生活中能够起到监督作用,如监督人员的变化以及人员行动过程中的变化。此外,图像识别技术还可具有检测作用,像在医院中使用的扫描机,其作用就是探寻病人主要的生病部位及部位受伤情况,扫描机主要是对其进行检测与检查。图像识别技术有着超乎于人眼所看不到的功能与作用,为人们生活提供诸多便利。

综上所述,图像识别技术有着监测、检查甚至是监督识别的作用,在人们的日常生活中,越来越离不开图像识别技术,甚至,在生活的各个角落,都存在着图像识别技术的身影。图像识别技术除在日常生活中应用广泛以外,在工程施工、醫疗救援、机械维修,甚至是软件编程过程中都有着巧妙的应用。举例来说,图像识别技术应用于工程施工中,主要针对的是工程的施工现状及施工场地的监测与检查,尤其是当施工场地人眼无法看到时,建筑场地有着人为不能轻易踏入的场所,其应用价值更加凸显;图像识别技术在医疗救援中的应用更为广泛,主要用于机器的扫描,探求病人内部的身体情况;在软件编程过程中,主要用于软件实施过程中的监测。图像识别技术在各行各业中的应用均较广泛,在不同的领域有着不同的作用,方便了大众生活,推动了了各行各业的发展。

2.3图像识别技术的优缺点

针对图像识别的优点,上文论述了其对大众日常生活的帮助,对各行各业前景的发展,下文将详细论述图像识别的其他优缺点。

首先,在人眼或者人为不能达到或者不能涉及的领域,图像识别技术可以最大效率地弥补此项缺憾,可以尽可能地探查到更多的领域,尤其是与人民群众财产安全密切相关的医疗行业,运用图像识别技术能够最大限度保障民众的医疗安全甚至是生命安全。其次,图像识别技术能够较为精确地描述实际情况,因为人眼的条件有限,达不到很精密的程度,难免会犯一些错误,但是由于图像识别技术是根据深度学习理论进行的大脑神经的运转,出现问题的几率会变得很小,一般而言,精确度可以得到更好的保证。在建筑施工场地,可以更好地进行建筑行业的有效监控与测量,提供有效的监测数据,保证建筑施工的顺利进行。再者,图像识别技术可以有效进行监督与识别,有效的程度可以高达百分之百,图像识别技术的监督识别技术可谓顶尖,随着智能化与信息化的不断发展,图像识别技术的发展也经历了艰难与缓慢的改革进程,在监督检测的有效性方面更加有保障。图像识别技术有着众多的优点,能够为人们的日常生活和就业提供诸多帮助,然而,任何技术都是一把双刃剑,有优点的同时也会存在缺点,下文将会详细论述图像识别技术的缺点。

图像识别技术的缺点同样存在,只有熟识并且深刻掌握图像识别技术的缺点,才可以更好地进行改进和完善。首先,图像识别技术的条件要求会比较高,所谓的条件要求指的是在运用图像识别技术的过程中所需要满足的条件和要求,像在驾校驶证考试中图像识别的使用主要是判断驾驶人员的考试是否通过、人员是否作弊等,这就需要驾驶车辆满足一定要求,首先保障可以正常使用图像扫描机、可以正常使用摄像头等,图像识别技术是科技进化的结果,所以需要满足的条件要求是较高的。其次,图像识别技术的花费较高,即成本较高,这使得很多行业很少使用图像识别技术,只有需要满足高度准确性和精密性的要求,进行监督识别检测的行业才会运用,且其使用过程中的成本也较高。再者,图像识别技术的人员使用标准也较高,一般的老年人或者不了解的人可能不会使用也不清楚使用的方式,人员的使用标准和要求较高保障在使用过程中的准确性和效率,像在医疗卫生中的使用,需要由专业的医疗救护人员进行操作。



3、基于深度学习的图像识别算法研究

3.1 通过深度神经网络重构MNIST数字图像

MNIST是美国国家标准与技术研究院的大型数据集中的子数据库,是一个手写体数字库,样本由分辨率为28*28的0到9数字样本组成。MNIST数据集可以无需做预处理即可应用,因而被作为识别技术研究首选数据库。

用限制波尔兹曼机建立四层深度信念网络可以对MNIST样本进行重新构建。第一步,提取图像数据的多维特征,通过修正参数降图像数据I/O之间的信息误差。第二步,降低图像维度有效压缩数据,节约图像储存空间。

3.2 通过神经网络识别MNIST数字图像

3.2.1 变换层

图像包含一些固定的特征,且一部分特征与其它图像的特征相同,卷积神经网络基于此规律实现权值共享,精简参数。图像可以被是为一个平面,保留图像二维特性,然后采用线性/非线性变换方式对图像进行处理。

非线性操作即激励函数,常见的有三种非线性激励函数。第一:sigmoid函数,当前应用较少,因为神经元激活值在0或1 附近时,区域梯度接近0,在反向传播时最初几层权值变化很小,如初始权值过大神经元会快速达到饱和。当神经元处理数据中心非0时对梯度下降动态性将产生负面影响。第二:双曲正切函数。第三:右一为非线性修正函数,相比前两个函数非线性修正函数计算更简洁,因而应用越来越广泛,但非线性修正函数的大梯度值经过ReLU神经元时ReLU神经元不会被激活,ReLU单元较脆弱。

3.2.2 池化层

卷积提取特征维度高,也会存在冗余,因此需要降低其维度,为实现这个目的可以统计聚合图像各位置特征。如计算图像某区域的某特征的最大值、均值,达到降低特征维度的目的,这样的处理方式成为聚合叫池化。



4、深度学习在图像识别领域的应用趋势

文章采用卷积神经网络自动学习图像特征,达到识别图像的目的。传统图像识别算法需预处理图像,有着非常大的不确定性,易受人为因素影响,准确性欠缺,而且需要进行复杂的参数调节。而卷积神经网络可直接输入二维图像在初始图像中识别出视觉模式,无需太多的预处理,受人为因素影响小。卷积神经网络时一种端到端的学习网络,识别准确率达99.16%。基于卷积神经网络的图像识别算法中计算梯度的值出来自于输入样本的数目。

根据上个计算公式测算数据可知,如样本的数量较少时,程序也是可以能正常运行的,但反之,则需要消耗大量的计算资源和计算时间,计算速度也非常慢,此时需要大量的硬件空间资源支持。在随机选择样本时更新参数称之为随机梯度下降,将会造成严重的代价损失函数震荡,最后带来较大的数据误差。

softmax回归器是logistic回归拓展形式,logistic回归通常用来处理二类分类的问题,而softmax回归器通常用于处理互斥的多类分类任务。训练集类标签可以取k个值,输出一个k维向量,用于表示样本属于k个类别的概率值,每一个类别j估算得出的概率值为。

4.1 模型的层次越来越多,模型的结构越来越复杂

基于深度学习应该对图像特征进行逐层模型构建,假如网络模型的深度不足将使计算单元快速增加,大幅提高圖像识别的难度,使得需要我们对图像进行更多的局部区域划分,导致模型的层次大幅增加。通过对图像的多层特征进行深度学习,深度学习网络学习到的特征全局性日益增强,识别还原出来的图片真实感不断提升。例如,2012年AlexNet夺得ImageNet图像识别竞赛第一名使用的网模型采用2个全连接层、3个pool层、5个卷积层;2014年GoogLeNet夺得ILSVRC赛事第一名使用的网络模型采用2个全连接层、16个pool层、59个卷积层。

4.2 深度学习训练数据规模不断扩大

当前深度学习模型复杂度呈快速上升趋势,需要识别的图像特征大幅增加,这需要深度学习网络进行规模更多的学习训练,也就需要更大规模的学习数据来满足学习训练要求,从而提高图像识别准确度。现阶段,深度学习算法训练数据规模主要在几十万、上百万级,Google、百度等大型企业的深度学习模型的训练数据规模已达千万级、亿级,但还是不能完全满足快速增加的深度学习训练需求。

4.3 深度学习模型识别精度不断提升

随着深度学习模型的不断发展,图像识别精度,识别速度大幅提高。如初期的R-CNN模型处理一张图像需13秒,准确率53.7%。2015年,Faster R-CNN模型图像识别速度达17FPS,准确率达78.8%。2016 年YOLO 模型图像識识别速度达45FPS,识别效率、识别精度大幅提升。



5、结语

综上所述,文章首先针对深度学习的基本思想进行了简要论述,阐述了基于深度信念网络对MNIST数据集进行图像重构的方法,获得可以表征图像集最有效的特征。基于深度学习理念的图像识别技术有着较为广泛的作用,深度学习理论为图像识别提供了理论基础与技术支持,图像识别是深度学习的具体应用,日后,将会存在更为便利的技术应用,将会有更为准确的机器学习模型,这需要专业知识与专业技能的双重护航,也需要有专业人的精神理念,随着科技的发展和技术的广泛应用,这一天迟早会来临,图像识别技术也会随着时间的变化而逐步进步,将来会呈现更加完美的技术。



参考文献

[1] 徐梦雪.基于深度学习的图像识别技术综述 [J].计算机产品与流通,2019(1)

[2] 徐校竹.基于深度学习的矿岩图像识别技术研究 [J].中国锰业,2018(6)

[3] 孟令,朱正,林世忠,等.浅谈深度学习在图像识别领域的应用现状与优势 [J].电工技术,2018(16)

[4] 李超波,李洪均,徐晨.深度学习在图像识别中的应用 [J].南通大学学报(自然科学版),2018(1)

[5] 王禹嫣.深度学习在图像识别中的应用与发展 [J].中国战略新兴产业,2017(48)

[6] 杨雄.深度学习在网络色情图像识别中的研究与应用[J].佳木斯大学学报(自然科学版),2018(06)