基于深度学习的图像大数据分类研究

■韩志涛

(山西科技学院能源工程学院,山西 太原 030499)

随着人工智能与大数据的高速发展,图像分类任务作为大数据处理中的一个基本任务,受到了学者们的广泛关注。图像分类是通过算法找出一副图片的所属类别,计算机不同于人类的大脑,它无法显式地判断给定图片的类别。这就要求算法具有提取图像中隐含信息,即特征的能力,在特征提取之后,算法通过判断特征与已有数据的标签类别的相似程度,将图像进行分类,这种技术广泛应用于人脸识别、自动驾驶、点云数据识别等领域。然而传统的图像分类技术只能提取简单的图像特征,如颜色、位置、形状等,这是由于即使是一张维数很小的图片,其特征数也会达到百万级别,传统的图像分类算法无法同时识别数据量如此巨大的特征数,并且对其进行分类。

人工神经网络(artificial neural networks,ANN)的出现解决了这一难题[1],最基本的人工神经网络包括输入层、隐藏层和输出层,如图1所示,人工神经网路通过模拟人体神经元的工作模式,在算法层面实现一种自适应性的学习模式,使得模型具有学习数据中隐含知识的能力。在人工神经网络的基础上,陆续提出了前馈神经网络、卷积神经网络、递归神经网络、生成对抗网络等。为了进一步提升图像分类的性能,2012年,Krizhevsky等[2]提出了AlexNet网络。该网络作为深度学习的代表,在卷积神经网络的基础上,用多个小卷积层的叠加替换了单个的大卷积层,获得了非常好的图像分类能力。

图1 人工神经网络

深度学习通过加深神经网络的层数来获得更好的模型泛化性能,然而在模型性能提升的同时,深度网络还会造成过梯度消失、梯度爆炸、过拟合等问题,这使得在模型训练时在加深网络层数的同时,还应该设计更加合理的深度网络结构,因此基于残差模块的深度网络应运而生[3]。在深度网络中引入残差模块,可以在保证梯度稳定的条件下,网络模型训练精度不发生退化。在此基础上,基于注意力机制的深度网络可以进一步地提升模型的训练精度。接下来,本文将具体回顾经典的深度神经网络、基于残差模块的深度神经网络和基于注意力机制的深度网络近年来的相关工作,并且对比三者的模型测试精度。值得注意的是,由于用于图像分类的深度网络研究具有极其丰富的内容,本文难以涵盖所有的工作,因此取其特例进行介绍,旨在让学者们更快地掌握图像分类深度网络的研究历史、典型例证和未来研究趋势,为基于深度网络的图像分类任务研究提供一定的参考。

(一)经典的深度网络模型

深度神经网络是在卷积神经网络的基础上发展而来的,Le Cun等[4-5]于1998年最早提出了卷积神经网络LeNet模型,该网络包括3个卷积层、2个池化层和2个全连接层,如图2所示。

图2 LeNet网络结构

在此基础上,AlexNet网络更加细化了深度网络的特点。其使用ReLu函数作为激活函数,ReLU函数可以选择性地或分布式地激活神经元,学习相对稀疏的特征并实现自动分离;
并且引入了Dropout,神经元可以按照一定的概率从网络中丢弃,以减少网络模型参数,防止过度拟合。此外,该网络还提出了重叠最大池化,让池化步长小于池内核的边缘,提升了特征空间的信息量,如图3所示。

图3 AlexNet网络结构

AlexNet网络虽然取得了不错的图像分类效果,但是其卷积核的尺寸较大,所以网络参数量相较而言更多。因此,VGGNet网络被提出,VGGNet具有6种结构,其中VGGNet-16/19是目前较为流行的深度网络架构。VGGNet网络通过将尺寸较大的卷积核更改为3×3的卷积核,并且进行堆叠,加深网络深度,当深度堆叠到16层/19层时,实验表明模型测试效果有了大幅度的提升,这也从侧面验证了深度学习的鲁棒性。VGGNet网络如图4所示。

图4 VGG-16 Net网络结构

此外,Szegedy等[6]提出了GoogLeNet网络,该网络受到VGGNet的启发,巧妙地提出了Inception模块,该模块可以进一步拓宽模型的宽度和深度。本文以LeNet模型为例,分别介绍卷积层、池化层和全连接层的结构。

1.卷积层

卷积层的目的是提取图像特征,一般通过一个正方形的卷积核对输入图像的每一个通道内像素点进行遍历,其中像素点对应卷积核的位置表示为该点的权重,在进行卷积操作时,卷积核与对应位置像素点相乘,然后对得到的结果求和,视为一次卷积操作。一次遍历输入图像中的所有像素点,达到提取特征的目的。LeNet网络在卷积层之后加入下采样层,之后再进行卷积层操作,这种方法可以通过设定参数调整我们想要学习得到特征的大小,已经初步具有了深度网络的雏形。

2.池化层

池化层与卷积层类似,在池化层中,通过池化窗口对特性进行降采样处理。池化操作可以给特征施加一个强先验知识,使得模型更多地关注于特征本身信息而非特征的位置,进行池化操作的网络模型可以允许图像特征存在微小位移扰动。同时池化层降采样的操作本质上是一种降维操作,其具有一定稀疏性,因此还具有一定的去噪能力。

3.全连接层

全连接层一般位于整个网络的最后,其作用是将前面经过卷积层和池化层后的特征空间整合到一起。由于卷积和池化操作后得到的特征是不同的,对同一图像,其提取的特征空间信息也可能包括许多方面,而通过全连接操作后,可以将这些特征整合到一个样本空间中,可以有效提高模型的泛化能力,也可以保证分类结果不受特征位置的影响。

(二)基于残差模块的深度网络模型

深度学习虽然在图像分类任务上取得了较大的成功,然而随着网络层数的增加,梯度消失问题也会随之而来。当网络在不断的训练过程中,神经元的权重由于计算得到的梯度越来越小而得不到有效更新,导致模型过早收敛,针对这一问题,设置激活函数和dropout可以有效解决。但是当传统的深度网络的层数加深时,模型会发生退化,也就是说模型的测试精度会发生下降。He等[7]提出了深度残差神经网络ResNet,传统的深度网络通常先进行卷积操作,然后进行池化操作,然后不断堆叠卷积和池化模块来构成网络;
而ResNet的主要创新之处在其在数据输入和输出之前添加了一条捷径,如图5所示。

图5 残差模块

当在输入和输出之间添加了捷径之后,输入节点与输出节点之前有了直接进行信息交换的能力,这在一定程度上可以缓解梯度消失的问题;
在卷积神经网络中,数据经过卷积层之后的原始映射为H(x),而在残差网络中,数据经过残差模块的残差映射为F(x),其中F(x)=H(x)-x,x为原始数据的观测值。通过这种方式,深度网络学习用更简单的残差映射来获得输出值。由于残差网络的输出为F(x)+x,显而易见地,在对输出求偏导更新权重层时不会发生梯度消失的现象。

在此基础上,残差网络的一些变体被提出。Li等人[8]提出了一种可调快捷连接改进的ResNet,该网络在CIFAR-100数据集上比ResNet的测试精度高出了3.66%,且没有增加网络的计算量;
Qin等[9]在ResNet的基础上,提出了RT-ResNet和RS-ResNet两种方法,其中RT-ResNet是一种基于统一时间步长的多步方法,RS-ResNet是一种使用可变时间步长的自适应多步方法;
Shen等[10]提出了加权残差网络,通过更新权重来有效组合来自不同层的残差,实验表明该方法使得网络深度在100层增加到1000层时,模型的精度和收敛性能可以持续改进;
Han等人[11]提出了新颖的残差结构,类似于金子塔结构。该网络逐渐提高特征图尺寸,将深层特征和浅层特征相融合,以涉及更多可能的特征位置。此外,Ahmed等人[12]将ResNet-FPN中的特征金字塔网络替换为一组卷积层,提出了一种新的网络架构用于学习被篡改区域的判别伪影;
Zhang等人[13]提出了多级残差卷积神经网络,其将残差网络中的残差块进行分组,并且在每组中添加二级连接,按照这种结构,再对残差块进行二次分组,然后继续添加跃层连接;
Zagoruyko等人[14]提出了宽度dropout块,可以通过增加网络宽度来增加残差网络的深度;
Xie等人[15]提出了ResNcxt网络,该网络提出了一个同质的多分支架构,通过重复构建块来聚合一组具有相同拓扑的转换。

在深度网络中加入残差模块从网络结构上提高了模型得泛化能力,解决了深度模型梯度消失的问题,也可以在一定程度上缓解深度学习参数量过大的问题,是现阶段应用较为广泛的深度学习策略。残差网络的各种变体形式也有效地提高的网络的训练模型精度。

(三)基于注意力机制的深度网络模型

近年来,注意力机制在深度网络中的应用越来越广泛,顾名思义,注意力机制的作用就是可以使神经网络更多地关注于特定的重要特征,忽略一些不重要的特征,通过这种方式可以利用有限的注意力资源从大量的信息中提取出对学习任务有用的信息,可以大大提高图像分类任务的处理效率与精度。

在ResNet作为主干网络的深度学习分类任务中,虽然可以有效缓解梯度消失的问题,但是其在图像分类任务上表现不佳。由此,Wang等[16]提出了基于注意力机制的深度残差网络,其中的残差网络是通过堆叠注意力模块来形成的,这些模块生成注意感知特征,如图6所示,其中p,q,r是待调节的超参数。值得注意的是,网络中不同模块将捕获不同的注意力信息,实验结果也表明,这种混合注意力机制比单一的注意力机制往往表现更好。另外,作者还创新地将自上而下的注意力机制编码为一种分布式的架构,整体呈现为自下而上的前馈神经网络结构,而在每个模块中表现为自上而下的形式。

图6 注意力模块

Zhang等[17]提出了一种多分支结构来改进卷积神经网络中的表示学习,利用分割注意力模块将多个通道的注意力整合到一起,用来提升图像分类任务的性能。另外,作者基于分割注意力模块,提出了一种残差网络的变体ResNeSt,该网络用分割注意力模块替代残差块,经过实验验证,ResNeSt在精度和时延上都优于传统模型。Choi等[18]提出了一种基于细粒度的注意力机制,在训练中每个标量都有其对应的一个上下文向量,上下文向量的每个维度都将获得单独的注意力评分。Li等人[19]提出了一种具有跨级群归一化和挤压激励运算的信道注意机制,三种类型的注意力统一起来构建混合注意力机制,实验指出混合注意力机制可以显著提高模型精度。Wang等[20]提出了基于深度学习的多尺度特征融合和注意力机制网络,将金字塔模块和信道注意力机制有效集成。其中通道注意机制获取不同感受场的特征图,将每个特征图分为两组,并使用不同的卷积来获得权重。Hu等[21]同样针对通道之间的相互依赖性,提出了挤压激励模块,通过显式建模通道之间的相互依赖性,自适应地重新校准通道特征响应。此外,全局二阶池GSoP表现出了较好的性能,Gao等[22]将GSoP从较低层引入到较高层,以便在整个网络中从空间维度和通道维度利用整体图像信息。

在深度网络中不考虑模型退化时,一般而言网络深度越深,其模型参数量越大,该模型对特征的表达能力就会更强。然而大量的参数也可能导致过拟合现象,加入注意力机制的深度网络可以有效缓解这一问题。注意力机制会关注于当前输入数据的重要特征,提高任务处理的效率,在图像分类任务中这一机制表现出了显著的效果。

本小节中,我们通过对比AlexNet、ResNet和残差注意力网络三种典型网络在图像分类中的精度,进一步了解三种类型的深度网络之间的关系与区别。实验指标为Top-5错误率,分别在图像数据集ImageNet和CIFAR-10上进行,附表1展示了三种深度网络的实验结果,从附表1中可以看出,ResNet的参数量是最少的,残差注意力网络并没有降低深度网络的参数量;
在ImageNet数据集上,ResNet的错误率明显低于AlexNet的错误率,从侧面验证了残差模块的效率;
在CIFAR-10数据集上,残差注意力网络的错误比ResNet降低了约5.8%,注意力机制在深度网络中扮演了重要的角色。

附表1 三种类型深度网络结果对比

图7所示为错误率结果直方图,直观地反映了三个网络的错误率对比情况。由图7中可以看出,在两个数据集上,经典的深度网络AlexNet错误率最高。在ImageNet数据集上ResNet错误率改善明显,在CIFAR-10数据集上残差注意力机制相较于AlexNet,错误率降低不明显,但也有一定程度的提高。

图7 Top-5错误率结果直方图

深度学习作为图像分类工作的重要方法,是目前大数据计算视觉中的一个热门领域。从由仿生人神经系统设计的人工神经网络开始,学者们一直致力于对图像特征全方位的提取和学习,本文回顾了深度神经网络的发展历史的三个重要阶段,经典深度神经网络、残差神经网络、注意力残差神经网络三种类型,总结和讨论了深度网络用于图像分类的优缺点,在此基础上,提出下一步更深入的研究方向。

(1)图像分类作为最基本的计算视觉识别任务,现有的方法已经在许多公开数据集上取得了很高的精确度。然而,针对核磁共振图像、高光谱图像、雷达图像等等特殊数据集上的精度还有待提高,需要设计特定的深度网络结构来进行图像分类。

(2)轻量化的深度网络问题亟待解决。深度网络由于其庞大的参数量和较长的训练时间,使其在移动设备上的应用很难实现,需要对深度网络进行压缩,研究轻量化网络,使其更易于在移动边缘节点上部署。

(3)在实际问题中,数据往往是没有标签的。如何利用无标签数据进行半监督学习和无监督学习,也是未来研究的热点问题。

猜你喜欢 残差注意力卷积 基于双向GRU与残差拟合的车辆跟驰建模网络安全与数据管理(2022年3期)2022-05-23让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02基于残差学习的自适应无人机目标跟踪算法北京航空航天大学学报(2020年10期)2020-11-14卷积神经网络的分析与设计电子制作(2019年13期)2020-01-14基于递归残差网络的图像超分辨率重建自动化学报(2019年6期)2019-07-23从滤波器理解卷积电子制作(2019年11期)2019-07-04基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21

推荐访问:深度 图像 数据