新推出的卷积神经网络(CNN),可广泛应用于图像识别和图像分类!
5141
近年来,卷积神经网络(CNNs)已成功地应用于图像识别和图像分类。一般的网络神经网络只使用一幅图像作为特征提取。 如果得到的图像质量不好,容易造成误判或识别错误。 因此,本研究提出了双输入CNN的特征融合用于人脸性别分类的应用。 为了改进传统的特征融合方法,本文还提出了一种新的特征融合方法,即加权融合方法,该方法能有效提高整体精度。此外,为了避免传统CNN的参数由用户来确定,本文使用统一实验设计(UED)代替用户来设置网络参数。 实验结果表明,在双输入CNN实验中,对CIA和MORPH数据集的平均准确率分别达到99.98%和99.11%,优于传统的特征融合方法。
相关论文以题为“ Using Feature Fusion and Parameter Optimization of Dual-input Convolutional Neural Network for Face Gender Recognition ”发表在《 Applied Sciences 》上。
近年来,深度学习方法的迅速兴起已经成为最热门的研究课题。深度学习方法在分类、识别和目标分割中得到了广泛的应用。 深度学习方法优于传统的图像处理方法,因为它们不需要用户确定捕捉到的图像特征。它们可以通过网络中卷积层和池化层的自学习来提取图像中的特征。因此,从训练图像中自动学习感兴趣的特征被认为是一种很好的替代用户选择的特征的方法。最典型的例子就是通过卷积神经网络(CNN)进行特征学习和识别。LeCun等人提出了第一个CNN架构LeNet-5,并将该网络应用于MNIST数据集中的笔迹识别。所用图像为灰度,每张图像大小为32×32。LeNet-5的识别精度优于其他传统的图像处理方法。Krizhevsky等人提出了AlexNet,并将GPU引入深度学习。他们还在深度神经网络架构中加入了Dropout和ReLu,以提高其识别精度。Szegedy等[14]提出了GoogleNet,并将“盗梦空间”结构引入到网络中。提出的出发点是增加网络的宽度,即使用不同的卷积核大小来提取不同的特征。他们也采用了1×1的卷积运算来降维,这样可以提高网络降参数时的精度。He等人提出了残差结构,将下层的特征直接映射到上层网络,即更深层次的网络具有接近前一层的表示能力。 因此,在深度CNN中,网络的难训练问题可以得到有效的解决。
本研究针对人脸性别分类的应用,提出了双输入CNN的特征融合和参数优化。 为了改进传统的特征融合方法,提出了一种新的特征融合方法,即加权融合方法,有效地提高了整体精度。另外,为了避免传统CNN的参数由用户来确定,本文使用一个UED代替用户来设置网络参数。两个数据集,包括CIA和MORPH数据集,被用来评价提出的方法。
双输入卷积神经网络
本节介绍双输入卷积神经网络(dual-input neural network, CNN),如图1所示。本文提出的双输入CNN可以任意构造其特征提取网络。CNN用户常用的三种知名架构是LeNet, AlexNet和GoogleNet。AlexNet有两个主要特点:第一点是使用了非线性激活函数- relu具有较快的收敛速度;第二点是在第一层和第二层全连接层中使用Dropout可以有效地减少过拟合问题。然而,更复杂的问题仍然无法解决。虽然GoogleNet可以解决更复杂的问题,但它的架构非常深,需要很长的训练时间。基于以上分析,本研究采用架构长度适中的AlexNet作为特征提取网络架构。在双输入CNN中,使用两个特征提取AlexNet结果进行数据融合,然后传递给后续的全连接层。
图1.双输入卷积神经网络的结构。
在数据融合方面,本研究提出了一种权重融合方法,对强特征输入赋较高的权重。加权融合结果比级联法、求和法、积法和最大值法更有效。融合函数是两个特征图的融合,在t时刻为融合的特征值。
卷积神经网络的基本结构
CNN的基本架构如图2所示。它主要分为四个部分:卷积层;池层;完全连接层;和激活函数。在CNN中,主要使用卷积层、池化层和激活函数进行特征提取,全连接网络对得到的特征进行分类。
图2.基本卷积神经网络的结构。
实验结果
为了评估所提出的双输入卷积神经网络(dual input neural network, CNN)的特征融合和参数优化,研究人员使用了两个人脸数据集,即CIA数据集和MORPH数据集来验证人脸图像的性别。 在这个实验中,两个数据集执行一个图像增量。增量机制是增加亮度,降低亮度,向左旋转图像和向右旋转图像。增加的图像数量是原始图像数量的5倍。
变形数据集
变形数据集是一个主要由西方人组成的人脸数据库。它的人口种类繁多,年龄分布从16岁到77岁。通过执行亮度降低、亮度增加、向左旋转和向右旋转操作来增加MORPH数据集中的图像,如图3所示。因此,增加的数据量是原始MORPH数据集的5倍。图像增量后得到的数据量是原始数据量的5倍,其中男性图像从46,659增加到233,295,女性图像从8492增加到42,460。
图3.变形数据集。
使用各种融合方法进行精度分析
针对不同的融合方法(拼接法、求和法、乘积法、最大值法和加权融合法),进行交叉验证,获得更准确的准确率。最近,许多研究者采用了三种交叉验证方法来验证他们的方法。因此,本研究也使用了三种交叉验证来评估MORPH数据集的准确性比较。本文提出的加权融合方法平均准确率最高,达到99.11%。图4为各特征融合方法的平均准确率对比。
图4.采用各种特征融合方法的平均准确率。
结论
本研究通过双输入卷积神经网络(dual input neural network, CNN)的特征融合和参数优化来实现人脸性别分类。研究人员提出了一种新的加权融合方法来代替传统的特征融合方法。 MORPH和CIA数据集都用于验证面部性别分类。实验结果表明,该方法在MORPH数据集和CIA数据集中的平均准确率分别为99.11%和99.98%,性能也优于传统的特征融合方法。此外,在变形数据集,结合提出的加权融合方法和均匀实验设计(发行)找到最优参数结构, 实验结果证明了变形数据集的平均精度达到99.26%,明显高于0.13%比发行时不使用方法。
然而,本文提出的双输入CNN不可避免的存在局限性。 例如,研究人员只使用了第一层和第五层卷积作为影响因素,在本研究中研究人员讨论的是双输入CNN。 因此,如何选择合适的影响因素以及一个多输入的CNN将会在以后的工作中被考虑。