基于行人分割与部位对齐的行人再识别

来源：树人论文网发表时间：2020-01-06

简要：摘要为了解决行人再识别中由于视角变化和背景干扰造成的错位匹配(未对齐)问题，提出一种基于行人分割的部位对齐网络(SegPAN)的方法，该网络由3部分组成：1) 构建一种基于RefineNet的

　　摘要为了解决行人再识别中由于视角变化和背景干扰造成的错位匹配(未对齐)问题，提出一种基于行人分割的部位对齐网络(SegPAN)的方法，该网络由3部分组成：1) 构建一种基于RefineNet的行人分割网络(TL-RefineNet)，以获得多个局部对齐部位;2)基于分割的行人部位，提出一种行人部位对齐网络，以提取多个局部对齐特征;3)通过一种加权融合的策略将提取的局部对齐特征融合，提高视觉特征的判别能力。在此基础上利用特征之间的相似度实现行人再识别。实验在Market-1501和DukeMTMC-reID数据集上进行测试，R1的性能分别达到90.5%和80.3%。结果证明该方法不仅有效的缓解了错位匹配问题，而且减少了背景的干扰，提高了再识别性能。

　　关键词行人再识别;行人分割;部位对齐网络;加权融合

化学工业

　　0 引言

　　行人再識别是指在非交叠的视频监控中寻找与目标一致的行人，该技术可以应用于行人检索、交叉摄像机跟踪等视频监控领域[1-5]，是视频智能分析的一个重要组成部分。但由于光线、姿势和视角的多样性，使得跨场景中的行人匹配极具挑战性。众多的影响因素中，错位匹配是导致行人再识别失败的一个重要因素，究其原因可分为两类：1)行人检测不准确。例如，当图像中包含大量的背景或行人部位不全时[6-8]，很容易造成局部背景与行人某区域之间的错误匹配(图1 a));2)不同视角中行人姿态的变化。例如，同一行人在骑车与行走时产生的对应匹配，也会造成错位匹配(图1 b))。

　　为了解决行人再识别中的错位匹配，Zhang等[9]提出一个多分枝网络，每个分支对应行人图像中一个水平条区域，通过匹配对应的水平区域实现行人部位对齐，但当背景较大时，匹配效果并不理想。Su等[10]构建了一个深度对齐网络，网络不仅提取全局特征，同时对整个行人进行重定位，利用重定位的行人进行相似度比较以实现行人的对齐，但该方法并没有对行人部位进行细分，导致算法对行人姿态的鲁棒性会受到影响。此外，许多方法借助于行人关键点实现行人部位对齐[11-18]。Zheng[13]将行人划分为14个关键点，利用这些关键点把行人划分为若干个区域，同时为了提取不同尺度上的局部特征，还设定了3个不同的PoseBox组合进行映射矫正对齐。与方法[13]不同的是，Zhao[15]并没有用仿射变换来实现局部对齐，而是直接利用行人关键点来抠出多个行人部位，然后将这些区域和原始图像一并输入到对齐网络进行特征匹配。由于该方法的抠取方式过于简单使得算法无法获取精确的部位区域，不可避免地引入无关背景，并且关键点的检测并不可靠[19]。

　　为了解决行人未对齐，提高算法对姿态变化的鲁棒性，本文提出一种新的再识别方法，该方法不仅提取全局特征，同时还对行人的各个部分进行了区域划分，通过对应部位之间的匹配实现行人对齐，与其他方法[11-15]不同的是，本方法并沒有采用行人关键点进行行人区域划分，而是采用一种行人分割的策略完成图像中行人各部分的有效分割(头部、躯干、腿等)，在此基础上进一步构建行人部位对齐网络实现行人部位对齐。此外，在融合部位对齐特征时，采用一种加权的策略以提高特征鲁棒性。通过该方法不仅能实现行人与背景的分离，消除背景的干扰，而且能有效地提高行人对齐效果(图2)。

　　本文主要的贡献可归纳为以下3点：

　　1)提出基于行人部位分割对齐的再识别网络，网络的输入不仅包含分割的行人区域，而且包含对应区域置信特征，该特征可以对分割的效果进行有效反馈，提高局部特征的可靠性。

　　2)为了获取良好的行人分割效果，提出基于过渡层(Transition Layer)的RefineNet网络(TL-RefineNet)，以实现对行人部位的精确分割。

　　3)提出一种加权融合的方法，将提取的多个区域特征进行加权，实现多个对齐特征的有效融合，进一步提高特征的可区分性。

　　为了验证提出方法的有效性，在两个标准行人再识别数据集进行验证，分析其有效性及各部分的作用，并与其他主流方法进行性能比较。

　　1 本文方法

　　本文方法主要包括3个部分：行人分割、行人部位对齐以及行人对齐特征的融合(图2)。首先利用提出的TL-RefineNet网络将行人图像进行分割，得到多个行人分割区域，例如，行人上半区域和行人下半区域。然后基于分割的行人区域，构建行人部位对齐网络，提取部位对齐特征。最后通过加权融合的方式将提取的对齐特征进行融合，提高特征的鲁棒性。在该基础上计算特征之间的相似性，获得最终结果。

　　1.1 TL-RefineNet与行人部位分割

　　本研究目标是分割出行人对齐部位，然后将其应用到行人部位对齐网络，以解决行人错位匹配问题。但直接对re-ID数据集中的行人进行分割将面临两个主要问题：1)由于re-ID数据集没有语义分割标签，很难直接在re-ID数据集上训练分割网络;2)直接利用在非re-ID数据集(如Person Parts Dataset [20])训练的分割模型，用在re-ID数据集上进行分割，并不能获得理想的分割效果。其主要原因在于：在re-ID数据集中，行人图像的分辨率太低(尺寸小)，使得图像分割目标过小，许多细节特征不足。但是，在re-ID数据集中，行人已被裁剪好，并且他们在图像中占据了绝大部分区域。因此一个合适的放大操作不仅能放大分割目标，而且因放大而导致的背景干扰也是有限的。基于此思路，本文提出一个过渡层嵌入到RefineNet分割网络中，以实现图像中行人各部位的良好分割。

　　具体的，过渡层由一个双线性差值构成，设插值像素值f (m， n)如公式(1)所示：

　　[fm，n=θ1θ2Q11Q12Q21Q22θ3θ4][，] (1)

　　式中：[θ1=m2-m，][θ2=m-m1，][θ3=n2-n，][θ4=n-n1，][Q11=m1，n1，][Q12=m1，n2，][Q21=m2，n1，][Q22=m2，n2]表示[fm，n]的4个近邻坐标。放大尺度参数设为α，该参数可通过网络训练获得。首先在Person Parts 数据集上训练基础的RefineNet，然后将T-Layer层嵌入到训练好的RefineNet(如图3所示)。最后通过固定RefineNet网络的其他参数，利用部分分割结果训练尺度参数。行人分割网络的输出为预定义的分割标签，即行人上半部分(包括行人头部、上臂和躯干)和行人下半部分(包括行人躯干以下及腿部，如图2所示)。

　　1.2 基于分割的行人部位对齐网络

　　为了缓解行人未对齐问题，本文基于分割的行人区域构建一个行人部位对齐网络。该网络针对每个行人部位构建一个分支网络，从而提取部位对齐特征。

　　此外，考虑到，当行人被严重遮挡时，行人的分割效果会受到一定的影响。为了弥补这一影响，本文将原始图像单独作为一个网络分支，合并到整个行人对齐网络中，共构建3个网络分支。每个网络分支的基本结构为Resnet50网络的pooling5层及以前的所有网络层结构。特别的，每个网络分支的输入除了分割后的RGB图像，由分割获得的对应的置信特征也被输入到对齐网络中，以提高分割结果的可靠度。将每个网络分支输出的1×1×2 048维特征作为部位对齐特征。具体结构如图2所示。

　　在训练时，由于不同数据集的行人数目不同，本文增加了一个全链接层以调整输出结果的维度变化。Softmax用来将每一个行人的预测值[ak]归一化到[0， 1]：

　　[pkx=expakk=1Kak][，] (2)

　　式中[K]表示数据集中行人的类别数目 (Person ID)。通过交叉熵来迭代获取每个分支网络的最小损失值：

　　[lossi=-k=1K(log(p(k|x))q(k|x))][，] [qy|x=1，y=k0，y≠k]， (3)

　　式中：x表示网络输入特征;i =1，2，3对应3个网络分支;y为类别标签。此外，当行人图像检测不准确或者存在大量背景时，在输入对齐网络之前，本文通过双线性差值对分割结果进行裁剪、尺寸调整，从而实现行人初步对齐，如图4所示。

　　1.3 局部对齐特征的加权融合

　　为了反映不同部位在再识别过程中的重要程度，本文提出一种特征加权融合方法，来提高行人特征的鲁棒性。在此过程中，使用3个(1×1)加权卷积核对提取的3个对齐特征进行加权融合，然后通过一个全连接层，来调整融合后特征的输出维度(不同数据集中行人数目不同)。

　　推荐阅读：《化学工业》(月刊)创刊于1983年，由中化国际咨询公司(石油和化学工业规划院)主办。为“化工系统信息成果一等奖”刊物。

上一篇：我国省域基础研究发展现状及能力提升策略

下一篇：创建金砖新评级机构的动因与困境

您身边的学术顾问

基于行人分割与部位对齐的行人再识别

多对一·精细化服务