您好,欢迎来到好走旅游网。
搜索
您的当前位置:首页人像属性识别关键技术研究进展及应用探索

人像属性识别关键技术研究进展及应用探索

来源:好走旅游网
专鑕

人像属性

关键技术研究进展及应用探索

康运锋転涛张世渝中国科学院自动化研撕

摘要:人像属性识别通过监控视频对目标性别、年龄、种族等属性进行估计,能够减少在数据库中的查找范围,增加身份识

别的准确率。作为当前人工智能领域的国际热门研究技术,人像属性识别在视频图像侦查业务中具有极高的应用 价值和探索空间。对人像属性识别的基础概念、关键技术、应用领域进行阐释,并对当前和未来的研究方向进行分析 和展望。

关额:人像属街朗IJ行人再识别

分类器学习上。传统基于手工特征的属性识别方法有两个缺

引言

人像属性是指人体的一些典型外部特征,如性别、发 型、服饰等。人像属性识5嗵出6樹蹶^目碰另!1、年龄、 军幟等属性进行估计,能够减少在数据库中的查找范围,增加 娜棚J的麵率。与目标刷、■

点:(1)手工特征(如颜色直方图、局部二值模式)不能 很好地处理实际监控场景中的环境变化;(2)人像属性之 间的关系被忽略p]。深度学习网络通过建立类似于人脑的模 型结构,纖入数擬级myjs®到高层的雛,从而能 德地建立从底层信号到高层语义的映射关系。

-般来说,典型的人像属性识别应由三个部分组成:(1)从摄像头中通过目标检测算法获取目标人员的包围 框;(2)通过对目标提取手工或深度特征,对人像属性进 行描述和建模;(3)通过对获取到的数据进行比较和分 类,输出属性i只别结果。

(-)人像目标麵和分割

相比,属性识50描述的是目标的外观细节,是对目标信息的精 敝语:

传统的视频监控系统的工作模式是,利用精心设计的 特征描述子从获取的目标提取一组特征向量,输入一个预先 训练好的分类器对目标进行比对。这些特征描述通常是底层 视觉特征,如颜色、纹理、关键点信息等,不能转化为具有 特定语义的高层视觉描述。实际应用中,往往无法获得目标 的图像,因此人们希望能够用基于自然语言描述(如长发、 背包、红上衣)来对目标进行检索和存储。人賴性识另何 以为每个人像目标生成高层语义描述信息,为基于自然语言 的图像检索和拽彌结构化提供了可能。

当前监控场景下的人像属性识别仍然非常具有挑战 性,主要体现在以下几个方面[2]: (1 )外观多样性一

在监控视频中可以通过静态目标检测和运动目标检测 的方式获取目标人像图像。对于静态图像的属性识别来说, 可以利用HOG+SVM、RCNN、SSD等目标检测方法对人体 区域的包围盒进行定位,也可以利用Graph Cut、Mask

RCNN等目标分割方法对人体轮廓进行精确分割。对于基

于动态视频的属性识别来说,可以利用运动检测的方法减除 背景,仅使用前景的特征来进行属性识别,免除背景的干 扰。运动目标检测是指对视频中运动的前景部分进行定位, 雖续进行跟踪和识别麵的親常用方法有侦差法、高 麟景建模,光流法等。

(二)人像属性的特征分析

于人像的服饰外观多变,摄像头视角和照明变化等不可控的 多因素变化,同一属性在不同图像间存在较大的类内差;

(2

)外观模糊性一由于图像分辨率有限,存在摄像头焦

距导致的视觉模糊,以及远视距离带来的低质量视觉特征。

早期的人像属性识别和行人再识别主要采用的是全局

一、关键技术

目前大多数现有的人像属性研究都集中在特征工程或

特征,就是用整图得到向量进行分类输出。但是全 局赚受目标姿态变化和遮挡情况变化影响献,于是基于

12 I罾親涿3 2018年第2期

AI+彼视频分析用

局部特征的研究开始兴起。人像属性受空间和逻辑约 束,也与局部特征的表达和局部特征间的关联密不可分。通 过前艇动检测算法,可以腿控视频中得到目标A员的大 致轮廟。個是要进行人像属性的精确识511,还需要对人体区 職

fia-步划分。常用的局部雛分析的思路主要有图像

切块、人体关键位以及视觉注意力机制等。

1 ■基^^区域的特征分析

人体区域可以通过轮廓、色彩和对称性等视觉特性进 行头部、上半身和下半身的划分,如图1所示w。首先将运 动的目标前景从背景中分割出来,裉据头部和上半身的轮靡 差异划分头肩位置,根据身体上下半身的颜色差异划分上半 身和下半身,并为每个身体部件计算一个横向对称轴。基于 身体结构分别提取颜色特征和纹理特征,并为靠近对称轴的 像素特征分配较大的权重,进行后续特征匹配的处理。

图3通过人体关键点划分人体结构区域,并对身体各部件

融合

3.基于服饰关键点的特征分析

当人体关键点被遮挡时,_些姿态检测器难以准确定 位人体关键点。如图4所示' 通过训练服饰关键点检测器 (如领口、袖口、腰身、下摆等),从关键点位置提取服饰 的局部信息。尽管不同场景和视角下的服饰形态会有变化, 但16饰关键点处的局部特征仍具备一定的不变性。因此,采 用基于服饰关键点区域的特征提取,能够为人像的服饰属性 提供4

有效、可靠的特征描述。

图1基于颜色®^的纵向区域分割,基于对称性的横向区域分割

人体区域也可以根据垂直方向直接等分为若干块,如 图2所示[5]。将被等分后的人体图像块按空间顺序输入到长 短时记忆网络(Long Short Term Memory Network,

LST1VI),通过序列建模对属性的空间上下文和关联性进行

提取。但这种分块方式的缺点在于对图像对齐的要求比较 高,如果一幅图像没有上下对齐,那么很可能出现把头部 当成上身进行特征提取的情况,影响识别效果。

图4通过服饰关键点估计,对人体图像的全局外观特征、局部外观

4基于注意力机制的特征分析

图2通过LS™

内部关联

单元编码对分块图像进行建模,构建人像属性的

除了基于先验知识的关键区域划分,可以采用基于注 意力机制的卷积神经网络将多层注意力图映射到不同的特征 层〜基于注意力机制的网络可以从低层到语义层获取视觉 注意力,并从多尺度的注意力挖掘特征来对最终的人像属性 进行描述。基于注意力机制的人像属性特征提取能够补充从 局部细节到全局高层语义的特征,如图5 (a)中,局部的 语义特征用来分辨具有相娜见的人员,如长发和短发,长 袖和短袖;在图5 ( b )中,浅层特征可以捕获衣^条纹; 在图5 ( c )对应小尺度描述“打电话”;在图5 ( d )中对 应大尺度全局理解“性别”属性描述。

2■基于人体关键点的特征分析

为了解决分块区域不对齐的问题,可以利用姿态估计模 型对基于关键点的感兴趣区域(Region of Interest, ROI) 进行特征提取。如图3所示'通过特征提取网络(Feature

Bdracdon Network )对14个人体关键点和7个人体结构区域

(包括头部、上身、下身3个主区域和4个四肢区域)进行 多层局部特征提取,并用树状的特征触合网络(Feature

Fusion Network)对局部和全局特征进行融合,获取不同层

级的语义特征描述。

〇丨1〇6 6〇1111〇丨〇97 2018年第2期13

专鑕

重新标注了 61个属性,包括性别、年龄区间、发型、上下 半身的服饰风格(便装或正装)以及配件等。

(二)RAP ( Richly Annotated Pedestrian )数据集

RAP数据集是目前最大的人像属性公开数据集,是由

中科院自动化所从多摄像机监控场景中采集的人像属性数据集,共拥有72个丰富的属性类别和41,585个人像样本,用 于人像属性分析研究〇

前的属性数据集相比,RAP数据

集还包括不同的视角,遮挡和身体部位信息。

图5利用多向注意力网络,对不同尺度和层级的视觉特征进行响应

PluticBu_ Mltnc

Holding

二、数据集

当前主流的公开人賴性数据集,如表1所示。其中, 早期的VIPeR、PRO、GRID、APiS数据集样本和属性类别 较少,Market-1501-Attribute 和 DukelVTTMC-ABribute 数据集 是对行人再识别领域中Market-1501数据集和Duke_

C-

relD数据集力UAJ1性标后的扩充,RAP和PETA数据集的属

性类别比其他数据集更丰富,且只有RAP数据集具有视角、 遮挡和人体部件的标注,这些标注可以用于反映环境变化和 空间上下文对人像属性分析的影响。

表1人像属g

数据集

VIPeRPRIDGRIDAPiSPETA

Market-1501 -AttributeDukelVTTMC-AtlributeRAP

mmmnH*ad-SKo«ild«r Upp>rftv lowerBody

u**…_____^_____^t-Lp___________ siwrtslitrt pr«s»

图7 RAP数据集中的属性样本

三、应用探索

(—)人賴性检索

人像属性检索技术包含人像属性识别和检索两个方

据集比较

场景室外室外室外室外混合室外室外室内

相机錄228--6826

样本属性人体部

视角遮挡

件定位懸缝

1221无无有40021无无无50021无无无366111无无无1900061无无无3266827无无无31123无无无4158572有有有

面。人像属性识5啦术是在人体检测和人体子部件(帽子、 上衣、裤子等)、附属物(背包,帽子等)定位的基础上, 利用深度学习技术,实现人像的精细化识M。

人像属性检索是在人像属性识别技术基础上通过给定 待检索的单个属性标签或多个标签组合,在人像属性数据库 中进行多特征检索,得到满足属性的人像数据。常用于刑侦 中在一定地理范围内,

段时间内的大量相关视频中,事先

(—)PETA ( PEdesTrian Attribute ) WMMPETA数据集是由10个较小规模的行人再识别数据集组

成,并为每张人体图像加入属性标注,各个子数据集的名 称、比例和示例样本如图6所示。PETA数据集共包含 19000张图像,分辨率范围从17x39到169x365。这些图像

快速构建好人像属性数据库,根雛定属性标签线索进行可 疑人员的侦查,通过过滤大量无用信息,缩小侦查范围,为 破案提供更多有效线索,大大提高破案速度。除此之 外,还可以在安全生产领域,通过对人员穿戴等附属物识别 及时发现违反安全生产行为(未穿安全服,未佩戴安全帽 等),帮助企业规范日常生产生活,尽可能消除安全隐患。 另外,还可以在商业领域帮助商场超市经营者,通过顾客属 性标签厕客停留轨迹,进行商业髓挖掘等。

目前人像属性检索主要性能指标在人像属性识别精度

H觚細IJIH

Hfc I

•»、

inis

14 I罾親涿3 2018年第2期

_______PWD ____ MTT' ___________3% |

图6 PETASt据集的组成

mmimi viiiif

____________上,虽然目前在公开数据集上达到了不错的成绩,但是由于 实际场景的复杂多样性,地点随机,且光线、角度、姿态不 同,再加上人体容易受到检测精度、遮挡等因素的影响,属 性标签挪併稍想,实际应用中精度并不雜高,这样有 遗漏重大人物线索风险,因此实际使用中仍依赖于大量人力

AI+彼视频分析用

的投入。

(二)人体结构化

人体结构化是视频结构化的一部分,它对视频内容按 照语义关系,采用时空分割、特征提取、对象识别等处理手 段,组织成可供计算机和人理解的文本信息的技术,并进一 步转化为实战所用的情报,实现视频数据向信息、情报 的转化。

实际监控环境中,由于摄像机架设角度,位置等因 素,常常无法获取到脸部的有效信息,利用人体结构化技术 能够获取监控场景中目标人员的人脸信息外的特征。提取包 括人的生理雛(如性别、年龄、肤色、发色)、头部穿戴 饰物特征(眼镜、墨镜、帽子、口罩),人的衣着、运动方 向、人的附属物信息(是否背包、梓包、打伞),以及包含 人体行为如越界、区域、箱刚、打架、遗留、聚集等多种行 为特征,进行结构化描述。

业务部门可利用结构化技术结合人脸技术在机 场、火车站、地铁站、汽车站、商场、小区、重要路口及重 点区域等进行实时布控,对案件中特定特征进行实时比对, 若发现重点关注人员,将推送到警用实战一体化平台或手机 终端,实现实战预案联动。也可以在人体结构娜出上健 的在案发点附近的多路摄像头中进行全局搜索,查找出相似 的目标,通过时间、空间刻画出嫌疑人的行动轨迹。

人体结构化有如下傾:

首先,是极大提升了视频中目标人员的查找速度。通 过对几百上千小时的麵经过人体结构化之后,从中找出某 张截图中的嫌疑目标,数秒钟即可完成;

其次,是极大降低了存储容量。通过结构化能够去除 大量无用信息,相同存储容量能僻储更长时间内麵的有 效信息;

最后,人体结构化可作为数据挖掘提供数据基础,通 过对某段时间,某一区域内视频中所有人像进行结构化处理 存入数据仓库后,结合其它文本等多模态数据进行数据整合 分析,挖掘事件关联,充分发挥大数掘乍用,提高视频数据 的分析和预测功能。

目前人体结构化应用上大多采用的是结构化服务器与 大数据平台相结合,其特色是结构化服务器支持单台设备自 成一个完整的系统,进行离线及在线结构化分析,提供结构 化分析和视图库储存,再对接入大数据平台完成视频结构化 转换。

人体结构化技术的发展极大的降低了案件侦破时间成 本和人力成本,也大大降低了视频存储压力,对原有智能安

防是一种狱补充。国内很多安防厂商也推出各种结构化服 务器产品,但是实际应用中也有很多问题,场景复杂性对于 算

,算法性能还需要进一步提高。

(三)跨场景目标跟踪

目标跟踪在警务工作中具有广泛的应用价值,假如对 任何感兴趣的目标都可以准确完整地跟踪到行进轨迹,将 大大减轻侦查人员的工作量,大幅提高工作效率。跨场景 目标跟踪的另一个应用场景是刑侦中广泛用到的行人再识 别。根据应用场景的不同,可以将目标跟踪分为单场景目 标跟踪和跨场景目标跟踪两类。单场景目标跟踪包括单目 标和多目标跟踪,跨场景目标跟踪可以分为重叠场景和非 重叠场景目标跟踪(如图8)。以下主要就跨场景目标跟 踪探索应用模式。

% 身 % I %(a)重叠场景 1.重叠场景目标跟踪

(b)非重叠场景

图8不同种类的多摄像机网络分布示意图

重叠场景目标跟踪一般应用在特殊场合,对于空间和 时间的连续性要求较高,这种场景下受遮挡影响比较小,而 跟踪范围没有非重叠场景大,并且需要对摄像机进行前期标 定工作,因此对于跨场景的目标跟踪问题,虽然可以利用重 叠场景的丰富的空间信息解决单场景下棘手的遮挡等一 系列问题,健由于经济因素和计算复杂度的,目前仍 然没有大规模的实战应用。

由于采用多个摄像机从不同视角观测相同区域,这个 空间关系为跨场景目标持续跟踪提供了有利条件。如图9应 用案例中,目标在行进过程中可以被一个以上摄像机监控 到,根据目标头肩、形体、衣着等人体属性特征以及摄像机 的拓扑结构,可以实时跟踪和预判该目标的行进轨迹,在通 关口岸等裝裸场所有重要的应用价值。

图9重叠场景下的跨摄像机跟踪

〇丨1〇6 6〇1111〇丨〇97 2018年第2期15

专鑕

2.非重叠场景目别,因此跨场景目标匹配和识^问题准确率会更低;另外,不

非重叠场景目标跟踪在实际应用中分为两种模式

,一

同场景之间的监控肓区导致不同场景下的相同目标的不同观测 在时间和空间上都不连续,这种时空信息的缺失在实际应用中

种是通过构建摄像机网络拓扑结构进行目标跟踪,也it是行 人再识m

另一种是所谓的动。

行人再识别应用_般由四部分构成,分别为拓扑估 计、摄像机之间光照变化的处理、跨摄像机目标匹配和数据 关联。拓扑估计是通过学习得到描述多摄像机系统中各摄像 机连接关系的拓扑图。摄像机之间光照变化的处理是为了消 除不同场景的不同光照条件对目标表观造成的影响,是在进 行跨摄像机目标匹配之前的程。跨摄像机目标 匹配是对在不同时刻出现在不同摄像机前的目标进行建模, 利用匹配策略,得到相应的匹配分数。数据关联即把目标的 表观信息、各场景之间的空间信息、时间信息等各种信息相 融合,最终实现运动目标在不同摄像机下的连续跟踪。

随着平安城市以及雪亮工程的建设推进,越来越多的监 控摄像机投入瓶为行人再识别的应用构筑了坚实的数据基 础,并且行人再识9他吸引了大批相关企业的关注及投入〇

球联动是指利用高空固定摄像机与地面球机相结合 的方式,通过高空固定摄像机获取目标位置,然后通知地面 球机利用人体基本属性识5!1进行接力跟踪。这种方式既可以 应用在贼的封闭场所,也可以应用在城市级,因为目諫 多城市都架设了制高点摄像机,对于城市应急離以及协调 大量摄像机进行刑侦工作可以发挥重要作用。如图10应用 案例中,耐楼顶獅周界进行监控,发现目标

发送到最近的球机,球机根据目标的形体、衣着等属性特征 进行主动跟踪,这样无论目标处于任何位置都可以在电子地 图上显示出行进雛〇

四' 结束语

随着我国天网工程、平安城市、雪亮工程建设的推 进,海量监控视频的铺设已初具规模。但随之而来的是海量 视频的管理和应用难题,目标人群无从找起,历史w

i以

查证,视频大数据的潜在价值未被挖掘。随着计算机视觉技 术的不断发展和计算能力的提升,人们希望能对监控视频中 的人体目标进一步理解分析,以进行后续的应用开发。近年 来,人像属性分析已成为智能视频分析领域的关键方向之 -,为海量视频中基于语义属性的人像检索、人体结构化信 息挪和挖掘、无重叠鹏的跨场景目标vS艮驢供关 支撑,为大规模场景下的智能视频分析应用拓宽思路。

当前,在计算机视觉领域,通过海量图像数据学习的 深度神经网络,已被证明比传统特征工程拥有更丰富的信 息量,从底层表观到高层语义为人像属性提供多层次的特 征提取,在未来具有高度的研究价值和实用价值。目前在 人像属性分獅域,人体检测'人体分割、人像属性识别 的研究大多各自为战,仍缺乏一个高效统一的端到端解决 方案,亟待学术界和工业界共同推进。k

参考文献

[1] 高文庆.监控环境下的行人属#^测方法研究P],天津大学,

2015.

[2] Daig Y, Luo P, Qien C L» et aL Learning to RmDgpi2e Pedestrian AttributeJJl. Conputer Science, 2015.[3] Ii D, Qien X, Huang K Multi—attribute Leamii^ for Pedestrian Attribute Recognition in Surveillance Scenarios[C|// Pattern ReajgpidDrL IEEE, 2016.

[5] Wang J, Zhu X, Gcng S, et aL Attribute Recogpilicn by Joint Recurrent Learning of Ccmtsext and Condation[Q// IEEE

图10球联动跨摄像机目标跟踪

[4] Faren2Em M, Bazzsm 1^ Perina A, et aL Person ReHdentificaticm by Symm^r-driven Accumulation of Lcxal Features[C]// Con^iutEr \\^on and Pattern RfcognitiorL IEEE, 201ft236〇-2367.

不管題叠场敲是非fi*场景,行人再识别在实际应 用中都面临巨大挑战,国际上学术界在大的公开库上的结果也 不是特》應想,何:兄在实际场景中,不同摄像机安装的角度不 同,臓的光照雜不同,甚至嫌机的錄不同等诸多因素 都使得不同摄像机下观测到的同一^动目标的表观有很大区

Society, 2017531-0.

[6] Haiyu Zhao, Maocpng Tian, Shuyar^ Sun, Shao, Juigie Yan, Shuai Yi, !?Qac^ng War^, 5Qaoou Tai^ Spindle net Peisoti Re­identification with Human Bcx3y R^jion Guided Feature Decoirpositictti and FusLn[C]. CVPR, 2017.

[7] Liu Z, Luo P, Qb S, et aL De^Eashion: Powering Robust Qothes Recognition and Redieval with Ridi AnnDtations[C|// Corrqxiter \\laon and Pattern RecxDgnitiorL IEEE, 2016:1096—1104.

[8] liu X, Zhao H, Tian M, et aL HydraHus-Ned Attentive Deq> Features £ar Pedestrian Analysis{J], 2017.

16匿1EU32018年第2期

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- haog.cn 版权所有 赣ICP备2024042798号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务