学界 | 利用人脸图片准确识别年龄:上海大学研究者提出「深度回归森林」

选自arXiv

作者:沈为等

机器之心编译

参与:李泽南、刘晓坤、黄小天


根据面部图像评估人物年龄通常被认为是一个非线性回归问题,其主要挑战是关于年龄的面部特征空间是异构的。在上海大学、约翰霍普金斯大学、南开大学与海康威视等机构提交的新论文中,研究人员提出了深度回归森林(Deep Regression Forests/DRFs),一个用于年龄评估的端到端模型。他们在三个标准年龄评估基准上验证了 DRFs,全部取得了当前最优的结果。


由于不断增长的法医研究、安全控制、人机交互(HCI)和社交媒体的多种潜在应用的需求,人们对根据人脸图像进行年龄评估越来越感兴趣。虽然这个问题已经被广泛地研究过,但目前机器根据人脸图像自动评估年龄的准确率和可靠度仍然远远落后人类表现。



图 1:(a)不同的人在相同的年龄下的外貌特征的巨大区别。(b)一个人从童年到成年时期的面部图像。注意,面部随年龄的变化在童年时期主要在于脸形,在成年时期的变化主要在于皮肤纹理。


存在两种年龄评估任务。一种任务是真实年龄评估,即根据面部评估一个人的准确生物学年龄,而另一种任务是年龄群体评估,即预测某人年龄处于某个区间的概率。本论文专注于第一种任务类型,即准确年龄的回归。解决这个问题的关键是学习面部图像特征和真实生物学年龄之间的非线性映射函数。然而,学习这样的映射很有挑战性。主要的困难在于,关于年龄的面部特征空间是异构的,原因有两个:(1)不同的人在相同的年龄下的外貌特征的巨大区别(如图1 a)。(2)人脸的成长在不同的年龄以不同的方式进行,例如,面部随年龄的变化在童年时期主要在于脸形,在成年时期的变化主要在于皮肤纹理(如图 1 b)。


为了对这样的异质数据建模,已有的年龄评估方法要么寻找一个基于核的全局非线性映射;要么应用分而治之的策略,将数据空间分区然后学习多个局部回归器。然而,这些方法都有缺点,:由于异质性的数据分布,学习非平稳的核不可避免会出现偏差,从而导致过拟合。分而治之策略是学习面部的非平稳年龄变化的好方法,但已有的方法都是根据年龄进行硬分区,因此这些方法可能无法找到用于学习局部回归器的异质子集。


为了解决以上所述的挑战,研究人员提出了可微回归森林(differentiable regression forests)。随机森林或随机化决策树是一种流行的集成预测模型,其中每个树结构可以自然地在分离节点上执行数据分区,在叶节点上执行数据抽象。传统的回归森林使用的是数据硬分区,基于启发式(例如使用贪心算法,其中局部最优硬决策是在每个分离节点上执行的)。和它们不同,我们提出的可微回归森林执行的是数据软分区,从而可以学习输入相关的分区函数以处理异质数据。此外,叶节点(局部回归器)上的输入特征空间和数据抽象可以进行联合学习,从而确保叶节点上的局部输入-输出关联是异质的。


最近,CNN 端到端学习已经十分流行,并广泛用于提升不同计算机视觉任务的性能,如图像分类、语义分割,以及物体识别。本文提出的可微回归森林可与任何深度网络实现无缝整合,形成端到端的深度年龄评估模型,也就是深度回归森林。为了构建这样一个树模型,研究人员采用交互优化策略:首先固定叶节点,通过反向传播优化分离节点和 CNN 参数处的数据分区;接着固定分离节点,通过变分边界优化叶节点处的数据抽象。这两个学习步骤交替进行,以联合优化用于年龄评估的特征学习和回归建模。


研究人员根据实际年龄评估方法的三个基准测试上评估了新的算法:MORPH、FGNET 和跨年龄名人数据集(CACD)。实验结果表明在这三个基准上这个算法超越了若干个当前业内最优秀的方法。


本文提出的算法受深度神经决策森林(Deep Neural Decision Forests,dNDFs[33])和标签分布学习森林(Label Distribution Learning Forests,LDLFs[48])所启发而提出,但算法的目标是不同的(回归 vs. 分类/标签分布)。由于回归的输出空间的分布是连续的,但是这两个分类任务的输出空间的分布是离散的,所以将可微分的决策树扩展到回归计算上是很困难的。本论文的贡献有三个:


1)提出了深度回归森林(Deep Regression Forests,DRF)和一个端到端模型,以通过联合学习分离节点中的输入相关的数据分区和叶节点中的数据分布处理异构数据。

2)基于变分边界,我们的更新规则在 DRF 叶子结点上的收敛是有数学保证的。

3)在三种标准的年龄评估基准测试中应用 DRF 方法,全部达到了当前最佳的结果。



图 2:深度回归森林图示。顶部红色圆圈是被Θ参数化的函数 f 的输出单元。这里,它们是 CNN 中全连接层的单元。蓝色和绿色节点分别是分离节点和叶节点。两个指数函数ϕ_1 和 ϕ_2 分别分配给这两个树(π_1 和π_2)。黑色箭头表示这两个树的分离节点与全连接层输出单元的对应关系。注意,一个输出单元可能对应于属于不同树的分离节点。每个树有独立的叶节点分布 π(由叶节点中的曲线分布表示)。森林的输出是树预测的混合。f(·; Θ) 和 π以端到端的方式被联合学习。



表 1:MORPH 上的性能对比(设置 I)(*:表示数值读取自该研究有记录的 CS 曲线)


论文:Deep Regression Forests for Age Estimation



论文链接:https://arxiv.org/abs/1712.07195


摘要:根据面部图像评估年龄通常被认为是一个非线性回归问题,其主要挑战是关于年龄的面部特征空间是异构的,这是因为同一年龄段不同人的面部外观区别很大,以及衰老模式是非平稳性的。在本论文中,我们提出了深度回归森林(Deep Regression Forests/DRF),一个用于年龄评估的端到端模型。DRF 把分离节点连接到 CNN 的一个全连接层,并通过联合学习分离节点处的输入相关数据分区和叶节点处的数据抽象来处理异构数据。这一联合学习策略遵守交互策略:首先,固定叶节点,使分离节点以及 CNN 参数被反向传播优化;接着固定分离节点,通过迭代从变分边界导出的步长自由和快速收敛的更新规则来优化叶节点。我们在三个标准年龄评估基准上验证了 DRF 的能力,并且全部取得了当前最优的结果。



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com

相关文章
相关标签/搜索