卡内基梅隆大学刚刚发布了其关于人脸识别的最新研究,由其改进的算法能够从图片中提取并编码关键信息,也就是说能从人海中迅速提取面部信息。目前是人脸识别最热门的创业方向之一,卡内基梅隆大学的这项技术研究对于产业界的应用将起到很大的推动作用。
无论是在茫茫人海中提取面部信息,还是在大图中识别出远处/细小的物体,都对计算机视觉图形提出了非常大的挑战。凭借着多年的技术积淀,来自卡内基梅隆大学的科研团队终于找到了其中的诀窍——成功识别细小对象的关键就是寻找与之匹配的更大物体。
这种能够从图片中提取并编码关键信息的改进算法,是由副教授 Deva Ramanan 和博士生 Peiyun Hu 共同推进的,可谓是识别微型人脸里程上的重大进步。
模拟人类视网膜 人脸识别技术研究的重大进步
在面部的基准测试集中,此前的方法只能识别出 29% 到 64% 之间的正确人类面孔,而她们所提出的改进版算法减少了两个导致误差的隐私,从而将正确率提高到了 81%。
Ramanan 说道:「这就像是寻找在某个人手中的一根牙签。当你提示对象可能会使用牙签的时候你就会非常容易看到它。手指的方位,手部的动作和位置都为我们最终找到这根牙签提供了非常重要的线索。」
同样,为了寻找那些只有极少像素点的的面部,更大照片中的身体或者人群照片都能提供诸多线索。
对于微型面部的提取拥有广阔的应用前景,例如统计人群数量等等。而延伸至微型物体的需求日益突显,就拿自动驾驶汽车来说当车速越来越快,必然需要时刻监视和评估交通状况,必然需要对远处的物体进行充分且正确的识别,才能做出正确的反应。
模拟人类视网膜 人脸识别技术研究的重大进步
Ramanan 表示通过辅助关联信息来帮助识别对象并不是什么新鲜的概念。然而,在实际系统中很难去阐述和表达这种直觉。这是因为对关联信息的编码通常涉及到「高纬度描述」(High-Dimensional Descriptors),其中包含大量信息但是使用起来却是非常的麻烦。
他和 Hu 所研发的方法是使用了「中央凹描述」(Foveal Descriptors),模拟人类视觉结构对关联信息进行编码。中央凹是视网膜中视觉(辨色力、分辨力)最敏锐的区域,这种方法为图片的小块区域提供了清晰的细节,而周围区域则比较的模糊。
通过模糊外部图像,中心凹描述提供了充足的关联信息,在高度聚焦下帮助理解这个区域所展示的内容,而且极大的降低了计算负担。基于这种方式,Hu 和 Ramanan 的系统能够在更少像素点的图形块中寻找并确认是否存在人脸。
简单的增加一张图片的分辨率可能并不是寻找微型物体的最佳解决方案。伴随着高分辨率会带来「Where『s Waldo」的问题,目标对象包含大量的像素点,极有可能在像素点中迷失。在这种情况下,充分利用关联信息就能够帮助系统关注到包含面部的图像区块。除了上文提及的关联信息之外,Ramanan和Hu表示如果在同一个图像区域中数次检测到鼻子,那么利用检测器在拥有少数像素点的图像区域中找出面部是非常困难的。因此他们针对不同尺寸的对象培训了多个独立检测器,从而大大提高了检测微型物体的能力。
今年 7 月 21 日至 26 日在美国夏威夷州的首府火奴鲁鲁将会举办计算机视觉与模式识别国际会议(CVPR 2017),科研团队届时将会发表详细的报告。目前网络版报告已经发布,雷锋网将持续关注后续动态。