数据少也能认识“国际脸”
于让人脸识别工具尽量多地认识全球各地居民的脸,而这一过程却并不容易实现。北京邮电大学教授邓伟洪告诉《中国科学报》,人脸识别工具研发过程中,使用的训练数据越多、越齐全,精度就会越高。但由于不同国家/地区对公民个人信息的保护,这些信息收集越来越难。没有训练数据就意味着人脸识别工具只认识“熟人”,而对于训练数据中缺失的人群的识别精度较低。 近日,邓伟洪研究团队的一项研究获得新进展,该团队揭示了当前人脸识别算法中普遍存在跨国家/地区识别偏差问题,构建了评价偏差程度的人脸数据集RFW,提出了减小识别偏差的信息最大化自适应神经网络,以改进对目标域的识别能力。10月27日,相关研究结果在由IEEE主办的国际计算机视觉大会(ICCV)上发表。 人脸识别工具的地域之困 卷积神经网络是人工智能的代表算法之一,具有很强的图像表征学习能力。2012年,深度卷积神经网络在计算机视觉领域兴起,其出现极大地推进了人脸识别的发展,并成为人脸识别领域的主流技术。 目前,全球的人脸识别工具大多根据深度卷积神经网络的技术开发,但该技术的人脸数据的源域基于西方人的面部特征,面对不同的目标域,即不同国家/地区居民的面部信息识别需求往往“力不从心”。 邓伟洪表示,由于缺乏基准测试库,这一领域的研究长期进展缓慢。一款人脸识别工具即使在当地的识别率很高,也难以精准到全球人类。这就造成了人脸识别工具较强的地域性。 为了推动该研究,邓伟洪研究团队构建了一个新的测试库——RFW,以科学客观地评测人脸识别中的偏差。 在RFW数据库的基础上,研究人员验证了微软、亚马逊、百度、旷视的商业API和学术界最先进的4个算法。 “这种识别的偏差确实存在,一些地区的错误率甚至高于西方国家的两倍。”邓伟洪说。 该论文的评审专家表示,RFW与现有数据库相比,该数据库中的数据分布更均匀,这将成为跨国家/地区识别的一个较好的基准评价数据。 为了探究这种偏差是否是由训练数据的分布不平衡引起的,研究人员收集了一个涵盖全球各地区人类信息的训练数据库,最终发现偏差的发生受到数据和算法两方面影响。
该论文第一作者、北京邮电大学博士生王玫解释,数据库训练数据平衡、算法相同,但某些国家/地区人类的面部信息识别难度较大,导致识别准确率较低。 (编辑:宜春站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |