新闻资讯

中科院研发出AI人像生成模型,可将简笔画生成逼真人脸肖像

2020-07-22 admin

近日,中国科学院北京分院的研究团队研发出一个AI人像生成模型。该模型可以依据简笔画生成逼真的人脸肖像。


利用这一模型,没有绘画经验的人也可以很容易地得到逼真图像。除了用于娱乐,在未来,这个模型或能帮助执法人员进行嫌疑人画像。


这项研究发表在学术网站arXiv上,论文标题为《深度人脸画像:从草图深度生成人脸图像(DeepFaceDrawing:Deep Generation of Face Images from Sketches)》。今年七月份,这项技术将在计算机图形学顶会SIGGRAPH会议上展出。

中科院研发出AI人像生成模型,可将简笔画生成逼真人脸肖像

一、给人脸“分区”,逐块推理出逼真图像


现有的“从图像生成图像”的技术已经可以实现快速输出结果。但是,现有解决方案对输入图像的要求较高,只有以专业素描画像等逼真度较高的图像作为输入时,才能生成逼真的人脸肖像。


在这种模型中,输出结果的质量直接受到输入图像的影响,即输出结果受到输入图像的“硬约束”。


为了解决这一问题,中国科学院北京分院的研究团队设计出一种“从局部到全局(local-to-global)”的“软约束(soft constraint)”方法。总的来说,这一方法基于一个深度学习框架,分为两步进行。


首先,研究人员把简笔画输入模型。模型依据简笔画,推理出人脸上各个器官的“布局”情况。这一步中,模型采用隐式建模(implicitly model)方法建立人脸图像的形状空间模型,并学习人脸关键部位的特征嵌入。


模型将人脸分成左眼、右眼、鼻子、嘴唇、脸型这5个关键“组件”。


然后,模型依据脸部的“布局”情况,从简笔画“倒推”出逼真的人脸图像。这一步中,模型依据人脸组件样本的特征向量,从输入简笔画的相应部分,推理出潜在的人脸组件流形(Manifold)。


对于每一个关键部位,模型隐式定义了一个潜在流形。研究人员假设底层组件的流形是局部线性的。模型运行经典的局部性嵌入算法,将简笔画人脸特征的组件投影到其组件流形上。


为了改善信息流,研究人员应用另一个深层神经网络,使其在上述两步之间输出中间结果。这个深层神经网络通过多通道特征映射,学习从嵌入组件特征到逼真图像的映射结果。


二、60位参与者打分1302次,证实模型输出结果更逼真


模型搭建好后,研究人员使模型在一台搭载了一个英特尔i7-7700 CPU和一个NVIDIA GTX 1080Ti GPU、拥有16GB内存的电脑上运行,用17000张简笔画和照片进行训练。训练结束后,研究人员对模型进行了评估。


研究人员首先用线条不同的简笔画作为输入。结果显示,不同的线条会导致输出图像拥有不同的细节,但输出图像其他部分大体上没有变化。


比如,在下图中,简笔画鼻子部位的线条变化导致输出图像整个脸部的光线出现了变化。

中科院研发出AI人像生成模型,可将简笔画生成逼真人脸肖像

然后,研究人员选用现有的全局检索(global retrieval)模型和组件级检索(component-level retrieval)模型与本项研究中的“从局部到全局”模型进行了对比。结果显示,“从局部到全局”模型返回的样本最接近输入组件草图。


为了使评估结果更加精确,研究人员进行了一项用户调查。研究人员选用22张抽象层次不同、粗糙度不同的简笔画作为输入,分别用全局检索模型、组件级检索模型、“从局部到全局”模型输出结果。


共有60名参与者(39男21女,年龄介乎18至32岁)参加了用户调查。研究人员向每个参与者展示4张照片,其中1张为简笔草图、3张为模型输出的合成图像。


研究人员共得到1320个主观评价。对这些评价结果的统计结果显示,参与者普遍认为“从局部到全局”模型的输出结果更加准确、图像质量也更高。


输出结果准确性方面,“从局部到全局”模型平均得分为4.85,局部检索模型平均得分为4.23,全局检索模型平均得分为5.37。


输出结果图像质量方面,“从局部到全局”模型平均得分为5.50,局部检索模型平均得分为4.68,全局检索模型平均得分为3.65。


三、局限性:易出现不兼容问题,缺乏少数族裔样本


评估结果显示,“从局部到全局”模型能根据一张人脸简笔画,输出仿真度较高的人脸图像。但是,论文指出,这一模型还有一些局限性。