深度学习技术前沿 2021-04-10 00:00
以下文章来源于AI科技评论 ,作者贝爽
作者 | 贝爽 转自AI科技评论前段时间,OpenAI重磅推出的 DALL·E 神经网络模型惊艳了所有人,这个被称为“图像版GPT-3的模型,可以像魔法一般按照文字描述直接生成对应图片。令人没想到的是,时隔近三个月之后,AI在文本到图像合成领域又有了新的精进,不仅能识字合成图像,还能依据文本提示对参考图在对应特征上精准PS,而且效果(相比上图)更逼真。如在一只猫的原图上添加文本提示:橘色、大耳朵、大鼻子、可爱。可以看到,生成后的图像几乎准确地呈现了文本特征,尤其是最后一张Cute Cat,对比原图锐利的眼神,可以说可爱效果满分(AI竟知道大眼就是可爱)。所有生成后的图像都很难看出修改痕迹,无论是全局变色(橘猫),还是局部五官微调(大耳朵),都有一种原图的既视感。另外,即使在复杂的风景图像上也是如此。如输入一栋建筑图,给出文本提示:树木、云朵、塔尖、圆顶屋。 AI依次生成:门前有树的建筑、背后天空云层变厚的建筑、顶部变尖的建筑、屋顶变圆的建筑。当然,最能体现AI性能的还是其在人脸特征的处理上。如图,AI按照文本提示给希拉里、斯威夫特、马斯克烫上了卷发、直发、波波头、刘海等不同发型:对于其中的第二行,小编只想说,这不就是全国发廊通用的发型图册嘛,效果也太自然了。另外,图中的第二、三列是AI按文本提示对肤色进行处理的结果,这前后对比图可以说是很多人暴晒后的真实写照了。不过最让小编惊讶的还是第四列,AI通过眼妆、红唇呈现的妆容效果,充分体现了AI在细节之处的把控。估计产品经理们看到,都会感慨,那些闹心的日子将一去不复返了。人类设计师则恐惧不已,怀念过去和产品经理撕逼的“美好时光”。开个玩笑,回归正题。小编了解到,这款AI是希伯来大学、特拉维夫大学以及Adobe 研究院联合推出最新视觉模型StlyCLIP。它利用StyleGAN的潜在空间,进一步突破了文本驱动的图像操作效果。值得一提的是,这项研究已经放出了部分代码,敬请期待核心代码的开源!
StyleCLIP模型
StlyCLIP,从其命名可以看出,它是StlyGAN与CLIP模型的结合,前者是当下最主流的图像生成器,能够生成分辨率1024*1024的高清图片。后者是OpenAI推出神经网络模型,它与DALL·E共同实现了本文到图像的转换与合成。 论文中介绍,StlyCLIP主要是利用CLIP模型的力量来实现基于文本的语义图像操作,这种操作的好处是,它既不局限于预设的操作方向,也不需要额外的手动操作。CLIP模型是从Web上获取4亿个图像-文本进行预训练的,由于自然语言能够表达更广泛的视觉概念集,将CLIP与StyleGAN的生成能力相结合可以为图像处理开辟新的途径。 具体来说,研究人员为StyleGAN图像处理模型开发一个基于文本的界面。利用CLIP为基础的损失修改输入的潜在向量,以响应用户提供的文本提示。接下来,再通过一个潜在映射器,为给定的输入图像提供文本引导的潜在操作步骤,从而允许模型更快更稳定的基于文本进行操作。 总结来看,在实现交互式文本驱动的图像操作过程中,研究人员提出了三种技术:1、Optimizer:文本引导的潜在优化器,其中CLIP模型用作损失网络(Loss Network )。2、 Mapper:为特定文本提示训练潜在残差映射器,在潜在空间输入预处理图像,映射器会产生一个局部步长(local step)3、global dir:一种将文本提示映射到StyleGAN样式空间的全局方向的方法,以提供对操作强度和分离程度的控制。
利用CLIP处理图像的一个简单方法是通过直接优化潜在代码。具体来说,给定一个源代码Ws∈W+,和一个自然语言文本提示t,以解决以下优化问题:其中,G是一个预训练的StyleGAN生成器,Dclip是嵌入CLIP两个参数之间的余弦距离;与输入图像的相似性由潜在空间中的L2距离和身份损失控制。其中,R是用于人脸识别的预训练ArcFace网络。在这里,研究人员通过梯度下降法来解决优化问题——通过预训练生成器StyleGAN和图像编码器CLIP将(1)中目标的梯度反向传播。
上面描述的潜在优化器是多功能的,它对每个源图像和文本提示执行专项优化。但由此也导致编辑和优化一幅图像需要几分钟的时间,此外,这种方法对其参数值有些敏感。基于此,研究人员提出了更高效的训练映射网络,它可针对特定的文本推断潜在空间的操作步骤。在本例中使用的文本提示为“惊奇”。原始图像(左)被转换成一个潜在代码W。三个单独的映射函数被训练来生成残差(蓝色),这些残差再添加到W中以产生目标代码,经过预训练StyleGAN(绿色)模型后,即可生成右侧的目标图像。按照文本提示,莱昂纳多变成了川普,碧昂丝变成了金发女郎。(图中参数为不同文本提示训练的映射器得到的操作方向之间的平均余弦相似性。) 此外,论文中还提供了几个头发样式的编辑示例。这些示例使用了不同的映射器,如结果所示,它们成功地保留了人物身份以及与头发无关的视觉属性。图中显示了四种不同的头发属性组合,直发/卷发和短发/长发,每种都产生了预期的结果。
虽然潜在映射器加快了推理时间,但研究人员发现,当需要细粒度的分离操作时,它有时会出现明显地不足。此外,对于给定的文本提示,不同操作步骤的方向往往是相似的。受这些观察结果的启发,他们提出了一种将文本提示映射到StyleGAN样式空间中单个全局方向的方法。该方法已被证明比其他潜在空间更容易分离。举个例子,如设置本文标签为年龄时,它往往涉及多个属性,比如灰色头发、皱纹、皮肤均可体现年龄特征,这些属性是相互关联的,在这种情况下研究人员设置了不同的参数以控制操作中的分离程度。如图: α参数操控发色属性,随着α值的增加,图中马斯克的头发颜色逐渐由黑色变得苍白,同时,β参与随之调控其他相关属性,随着β的降低,如皱纹、面部形状等特征也会显现。下图为操控面部表情和发型等8个复杂文本标签的结果。论文中介绍,它使用的是FFHQ数据集对StyleGAN2模型进行预训练,并将源图通过e4e编码器嵌入到W+空间。可以看到在悲伤、生气、惊喜等常见面部情绪上均有较好额呈现。类似地,下图为该模型在LSUN汽车数据集以及AFHQ动物数据集上预训练StyleGAN2的结果:
实验比较与评估
论文中,研究人员对上述介绍的具体进行了评估。首先在文本驱动的图像处理方法上,他们比较了潜在映射器、全局方向以及TediGAN三种处理方法的性能表现,如图: 最左边图像输入的文本提示是“Trump”,它涉及金发、眯眼、张嘴、胖脸等多个相关属性,可以看到,全局潜在方向能够捕捉到主要的视觉属性,但这些属性并不是特朗普特有的,相比之下,潜在映射器的效果更为成功。中间图像“Mohawk”的文本提示并不复杂,只涉及到发型,因此两种方法都能产生令人满意的操作结果。不过,全局方向的生成结果稍微不太明显,考虑是受到了CLIP空间中平均方向的影响。最后,对于“Without Wrinkles”提示,全局方向成功地消除了褶皱,同时保持其他属性基本不受影响,而映射器显然很失败。研究人员把它归因于W+不太受牵连,因为他们在另一组属性(“奥巴马”、“愤怒”、“胡须”)上也观察到类似的现象。基于此,可以得出结论,对于复杂和特定的属性(特别是那些涉及身份属性的),映射器能够产生更好的操作结果。对于更简单和/或更常见的属性,全局方向就足够了,同时提供了更多的分离操作。而至于TediGAN,显然它在文本提示下的生成的图像都失败了。针对其他StyleGAN处理方法,研究人员还展示了全局方向方法与GANSpace、InterFaceGAN和StyleSpace三种最先进的StyleGAN图像处理方法之间的比较结果。如图: 此次对比的文本提示涉及性别、白发和唇膏三个文本提示,可以看出,在GANSpace中,操作结果还影响到了肤色、亮度等无关属性,而在InterFaceGAN中,人物的身份特征也发生了显著的变化(在口红标签下)。相比之下,StyleSpace和研究人员的方法基本只改变了目标属性,其它所有无关属性基本保持不变。 另外,研究人员还与StyleFLow(一种最先进的非线性方法)进行了比较。结果显示,尽管StyleFlow同时使用多个属性分类器和回归器,但产生的结果质量与StyleCLIP基本相似。
存在局限
论文中表明该方法目前仍存在一定的不足,如它赖于预先训练的样式生成器和CLIP模型来实现联合语言视觉的嵌入,这种情况下很难将图像操纵到位于预训练生成器的域之外的点(或者在生成器覆盖较少的区域中)。因此,由于图像填充不够充分,映射到CLIP空间区域的文本提示也不能完全准确地提供语义视觉操作。此外,研究人员还观察到,在不同的视觉数据集中进行大幅度的更改操作仍很难实现。比如虽然老虎很容易转化为狮子,但在将老虎转化为狼时却不太成功,如图:
总结
本文介绍了三种新颖的图像处理方法,它们结合StyleGAN强大的生成能力以及CLIP的视觉概念编码能力,实验结果证明,这些方法能够实现多种独特的图像处理,其中一些还是现有方法依靠注释数据无法实现的。此外,CLIP模型还展示了细粒度编辑空间的处理能力,如在上述指定所需的发型中,StyleCLIP能够控制操纵该文本特征的强度和程度来更好地呈现结果。 总之,研究人员认为文本驱动的操作是一个强大的图像编辑工具,未来它的能力和重要性只会持续增长。https://arxiv.org/pdf/2103.17249v1.pdfhttps://github.com/orpatashnik/StyleCLIP