文章目录
- 1、概述
- 2、深度学习图像生成模型
- 2.1、深度信念网络(Deep belief network,DBN)
- 2.2、变分自编码器(Variational auto-encoder,VAE)
- 2.3、生成对抗网络(Generative adversarial networks,GAN)
- 3、 模型对比分析
- 4、基于多模态转换的服装图像生成
- 4.1、文本转图像(Text-to-Image)
- 4.2、图像转图像(Image-to-Image)
- 4.3、图像转视频(Image-to-Video)
- 5、服装图像生成相关产业创新应用
- 5.1、服装横幅广告自动生成
- 5.2、个性化服装推荐与生成
- 5.3、服装与图案设计
- 5.4、走向视频呈现的虚拟试衣
- 6、结论
1、概述
生成式人工智能在服装产业中的应用日益广泛,涵盖了服装零售、电子商务、趋势预测等领域。其中,生成对抗网络(GAN)在去衣技术中的应用解决了数据稀缺、隐私保护等问题,为技术发展提供了更多可能性。未来,多模态生成模型、大规模时尚服装数据集构建以及服装生成等方面有望取得更多研究进展和广泛应用。
2、深度学习图像生成模型
2.1、深度信念网络(Deep belief network,DBN)
DBN(深度信念网络)是一种由多个RBM(限制玻尔兹曼机)组成的概率生成模型,能够克服梯度消失问题,并在无监督学习下生成高质量图像样本。研究证明DBN在手写数字图像生成等任务中表现良好。Susskind等人利用DBN生成特定身份和面部动作的逼真人脸,证明了神经网络在表示人脸方面的潜力。Osindero通过添加横向连接提高了DBN的数据建模能力,从而生成更逼真的自然图像斑块。Torralba利用机器学习技术将Gist图像描述符转换为紧凑二进制码,以减少内存占用并提高图像识别效果,实现了彩色图像的生成。这些研究展示了DBN在图像生成领域的应用前景。
2.2、变分自编码器(Variational auto-encoder,VAE)
VAE(变分自编码器)是一种无监督图像生成学习框架,具有快速采样、处理方便和易接入编码网络等优势。Nouveau VAE利用深度可分离卷积和批量归一化生成高质量图像。分层VAE将图像建模为前景和背景的组合,在人脸和鸟类图像的实验中表现出良好的属性条件重建和合成效果。Razavi通过扩展和增强自回归先验,在大规模图像中生成更具相关性和保真度的合成样本。多级VAE采用从粗到细的多阶段图像生成方法,通过两个模块生成草图并进行细化,以生成高质量图像。这些研究展示了VAE在图像生成领域的应用潜力。
2.3、生成对抗网络(Generative adversarial networks,GAN)
生成对抗网络(GAN)自2014年提出后,在图像识别、生成、修复、语义分割和风格转换等领域得到广泛应用。图像生成是计算机视觉研究的重点方向之一,GAN模型变体的发展满足了低训练难度、高分辨率和生成样本多样性等需求。根据结构变体,GAN模型包括深度卷积GAN、半监督学习GAN、条件式GAN、拉普拉斯金字塔GAN和边界均衡GAN等。根据损失函数变体,主要模型有Wasserstein距离GAN、WGAN-GP、F散度GAN和最小二乘GAN等。这些变体扩展和优化了GAN的发展脉络。
3、 模型对比分析
服装领域应用中,DBN在蜡染图案识别、人体部位及服装识别、面部生成、服装分类等均有应用;VAE常应用在电商服装推荐系统、服装设计、风格分类、服装风格迁移等领域;GAN在服装领域中应用更为广泛,例如电商广告生成;服装搭配推荐、服装设计;虚拟试衣等。
DBN、VAE、GAN生成原理及优缺点如下图所示:
深度生成模型结合了深度神经网络的学习表征能力和数理统计、概率论的知识,近年来取得了显著进展。DBN、VAE和GAN是其中的代表模型,它们在处理数据样本集的能力上有所递进。
-
DBN在小样本数据处理中表现出色,但生成图像质量较低
-
VAE适用于学习结构良好的潜在空间,但生成图像清晰度不足
-
GAN则具有一次生成、训练偏差小、生成图像多样且分辨率高等优势,被广泛研究和应用,特别是在服装图像生成领域。基于GAN的模型变体正不断改善图像生成的不足
4、基于多模态转换的服装图像生成
原始GAN存在生成内容随机、无法指定图像类型等问题。CGAN通过引入条件变量,将无监督模型改进为有监督模型,实现指定类别的图像生成。在服装领域,由于庞大易得的数据集,深度学习的发展更为广泛深入。CGAN在该领域的应用主要分为文本转图像、图像转图像和图像转视频三种形式。
4.1、文本转图像(Text-to-Image)
文本合成图像是指根据给定的文本描述生成所需图像的过程。
以下是文本合成图像技术的发展过程:
-
Zhang提出了StackGAN和StackGAN++,实现了基于文本描述的高分辨率图像生成。
-
Xu的AttnGAN通过引入深度注意力多模态相似度模型,提高了生成图像与文本描述的细节关联度。
-
Zhu的FashionGAN通过两阶段生成任务减少了伪影和噪声,实现了指定服装的人物图像生成。
-
Zhou和Günel的工作分别基于自然语言描述和文本条件编辑图像生成了人物姿势和服装属性。
-
Banerjee的AC-GAN通过提供文本属性实现了服装类别和背景分类的生成。
这些方法在提高生成图像与文本描述的一致性和多样性方面具有重要意义。
4.2、图像转图像(Image-to-Image)
生成对抗网络在服装设计中广泛应用的形式是图像到图像的转换。
以下是图像转图像技术的发展过程:
-
Pix2Pix作为CGAN的变体,通过引入U-Net架构减轻训练负担并生成细致图像,解决了单一输入对应多个输出的问题。
-
Zhao扩展Pix2Pix以适应AR中的服装设计任务。
-
Tango以Pix2Pix为基础,引入额外鉴别器和损失函数实现动漫图像到cosplay服装图像的生成。
-
Kwon提出Rough-to-Detail GAN解决全局一致性问题,实现时装模特着装的精细生成。
-
CycleGAN和DiscoGAN通过双GAN机制实现图像到图像的转换
-
Fu和Kim的工作实现了图像的艺术风格转移。
-
Choi的StarGAN实现了单个模型为多个域执行图像到图像的转换
-
Shen的GD-StarGAN提升了生成图像的纹理特征保留能力。
-
Xian的TextGAN模型通过细粒度纹理控制实现了用户的精细需求。
这些方法在图像到图像的转换中具有重要的应用价值。
4.3、图像转视频(Image-to-Video)
GAN在图像生成视频中的应用包括延时摄影、视频帧预测和视频动画制作。
以下是图像转视频技术的发展过程:
-
Shen的AffienGAN实现了从单个静止图像中预测任意时间长度的面部表情视频。
-
Maximov的CIAGAN在保护人物隐私的同时生成可用于计算机视觉任务的高质量图像和视频。在虚拟试衣方面
-
Dong的FW-GAN通过引入流判别器提升时空平滑性,实现了任意姿势下穿着所需服装的人物视频合成。
-
Pumarola的工作实现了参考图像中的服装到目标视频人物的转移。
-
Ma等提出了MeshVAE-GAN模型,实现了直接修饰3D人体网格并泛化到不同姿势的服装变形。
-
Kuppa等的ShineOn模型旨在阐明每个实验的视觉和定量效果,解决了现有虚拟试衣作品在量化视觉效果和超参数细节方面的不足。
这些方法在图像生成视频和虚拟试衣领域具有重要的应用价值。
CGAN通过向生成器输入先验分布样本和条件,并将生成的对象和条件输出到判别器进行评估和打分,从而生成满足目标条件的服装图像或视频。基于CGAN的多模态转换研究主要沿着生成数据精细化、清晰化和高逼真度的方向改进。
-
Text-to-Image应用包括给定模特换装、服装纹理渲染、人物姿势和服装属性生成以及服装类别和背景分类。
-
Image-to-Image应用涵盖服装设计、图像转换、风格迁移、虚拟试衣和流行趋势预测。
-
Image-to-Video应用则涉及面部表情视频帧预测、匿名模特视频生成和虚拟试衣。这些应用展示了CGAN在服装图像和视频生成中的潜力。
CGAN生成服装图像及视频研究分类如下图所示:
5、服装图像生成相关产业创新应用
5.1、服装横幅广告自动生成
智能生成技术在消费过程中具有积极影响,特别是在服装电商领域。通过智能设计和生成对抗网络,可以实现大规模个性化横幅广告生成,提高商家工作效率和数据利用率。
阿里巴巴鹿班作为AI辅助工具,利用生成式人工智能打通电商广告全链路营销,快速生成大量广告并不断优化。
此外,鹿班还能自动更新价格和商品主图,解决频繁更换横幅广告带来的问题,保障商家运营流畅。这些应用展示了智能生成技术在提升电商服装销售和消费者体验方面的潜力。
5.2、个性化服装推荐与生成
推荐系统是服装电商导航和个性化推荐的有效工具。GAN在推荐系统中的应用有助于更好地理解消费者需求,通过图像分割处理和特征提取,结合生成对抗网络和孪生卷积神经网络模型,可以自动生成服装搭配结果。
工作原理如图下图所示:
推荐系统在电子商务和服装零售领域有广泛应用,如尺码推荐、日用产品推荐和流行服装推荐。结合CNN的“视觉感知”推荐器与GAN可以生成多样化的服装搭配,符合消费者审美和穿着习惯。
这些应用展示了GAN在提升推荐系统准确性和多样性方面的潜力。
5.3、服装与图案设计
服装领域拥有庞大数据集,为深度生成提供了便利。Amazon和阿里巴巴等电商利用深度学习在时尚趋势发现和塑造方面占据优势。
GAN在智能服装设计中发挥积极作用,CGAN通过添加参数向量y生成特定条件下的图像,实现了各种品类服装的生成。
麻省理工学院的研究人员开发了一种能够生成时装设计的GAN模型,其生成结果独特而富有韵味如下图所示。这些应用展示了GAN在服装设计领域的创新潜力。
5.4、走向视频呈现的虚拟试衣
虚拟试衣在电影制作、视频编辑和线上购物等领域具有重要应用价值。
早期的虚拟试衣系统成本高且繁琐,而近年来基于深度神经网络的虚拟试衣模型如CA-GAN、MG-VTON、FW-GAN等在自由变换服装、改善图像欠拟合、细化纹理褶皱细节和解决遮挡问题等方面取得了优化。Pix2surf模型实现了将服装图像转化为纹理贴图并映射到三维虚拟衣物模型的表面,从而支持实时虚拟试衣。
Shineon模型通过服装变形和试穿双模块机制生成用户多角度试穿服装的视频,提供了更全面的试衣体验。
如下模型虚拟试衣运行机制示意图所示:
这些应用展示了虚拟试衣技术在提升在线购物体验和减少碳足迹方面的潜力。
6、结论
近年来的数字服装研究主要分为低级服装识别、中级服装理解和高级服装应用三个层次。在高级服装应用中,服装图像生成取得了显著进展,其中生成对抗网络(GAN)因其出色的性能成为主流。
然而,该领域仍面临生成模型效用单一、服装数据集适用面窄以及缺乏生成评估的客观标准等问题。为解决这些挑战,以下是未来探索的三个主要方向:
-
研发综合多模态生成的模型,如阿里巴巴的“M6”模型,以增强生成效用
-
构建大规模服装数据集的集合,以提供更好的数据表示
-
建立服装生成评估的客观标准,以确保生成图像的质量和美学因素。这些努力有望推动数字服装研究的进一步发展