基于生成对抗网络在服装领域的发展脉络和应用趋势

文章目录

    • 1、概述
    • 2、深度学习图像生成模型
      • 2.1、深度信念网络(Deep belief network,DBN)
      • 2.2、变分自编码器(Variational auto-encoder,VAE)
      • 2.3、生成对抗网络(Generative adversarial networks,GAN)
    • 3、 模型对比分析
    • 4、基于多模态转换的服装图像生成
      • 4.1、文本转图像(Text-to-Image)
      • 4.2、图像转图像(Image-to-Image)
      • 4.3、图像转视频(Image-to-Video)
    • 5、服装图像生成相关产业创新应用
      • 5.1、服装横幅广告自动生成
      • 5.2、个性化服装推荐与生成
      • 5.3、服装与图案设计
      • 5.4、走向视频呈现的虚拟试衣
    • 6、结论


1、概述

生成式人工智能在服装产业中的应用日益广泛,涵盖了服装零售、电子商务、趋势预测等领域。其中,生成对抗网络(GAN)在去衣技术中的应用解决了数据稀缺、隐私保护等问题,为技术发展提供了更多可能性。未来,多模态生成模型、大规模时尚服装数据集构建以及服装生成等方面有望取得更多研究进展和广泛应用。

2、深度学习图像生成模型

2.1、深度信念网络(Deep belief network,DBN)

DBN(深度信念网络)是一种由多个RBM(限制玻尔兹曼机)组成的概率生成模型,能够克服梯度消失问题,并在无监督学习下生成高质量图像样本。研究证明DBN在手写数字图像生成等任务中表现良好。Susskind等人利用DBN生成特定身份和面部动作的逼真人脸,证明了神经网络在表示人脸方面的潜力。Osindero通过添加横向连接提高了DBN的数据建模能力,从而生成更逼真的自然图像斑块。Torralba利用机器学习技术将Gist图像描述符转换为紧凑二进制码,以减少内存占用并提高图像识别效果,实现了彩色图像的生成。这些研究展示了DBN在图像生成领域的应用前景。

2.2、变分自编码器(Variational auto-encoder,VAE)

VAE(变分自编码器)是一种无监督图像生成学习框架,具有快速采样、处理方便和易接入编码网络等优势。Nouveau VAE利用深度可分离卷积和批量归一化生成高质量图像。分层VAE将图像建模为前景和背景的组合,在人脸和鸟类图像的实验中表现出良好的属性条件重建和合成效果。Razavi通过扩展和增强自回归先验,在大规模图像中生成更具相关性和保真度的合成样本。多级VAE采用从粗到细的多阶段图像生成方法,通过两个模块生成草图并进行细化,以生成高质量图像。这些研究展示了VAE在图像生成领域的应用潜力。

2.3、生成对抗网络(Generative adversarial networks,GAN)

生成对抗网络(GAN)自2014年提出后,在图像识别、生成、修复、语义分割和风格转换等领域得到广泛应用。图像生成是计算机视觉研究的重点方向之一,GAN模型变体的发展满足了低训练难度、高分辨率和生成样本多样性等需求。根据结构变体,GAN模型包括深度卷积GAN、半监督学习GAN、条件式GAN、拉普拉斯金字塔GAN和边界均衡GAN等。根据损失函数变体,主要模型有Wasserstein距离GAN、WGAN-GP、F散度GAN和最小二乘GAN等。这些变体扩展和优化了GAN的发展脉络。

3、 模型对比分析

服装领域应用中,DBN在蜡染图案识别、人体部位及服装识别、面部生成、服装分类等均有应用;VAE常应用在电商服装推荐系统、服装设计、风格分类、服装风格迁移等领域;GAN在服装领域中应用更为广泛,例如电商广告生成;服装搭配推荐、服装设计;虚拟试衣等。

DBN、VAE、GAN生成原理及优缺点如下图所示:
深度生成模型原理及优缺点
深度生成模型结合了深度神经网络的学习表征能力和数理统计、概率论的知识,近年来取得了显著进展。DBN、VAE和GAN是其中的代表模型,它们在处理数据样本集的能力上有所递进。

  • DBN在小样本数据处理中表现出色,但生成图像质量较低

  • VAE适用于学习结构良好的潜在空间,但生成图像清晰度不足

  • GAN则具有一次生成、训练偏差小、生成图像多样且分辨率高等优势,被广泛研究和应用,特别是在服装图像生成领域。基于GAN的模型变体正不断改善图像生成的不足

4、基于多模态转换的服装图像生成

原始GAN存在生成内容随机、无法指定图像类型等问题。CGAN通过引入条件变量,将无监督模型改进为有监督模型,实现指定类别的图像生成。在服装领域,由于庞大易得的数据集,深度学习的发展更为广泛深入。CGAN在该领域的应用主要分为文本转图像、图像转图像和图像转视频三种形式。

4.1、文本转图像(Text-to-Image)

文本合成图像是指根据给定的文本描述生成所需图像的过程。

以下是文本合成图像技术的发展过程:

  • Zhang提出了StackGAN和StackGAN++,实现了基于文本描述的高分辨率图像生成。

  • Xu的AttnGAN通过引入深度注意力多模态相似度模型,提高了生成图像与文本描述的细节关联度。

  • Zhu的FashionGAN通过两阶段生成任务减少了伪影和噪声,实现了指定服装的人物图像生成。

  • Zhou和Günel的工作分别基于自然语言描述和文本条件编辑图像生成了人物姿势和服装属性。

  • Banerjee的AC-GAN通过提供文本属性实现了服装类别和背景分类的生成。

这些方法在提高生成图像与文本描述的一致性和多样性方面具有重要意义。

4.2、图像转图像(Image-to-Image)

生成对抗网络在服装设计中广泛应用的形式是图像到图像的转换。

以下是图像转图像技术的发展过程:

  • Pix2Pix作为CGAN的变体,通过引入U-Net架构减轻训练负担并生成细致图像,解决了单一输入对应多个输出的问题。

  • Zhao扩展Pix2Pix以适应AR中的服装设计任务。

  • Tango以Pix2Pix为基础,引入额外鉴别器和损失函数实现动漫图像到cosplay服装图像的生成。

  • Kwon提出Rough-to-Detail GAN解决全局一致性问题,实现时装模特着装的精细生成。

  • CycleGAN和DiscoGAN通过双GAN机制实现图像到图像的转换

  • Fu和Kim的工作实现了图像的艺术风格转移。

  • Choi的StarGAN实现了单个模型为多个域执行图像到图像的转换

  • Shen的GD-StarGAN提升了生成图像的纹理特征保留能力。

  • Xian的TextGAN模型通过细粒度纹理控制实现了用户的精细需求。

这些方法在图像到图像的转换中具有重要的应用价值。

4.3、图像转视频(Image-to-Video)

GAN在图像生成视频中的应用包括延时摄影、视频帧预测和视频动画制作。

以下是图像转视频技术的发展过程:

  • Shen的AffienGAN实现了从单个静止图像中预测任意时间长度的面部表情视频。

  • Maximov的CIAGAN在保护人物隐私的同时生成可用于计算机视觉任务的高质量图像和视频。在虚拟试衣方面

  • Dong的FW-GAN通过引入流判别器提升时空平滑性,实现了任意姿势下穿着所需服装的人物视频合成。

  • Pumarola的工作实现了参考图像中的服装到目标视频人物的转移。

  • Ma等提出了MeshVAE-GAN模型,实现了直接修饰3D人体网格并泛化到不同姿势的服装变形。

  • Kuppa等的ShineOn模型旨在阐明每个实验的视觉和定量效果,解决了现有虚拟试衣作品在量化视觉效果和超参数细节方面的不足。

这些方法在图像生成视频和虚拟试衣领域具有重要的应用价值。

CGAN通过向生成器输入先验分布样本和条件,并将生成的对象和条件输出到判别器进行评估和打分,从而生成满足目标条件的服装图像或视频。基于CGAN的多模态转换研究主要沿着生成数据精细化、清晰化和高逼真度的方向改进。

  • Text-to-Image应用包括给定模特换装、服装纹理渲染、人物姿势和服装属性生成以及服装类别和背景分类。

  • Image-to-Image应用涵盖服装设计、图像转换、风格迁移、虚拟试衣和流行趋势预测。

  • Image-to-Video应用则涉及面部表情视频帧预测、匿名模特视频生成和虚拟试衣。这些应用展示了CGAN在服装图像和视频生成中的潜力。

CGAN生成服装图像及视频研究分类如下图所示:
CGAN生成方法研究分类

5、服装图像生成相关产业创新应用

5.1、服装横幅广告自动生成

智能生成技术在消费过程中具有积极影响,特别是在服装电商领域。通过智能设计和生成对抗网络,可以实现大规模个性化横幅广告生成,提高商家工作效率和数据利用率。

阿里巴巴鹿班作为AI辅助工具,利用生成式人工智能打通电商广告全链路营销,快速生成大量广告并不断优化。

此外,鹿班还能自动更新价格和商品主图,解决频繁更换横幅广告带来的问题,保障商家运营流畅。这些应用展示了智能生成技术在提升电商服装销售和消费者体验方面的潜力。

5.2、个性化服装推荐与生成

推荐系统是服装电商导航和个性化推荐的有效工具。GAN在推荐系统中的应用有助于更好地理解消费者需求,通过图像分割处理和特征提取,结合生成对抗网络和孪生卷积神经网络模型,可以自动生成服装搭配结果。

工作原理如图下图所示:
GAN服装搭配原理
推荐系统在电子商务和服装零售领域有广泛应用,如尺码推荐、日用产品推荐和流行服装推荐。结合CNN的“视觉感知”推荐器与GAN可以生成多样化的服装搭配,符合消费者审美和穿着习惯。

这些应用展示了GAN在提升推荐系统准确性和多样性方面的潜力。

5.3、服装与图案设计

服装领域拥有庞大数据集,为深度生成提供了便利。Amazon和阿里巴巴等电商利用深度学习在时尚趋势发现和塑造方面占据优势。

GAN在智能服装设计中发挥积极作用,CGAN通过添加参数向量y生成特定条件下的图像,实现了各种品类服装的生成。

麻省理工学院的研究人员开发了一种能够生成时装设计的GAN模型,其生成结果独特而富有韵味如下图所示。这些应用展示了GAN在服装设计领域的创新潜力。
在这里插入图片描述

5.4、走向视频呈现的虚拟试衣

虚拟试衣在电影制作、视频编辑和线上购物等领域具有重要应用价值。

早期的虚拟试衣系统成本高且繁琐,而近年来基于深度神经网络的虚拟试衣模型如CA-GAN、MG-VTON、FW-GAN等在自由变换服装、改善图像欠拟合、细化纹理褶皱细节和解决遮挡问题等方面取得了优化。Pix2surf模型实现了将服装图像转化为纹理贴图并映射到三维虚拟衣物模型的表面,从而支持实时虚拟试衣。

Shineon模型通过服装变形和试穿双模块机制生成用户多角度试穿服装的视频,提供了更全面的试衣体验。

如下模型虚拟试衣运行机制示意图所示:
 模型虚拟试衣运行机制
这些应用展示了虚拟试衣技术在提升在线购物体验和减少碳足迹方面的潜力。

6、结论

近年来的数字服装研究主要分为低级服装识别、中级服装理解和高级服装应用三个层次。在高级服装应用中,服装图像生成取得了显著进展,其中生成对抗网络(GAN)因其出色的性能成为主流。

然而,该领域仍面临生成模型效用单一、服装数据集适用面窄以及缺乏生成评估的客观标准等问题。为解决这些挑战,以下是未来探索的三个主要方向:

  • 研发综合多模态生成的模型,如阿里巴巴的“M6”模型,以增强生成效用

  • 构建大规模服装数据集的集合,以提供更好的数据表示

  • 建立服装生成评估的客观标准,以确保生成图像的质量和美学因素。这些努力有望推动数字服装研究的进一步发展

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/617047.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS3新增

一些CSS3新增的功能 课程视频链接 目录 CSS3概述私有前缀长度单位remvwvhvmaxvmin 颜色设置方式rgbahslhsla 选择器动态伪类目标伪类语言伪类UI伪类结构伪类否定伪类伪元素 盒子属性box-sizing问题插播 宽度与设置的不同 resizebox-shadowopacity 背景属性background-originb…

C语言 数据输入输出

本文 我们来说 数据的输入与输出 及数据的运算 在程序的运算工程中 往往需要输入一些数据 而程序的运算 所得到的运算结果又需要输出给用户 因此 数据的输入与输出 就显得非常重要 在C语言中 不提供专门的输入输出语句 所有的输入输出 都是通过对标准库的调用 来实现的 一般 …

视觉SLAM学习打卡【10】-后端·滑动窗口法位姿图

本节是对上一节BA的进一步简化,旨在提高优化实时性.难点在于位姿图部分的雅可比矩阵求解(涉及李代数扰动模型求导),书中的相关推导存在跳步(可能数学功底强的人认为过渡的理所当然),笔者参考了知…

【Java多线程】案例(4):定时器

目录 一、定时器是什么? 二、Java标准库中的定时器 三、自己实现定时器 四、标准库中更推荐使用的定时器 一、定时器是什么? 定时器是一种用于在指定时间间隔或特定时间点执行特定任务的工具或设备。在计算机科学中,定时器通常是软件或硬件组件,用…

React+TS项目搭建

使用webpack5搭建ReactTS项目 一.初始化项目 初始化一个基本的reactts项目,首先创建一个项目文件夹,输入初始化命令 npm init -y 初始化完成后生成package.json文件,之后需要在项目下新增以下所示目录结构和文件 ├── build | ├── webpack.base.js # 公共配置 | ├…

造数据,别慌!使用python faker创建大批量随机测试数据

前言 在数据库的使用过程中,有很多场合是要自行去构造大规模数据,以供测试、性能功能验证使用。我在前边一文:PostgreSQL - 大规模随机数据生成方法里介绍了PostgreSQL中生成大规模随机数据的方法。这种方法,生成数据比较快&…

LeetCode34:在排序数组中查找元素的第一个和最后一个位置(Java)

目录 题目: 题解: 方法一: 方法二: 题目: 给你一个按照非递减顺序排列的整数数组 nums,和一个目标值 target。请你找出给定目标值在数组中的开始位置和结束位置。 如果数组中不存在目标值 target&…

AI大模型探索之路-应用篇11:AI大模型应用智能评估(Ragas)

目录 前言 一、为什么要做智能评估? 二、Ragas是什么? 三、Ragas使用场景 四、Ragas评估指标 五、Ragas代码实践 总结 前言 随着人工智能技术的飞速发展,AI大模型(LLM)已经成为了推动技术创新和应用的关键因素。…

数模 初见数建

文章目录 初见数学建模1.1 数学建模是什么1.2 数学建模的概述1.3 如何学习数学建模---分模块化1.4 数学建模前提了解1.5 数学建模的六个步骤1.6 如何备战建模比赛1.7 数学建模赛题类型1.8 数学建模算法体系概述 初见数学建模 1.1 数学建模是什么 1.原型与模型 原型&#xff…

Golang | Leetcode Golang题解之第28题找出字符串中第一个匹配项的下标

题目&#xff1a; 题解&#xff1a; func strStr(haystack, needle string) int {n, m : len(haystack), len(needle)if m 0 {return 0}pi : make([]int, m)for i, j : 1, 0; i < m; i {for j > 0 && needle[i] ! needle[j] {j pi[j-1]}if needle[i] needle[…

AI图书推荐:如何在课堂上使用ChatGPT 进行教育

ChatGPT是一款强大的新型人工智能&#xff0c;已向公众免费开放。现在&#xff0c;各级别的教师、教授和指导员都能利用这款革命性新技术的力量来提升教育体验。 本书提供了一个易于理解的ChatGPT解释&#xff0c;并且更重要的是&#xff0c;详述了如何在课堂上以多种不同方式…

程序猿没有副业,太难了

副业的初衷 我知道踏下心来钻研本专业会有收获,但又实在没有太多兴趣。 只好努努力,跟着兴致走,多一个选择,多一份抵抗风险的能力。 不管从事什么行业&#xff0c;除了做好自己本职工作以外&#xff0c;还会有一些空闲的时间来做一些其他事情&#xff0c;与其说是副业,不如说…