网易伏羲人工智能实验室技术创新再突破!前馈捏脸等3篇论文入选CVPR 2025

news/2025/3/12 18:21:16/文章来源:https://www.cnblogs.com/wyfx/p/18768187

近日,全球计算机视觉和模式识别领域的顶级会议CVPR (Conference on Computer Vision and Pattern Recognition)公布论文接收结果:网易伏羲人工智能实验室凭借其在前馈捏脸等领域的创新研究,成功入选3篇论文。

CVPR 是计算机视觉和模式识别领域最顶级的学术会议之一,至今已有40余年历史。在 Google Scholar 的学术会议 / 杂志排名中,CVPR 名列总榜第二,仅次于Nature。今年,共有 13008 份有效投稿并进入评审流程,其中 2878 篇被录用,最终录用率为22.1%。

以下为网易伏羲人工智能实验室此次入选的三篇论文概要:

《EasyCraft: A Robust and Efficient Framework for Automatic Avatar Crafting 》
一种前馈式的通用捏脸框架

关键词:智能捏脸,多模态输入

涉及领域:Automatic Character Creation, Multimodal

论文链接:https://arxiv.org/pdf/2503.01158

捏脸是角色扮演游戏、虚拟现实等应用中基础且重要的任务。传统捏脸过程需要用户花费大量时间调整参数以创建理想的虚拟形象,如今,最新的AIGC技术已经能够从图像或者文本中自动化的获取捏脸参数。然而,现有的捏脸自动化方法仍存在以下问题:

风格一致性差:现有方法依赖于特定图像域,难以适配不同游戏引擎的风格(如写实、动漫、卡通等)。
输入多样性不足:面对多样化的输入(如真实照片、动漫图片、文本描述),现有方法表现不稳定。
效率低下:现有方法依赖迭代优化,生成速度慢,难以满足实时需求。
为了解决这些问题,网易伏羲人工智能实验室提出EasyCraft,一个创新的端到端框架,旨在通过统一的翻译器(Translator)实现基于图像和文本的自动捏脸。EasyCraft的核心是一个能够将任意风格的图像转换为游戏引擎捏脸参数的翻译器,支持多种输入类型,显著提升了捏脸的灵活性和准确性。


基于文字和图像的捏脸效果图

相比于已有的技术方案,EasyCraft 在以下几个方面展现了技术创新:

  • 通用翻译器:摆脱了已有方法对神经渲染器的依赖,引入参数翻译器,能够将游戏风格的图像转为捏脸参数,从而实现前馈的端到端的捏脸。
  • 多风格图像支持:通过自监督学习,网易伏羲人工智能实验室训练了一个通用的视觉Transformer(ViT)编码器,能够从不同风格的图像中提取统一的面部特征。这使得翻译器能够处理任意风格的输入图像,而不仅限于游戏引擎的特定风格。
  • 游戏引擎适配:翻译器的训练仅依赖于游戏引擎生成的参数-图像对,无需额外的监督信号。通过将统一的面部特征映射到特定引擎的捏脸参数,EasyCraft能够轻松适配不同的游戏引擎。
  • 文本驱动捏脸:结合Stable Diffusion(SD)模型,EasyCraft支持基于文本描述的捏脸。网易伏羲人工智能实验室通过微调SD模型,使其生成符合游戏引擎风格的图像,再通过翻译器转换为捏脸参数,实现了更精准的文本驱动捏脸。


方法总图(a):视觉Transformer(ViT)编码器预训练 (b): 翻译器训练(c):图像驱动捏脸 (d):文字驱动捏脸

网易伏羲人工智能实验室在两款RPG游戏(永劫无间手游《Justice Mobile》和逆水寒手游《Naraka: Bladepoint Mobile》)上进行了大量实验,验证了EasyCraft的有效性:

  • 图像输入:EasyCraft在处理不同风格的输入图像时,生成的捏脸结果在身份相似性和视觉质量上均优于现有方法。
  • 文本输入:与现有文本驱动捏脸方法相比,EasyCraft生成的捏脸结果在多样性和语义一致性上表现更优。
  • 用户研究:用户对EasyCraft生成的结果给予了更高的评分,认为其在逼真度和一致性上显著优于其他方法。


图像驱动捏脸与已有方法对比结果


文字驱动捏脸与已有方法对比结果

经过大量实验证明,网易伏羲人工智能实验室证实了其提出的EasyCraft捏脸框架具备以下优势:

  • 通用性强:支持任意风格的图像输入,适配多种游戏引擎。
  • 高效精准:通过端到端的框架,实现了快速且精准的捏脸生成。
  • 灵活扩展:翻译器的训练仅依赖于游戏引擎数据,易于扩展到其他捏脸系统。

综上所述,EasyCraft为游戏捏脸系统提供了一种全新的自动化解决方案,并在线上AB测试中相比旧方案采纳率提升3倍。EasyCraft的推出,不仅提升了捏脸系统的自动化水平,也为玩家提供了更便捷、个性化的角色创建体验。网易伏羲人工智能实验室的这一技术为网易乃至整个游戏行业带来了更多创新可能。未来网易伏羲人工智能实验室将进一步优化模型,提升其在复杂场景下的表现,同时,积极探索更多潜在的应用场景,如虚拟偶像、元宇宙角色创建等,力求将这项技术应用于更广泛的领域,带来更多的价值和可能性。

《Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment》
通过声音引导的视觉聚合实现更鲁棒的视听分割

关键词:视听分割,视听对齐

涉及领域:Audio Visual Segmentation, Audio Visual learning


歧义性视听关联样本示意图

视听分割作为多模态学习任务的一环近年来广受关注。先前的工作大多强调从时空角度加强视听关联,而忽视了视听数据的独有特性带来的挑战。本研究重点关注带有歧义性的视听关联样本,即空间上属于同一视觉类别不同发声状态的物体与时序上物体发声状态频繁切换,引起的视听定位错误的问题。为此,本文提出了一个声音引导的模态对齐模块,将视听交互范围限制在语义密度相似的视觉区域,逐步对发声区域进行合并,以此来逐步加强真正发声区域与声音的关联。此外,我们在时序上引入不确定性评估模块,在时序上对物体发声的不确定性进行评估,缓解物体发声状态突变造成的过度分割问题。


声音引导的渐进式模态对齐方法


定位结果示意图

实验结果表明,本文研究方法在处理发声状态频繁切换及视觉类别相似但发声状态不同的复杂样本时,能够显著提高视听定位的准确性。这种方法不仅增强了模型对复杂视听场景的理解能力,同时也为未来相关领域的研究提供了新的视角和解决方案。

《Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics》
动态衍生和擦除:带有增强语义的视听分割

关键词:视听分割,视听对齐

涉及领域:Audio Visual Segmentation, Audio Visual learning

近年来,建立有效的视听关联已经成为多模态学习领域的重要目标之一。为了实现更强的视听关联,之前的方法主要集中在设计更先进的视听关联架构上,而忽视了声音特性所带来的视听关联挑战。本研究探索了声音的可加性及同一物体发声多样性导致的视听关联问题。


示意图:声音可加性和较大的类内差异带来的视听匹配困难

为了解决声音可加性对声音语义表达的削弱,本文提出了一种声音语义动态衍生方法,通过补充多声源数据的语义信息来增强单声源的语义表达。此外,我们通过学习细粒度的类内鉴别性语义,解决了声音类别内部差异较大所带来的视听关联困难。最后,我们提出了一种视觉语义引导的视觉无关声音语义擦除方法,旨在减少噪声和画外音对视听关联构建的干扰。


方法示意图


分割结果示意图

实验结果表明,我们的方法在视听分割数据集上展现出了显著的性能提升,证明了其在处理复杂音频-视觉关联任务方面的有效性。这一进展不仅推进了视听分割技术的发展,也为未来多模态学习的研究提供了新的视角和方法。

此次网易伏羲人工智能实验室多项研究成果入选CVPR 2025,不仅彰显了其在国际学术界的影响力与创新能力,也体现了通过尖端技术推动行业进步的坚定决心。作为科研和孵化的基石,网易伏羲人工智能实验室致力于前沿技术的研发;而网易伏羲则在此基础上,进一步推进这些技术的产品化和商业化探索。展望未来,网易伏羲将持续秉持开放合作的精神,深化AI技术及其应用的研究,促进人机协作的广泛应用,助力各行各业实现数字化转型,并共同探索人工智能带来的无限可能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/897798.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html的基础操作2

1、表格标签(table语句) (1)认识表中的一些常用单词 border 边距 align 格式 ‘ center’ 对齐 cellspacing 单元格与单元格的距离 cellpadding 单元格与内容的距离 wedth 宽度 height 高度 tr 表示:行 th 表示:表头 td :表示列 -表格的案例--代码- <!DOCTYPE…

MySQL 去除 \n 斜杠n,\\n,\\\\n,mysql去除换行符

MySQL 去除 \n 斜杠n,\\n,\\\\n,mysql去除换行符 使用navicat查询数据可以看到字符\n,(这里的\n并不是换行符,而是字符,换行符是不可以看到的) 在查询数据的时候需要转义才能查询到(查询时斜杠的数量是实际数量的4倍,不然会查询异常)-- 错误写法 SELECT field FROM…

day:19 html实战3

一、表单标签 一、表单单词介绍: 表单标签格式:form action:开始网址 method:get和post等等 表单标签:主要用来收集用户输入信息如:登入、注册、搜索商品等 用户名格式:text (明文) 密码格式:password (密文) 性别:radio 性别格式 性别是单选,单选类型是radio,注…

希尔排序Shell Sort

Shell Sort希尔排序是一种分组插入排序 首先取一个整数d1=n/2,n为列表长度,将元素分为d1个组,每组相邻量的元素之间距离为d1,在各组内进行直接插入排序 去第二个整数d2=d1/2,重复上述分组排序过程,直到di=1,即所有元素在同一组内进行直接插入排序 希尔排序每趟并不使某些…

数字孪生是如何通过接入VR和720等技术实现智慧楼盘的?

在当今智能化、数字化浪潮下,智慧楼盘逐渐成为房地产行业的发展趋势。数字孪生技术通过构建虚拟模型来映射真实楼盘,从而实现对建筑各项数据的实时监控、分析和预测。而当这一技术与VR(虚拟现实)和720全景等先进技术相结合时,智慧楼盘的应用效果便得到了进一步的提升,为业…

如何利用进销存系统,实现批次和保质期管理?

现在做食品、药品、化妆品、生鲜等行业,批次和保质期管理真是个大难题。 很多老板都遇到过这些问题:批次号乱七八糟 库存管理混乱 出问题找不到源头 人工管理容易出错这些问题,不仅让你亏钱,还可能让客户投诉、被市场监管盯上,甚至面临罚款。 怎么办?——用进销存系统!今…

Android的页面跳转

通过在antivity_xml设置按钮并添加属性 : <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"android:orientation="vertical"android:layout_width=&qu…

第1个服务-定时任务

第1个服务-定时任务 ​ 使用服务的流程: 部署,配置,优化/注意事项,排障,其他(监控,备份,日志,统一认证) ​ 定时任务格式配置 ​ 定时任务案例 ​ 同步时间 备份 终极挑战: 通过脚本取出系统指标,通过邮件发送出去 ​ 定时任务箴言 1.概述定时任务:用于执行在Linux…

第 3 课 - nRF Connect SDK 应用程序的元素 - 配置文件

根据开发者学院的描述,本节课程主要是了解NCS应用程序的结构,了解它们彼此之间的关系以及他们之间如何相互作用。 其中一些概念性的内容需要看官方的描述,我这里只对主要内容做一些总结。最小应用程序文件结构 app/ |-- CMakeLists.txt |-- Kconfig |-- prj.conf |-- <bo…

牛客题解 | 计算矩阵的特征值

牛客题库题解题目 题目链接 矩阵的特征值是指矩阵在某个方向上的拉伸倍数,数学表达式为: \[A \times v = \lambda \times v \]其中,\(A\) 为原矩阵,\(v\) 为特征向量,\(\lambda\) 为特征值。 在数学上,通常求解特征方程来求解特征值: \[det(A - \lambda I) = 0 \]但是,…

光伏龙头出海记:正泰新能易路如何用数字化HR破解全球化用工合规困局

2025开年,全球光伏领域组件供应商龙头企业——正泰新能科技股份有限公司(以下简称“正泰新能”)与易路人力资源科技(以下简称“易路”)合作携手,通过高效、智能、合规的HR数字化解决方案,拓展土耳其乃至全球的光伏市场,促进全球能源转型下的行业发展与技术创新。2025开…