押注数字人,百度、科大讯飞“短兵相接”

 

配图来自Canva可画

近两年,小雀斑、柳夜熙、AYAYI等大量网红数字人的相继出现,以及虚拟数字技术在《指环王》和《阿凡达》以及《刺杀小说家》等电影中的广泛应用,还有北京冬奥会期间数字人在手语解说、节目直播等众多场合亮相,使得公众对数字人的认知上升到了一个新的台阶。

作为数字经济的重要环节,数字人为数字经济的发展注入了新的动能。于是,各个行业企业便涌现出了多个玩家,纷纷基于已有的相关技术和业务基础,开始进军数字人赛道,数字人行业也由此迎来了一波新的发展热潮。

数字人乘风而起

随着数字人在各行各业中的应用越来越广泛,国内数字人市场规模也在持续稳步增长。根据IDC在《中国AI数字人市场现状与机会分析2022》报告中预计,到2023年中国AI数字人市场规模将达102.4亿元。而数字人市场之所以将呈现高速增长的态势,则与三大利好不无关系。

从政策层面来看,国家政策的大力支持,预示着数字人的前景一片大好。近年来,国内虚拟现实相关产业备受外界关注,自2016年起,国家就发布了多项政策支持我国虚拟现实产业的发展,并将虚拟现实和增强现实与云计算、大数据、物联网、工业互联网、区块链、人工智能一起列为了数字经济重点产业。而虚拟数字人作为虚拟现实产业重要的应用之一,自然也有望享受到政策利好所带来的红利释放期。

从技术层面来看,数字技术的融合发展,驱动了数字人进入发展快车道。其实数字人出现的时间并不算晚,只是受技术应用水平的限制,早期的数字人制作周期长且成本高。而近几年,随着CG、语音合成、深度学习算法、自然语言处理等技术的进步,数字人各环节制作周期大大缩短、制作成本明显降低,数字人制作也走向了智能化。坚实的技术基础,不仅创新了数字人行业的发展应用,更是加速了数字人场景化的应用落地。

从环境层面来看,AIGC技术的逐渐成熟,助力了数字人行业规模的拓展。数字人虽然最初多应用于影视、游戏等行业,但随后应用场景将会不断拓展。只不过,越复杂的环境对数字人的信息处理能力、即时互动能力,以及表达能力等都有着更高的要求。而在AIGC的赋能下,数字人内容生产流程将有望得到创新,可助力数字人广泛与各行业领域相结合,为数字人描绘出了极大的创作及交互想象空间。

在政策、技术、环境的多轮驱动下,数字人应用场景将持续得到拓展与深化。而随着数字人行业进入高速发展期,国内也已出现了诸多相当有竞争力的玩家,这其中,以百度为代表的综合类互联网技术厂商,以及以科大讯飞代表的专长类AI厂商的表现最为突出,优势也最为明显。

百度“双轮驱动”

目前来看,数字人虽然已经应用于多个领域,但当前市场上大多的数字人产品精度依旧较低,而百度不仅上线了具备较强的视觉感知和动作控制能力,能够通过手势、语音等方式与用户进行互动的虚拟数字人,还搭建了百度智能云曦灵智能数字人平台,提供虚拟形象智能交互解决方案,而这些产品的生成,都源于百度为数字人相关开发提供了绝佳的土壤。

一方面,百度在AI技术上的领先优势,能够高效率、高质量地推动其数字人技术的迭代升级。众所周知,数字人的发展离不开计算机视觉、智能语音、自然语言处理等AI技术的支持,而作为国内唯一一家既有视觉能力,又有语音、语义相关包括计算机图形学自动生成全链路AI能力平台型的公司,百度已经积累了大量全栈AI能力,而这无疑是其数字人成功落地的实力与底气。

另一方面,百度标准化、平台化的优势,可以有效降低运营门槛,助其数字人实现广泛应用。想要实现“人均一个”数字人,产品标准化、平台化必不可少。得益于百度在视觉、NLP、语音交互等底层全栈AI技术优势的长期积累,以及PLATO百亿参数对话大模型,百度智能云已经将这一能力平台化、标准化,这不仅使其部署成本更低,周期更短,还可以做到一次部署、一次建设,并在多个场景下形成虚拟数字人能力,实现端到端软硬一体的商业应用。

百度凭借无可比拟的AI能力,加之在标准化、平台化中服务稳定、成本低廉等特点,在数字人领域先发制人,在产品力、市场上走在了行业前列。据了解,百度智能数字人平台是世界上首个在线语音交互注意力模型,实现与数字人自然畅通交流,高准确度的音画同步,逐字口型准确率>98.5%。另外,目前百度终端虚拟人产品,也已经以智能客服的形象,成功落地在了深圳、重庆、郑州等多个城市的各大地铁站,全天候为来往的乘客提供最便利的智能咨询服务。

科大讯飞“三线出击”

数字人已经成为多家厂商发力的重点,凡是进入的玩家都在机器视觉、语音交互和自然语言处理等方面有着或多或少的技术积累,而尽管国内诸多互联网大厂和科技巨头都瞄准了数字人赛道,但作为亚太地区知名的智能语音和人工智能上市企业,科大讯飞同样在推动数字人产品和场景应用落地上,建立起了自己的优势。

一是,科大讯飞所具有的丰富的技能和问答知识储备,可以让其数字人变得更加聪慧智能。一直以来,科大讯飞都在致力于让机器“能听会说,能理解会思考”,其开发的星火大模型不仅在开放式知识问答上取得了突破,其多轮对话、逻辑和数学能力也有所升级。而科大讯飞语言理解、知识问答、逻辑推理等各项能力的持续提升,能够使其数字人准确地理解用户问题,并给出自然、准确的回答,为用户带来更为丰富的使用体验。

二是,科大讯飞在智能语音技术方面的深厚积淀,可以为其数字人的落地提供全链路保障。科大讯飞自成立以来,就一直从事着智能语音、自然语言理解、计算机视觉等核心技术的研究,并且其在语音、图像、自然语言理解、机器认知推理能力、多语种多模态人机交互等方面的技术和产业化应用已具有业界领先水平。得益于此,科大讯飞的数字人也就能得到语音识别、语义理解、语音合成、形象驱动、视频渲染服务的全链路保障。

三是,科大讯飞专属的数字人定制能力,有助其在众多厂商中形成差异化优势。科大讯飞可以根据客户要求,在客户的不同业务场景下进行AI虚拟人赋能,为客户提供一站式、定制化AI虚拟人服务。比如,在服务部署上,可以灵活采用公有云或私有云的部署方案,保障交互服务的安全稳定;在形象声音上,可以根据客户音色、风格的需求灵活定制专属的个性化语音库;在虚拟人形象上,可以支持2D真人形象,从而为客户定制专有IP形象。

仍需负重前行

在数字时代,数字人已经开始在各个企业中扮演关键角色。然而对于数字人企业而言,打通产业链各环节、修炼技术“内功”,才是打造竞争优势、强化竞争壁垒的关键。因此,即便是国内数字人发展较为成熟的公司,已经在客户积累、技术实力、销售渠道、资金供给等方面具备了一定积累,但由于数字人行业天花板依旧较高,想要维持长期和衍生发展并不容易。

一方面,国内数字人尚处于起步阶段,距离商业化规模推广仍有一定距离。尽管国内诸多企业的数字人已经实现了场景化应用,但就整体而言,我国数字人行业发展仍处于起步阶段,不仅尚未跑出一个覆盖全产业链的数字人企业,大多数企业在数字人情绪感知、语义理解、情感连接等方面仍有所欠缺。另外,国内各家数字人在细分市场上的产品也都还仍处于试验可行性的阶段,大规模商业化暂时还难以实现。

另一方面,海外巨头的数字人优势明显,国内企业想要追赶还需更加努力。国内领先企业的数字人产品虽然已经颇具特色,但国内企业更侧重AI技术的开发与内容应用,因此数字人产品大多探索的是其在社交活动、新闻媒体、文旅等领域的应用。而海外巨头多聚焦于数字人的基础建设,技术优势较为明显。比如英伟达、Unity等均基于自身技术优势向下游生产技术服务平台延伸,相较于国内,其技术壁垒就更为深厚。

目前来看,国内以百度、科大讯飞为代表的科技企业在数字人上的探索虽然还有一定难度,但值得注意的是,在各个大厂的不断发力,以及人工智能技术的大力加持下,数字人的制作运营效率有望得到持续优化,其应用价值也将得到不断释放。而随着百度、科大讯飞不遗余力地加速数字人的进程,其数字人的未来也将会非常值得期待。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/14031.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Spring Boot的高校实验室信息管理系统设计与实现(Java+spring boot+MySQL+VUE)

获取源码或者论文请私信博主 演示视频: 基于Spring Boot的高校实验室信息管理系统设计与实现(Javaspring bootMySQLVUE) 使用技术: 前端:html css javascript jQuery ajax thymeleaf 后端:Java springboot…

GEE:基于MODIS土地覆盖类型“混交林”的净初级生产力(NPP)的区域统计

作者:CSDN @ _养乐多_ 本文将介绍如何使用Google Earth Engine(GEE)平台提取特定地区的净初级生产力(NPP)的统计信息,并在地图上可视化。通过加载MODIS数据集,并使用GEE提供的函数和方法,能够高效地计算特定地区的净初级生产力的平均值。 文章目录 一、代码详解二、代…

备忘录方法--Fibonacci数列 IV

描述 众所周知,Fibonacci数列是一个著名数列。它的定义是: 本题要求采用第四种方法:备忘录方法,即记忆化搜索。 具体做法是:用数组把曾经求出来的 Fibonacci 数列保存下来,以后要的时候直接取出来。 输入…

【RPC】—Protobuf编码原理

Protobuf编码原理 ⭐⭐⭐⭐⭐⭐ Github主页👉https://github.com/A-BigTree 笔记链接👉https://github.com/A-BigTree/Code_Learning ⭐⭐⭐⭐⭐⭐ Spring专栏👉https://blog.csdn.net/weixin_53580595/category_12279588.html SpringMVC专…

ASL-QPSO|改进量子粒子群自适应算法及其实现(Matlab)

作者在前面的文章中介绍了量子粒子群算法,量子粒子群算法不但继承粒子群算法的优点,还有它自身计算模型更加简洁,控制参数更少等更加突出的优势,但依然存在着一定的局限性。 例如也会存在着早熟收敛的问题,随着迭代次数…

JAVA每日一练(1)

【程序1】 题目:古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第三个月后每个月又生一对兔子,假如兔子都不死,问每个月的兔子对数为多少? import java.util.Scanner;/*…

封装一个带el-form的,带el-table的,带分页的,带搜索查询的dialog组件,很使用的二次封装组件。

#封装dialog小案例 提示:这是我工作中封装的代码,很使用,需要的可以拿去, 在我们的代码中往往会出现点击按钮出现弹窗进行操作,那么我们就需要对dialog进行一个二次封装。 下边是大概的一个样式。 ##对组件进行二次…

【雕爷学编程】Arduino动手做(156)---OTTO两足舵机机器人

37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&am…

虹科教程 | Linux网络命名空间与虹科PROFINET协议栈的GOAL中间件结合使用

前言 PROFINET是由PI推出的开放式工业以太网标准,它使用TCP/IP等IT标准,并由IEC 61158和IEC 61784 标准化,具有实时功能,并能够无缝集成到现场总线系统中。凭借其技术的开放性、灵活性和性能优势,PROFINET可应用于过程…

网络数据包的监听与分析——IP数据报文分析

1. 抓包工具下载 x下面是一个IP数据报的抓包软件——IPtool的蓝奏云下载链接 https://wwix.lanzoue.com/iaGpy11klpnc 2. iptool使用 下载解压之后,右击以管理员身份运行,打开该exe文件即可 然后点击绿色运行就开始捕包了 随便点一个包进去进行分析就可…

指针和数组笔试题解析

目录 数组笔试题 一维数组 字符数组 题 一 题 二 题 三 题 四 题 五 题 六 二维数组 指针笔试题 笔试题一 笔试题二 笔试题三 笔试题四 笔试题五 笔试题六 笔试题七 本篇博文,将从指针和数组来为大家分析一些笔试题,设计内…

【霹雳吧啦Wz】Transformer中Self-Attention以及Multi-Head Attention详解

文章目录 来源Transformer起源Self-Attention1. 求q、k、v2. 计算 a ^ ( s o f t m a x 那块 ) \hat{a} (softmax那块) a^(softmax那块)3. 乘V,计算结果 Multi-Head Attention位置编码 来源 b站视频 前天啥也不懂的时候点开来一看,各种模型和公式&#…