音视频技术开发周刊 | 326

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

3428c81ca17399dffaae481bf337e441.png

全球最强「开源版Gemini」诞生!全能多模态模型Emu2登热榜,多项任务刷新SOTA

最强的全能多模态模型来了!就在近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,一口气刷新多项SOTA。

成立2年融资近9亿!AI NPC引爆游戏行业巨变,微软等大厂已经入局

成立2年融资近9亿!AI NPC引爆游戏行业巨变,微软等大厂已经入局。

谷歌DeepMind联手复仇!Jeff Dean、Hassabis万字长文总结2023绝地反击

刚刚,谷歌DeepMind联手复仇!Jeff Dean、Hassabis万字长文总结2023绝地反击。

c7ac07f3d4a8eb6789ed22491ba8af03.png

昆仑万维入选机器之心2023年度最佳大模型 TOP 20、最佳大模型产品及应用 TOP 20
近日,机器之心正式揭晓「AI 中国」机器之心 2023 年度榜单,昆仑万维天工大模型入选“最佳大模型 TOP 20”,天工APP入选“最佳大模型产品及应用 TOP 20”。

快手Agents系统、模型、数据全部开源!

快手联合哈尔滨工业大学研发的「KwaiAgents」,使7B/13B模型也能达到超越GPT-3.5的效果,并且这些系统、模型、数据、评测都开源了!

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率解析出人眼观看到的图像。

CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?

文生视频可以精细到什么程度?最近,阿里巴巴的一项研究给出了答案:1280×720 分辨率没有压力,而且生成效果非常连贯。

bbe66f44280edb5e7156590549c758f8.png

深度学习特征提取匹配开源算法:SuperPoint和SuperGlue

SuperPoint是AR公司——magicleap的工作, SuperGlue是magicleap和苏黎世联邦理工学院(ETH)一起合作的,在2020年附近,SuperPoint+SuperGlue在特征点提取和匹配上有很好的效果,可以达到世界第一的水平。

悉尼大学新作:坐标系在动态SLAM中究竟有多重要?

本文对动态SLAM的多种解决方案进行了深入分析,并且确定了解决该问题的最佳方案。本文旨在突出坐标系对于解决动态SLAM问题的重要性。

太强了!世界第一款开源的自动驾驶一体化框架Autoware!

Autoware最早是由名古屋大学研究小组在加藤伸平教授(Prof. Shinpei Kato)的领导下于2015年8月正式发布。

挪威科技大学开源!用于水下里程计折射相机在线自标定

本文提出了一种适用于水等折射介质的相机模型及其在水下视觉惯性里程计中的应用。该模型是实时自校准的,不需要已知的对应关系或校准目标。它可分为畸变模型(依赖于折射率n和径向像素坐标)和虚拟针孔模型(作为n的函数)。我们推导了利用极线约束的自校准公式来估计折射率,然后对畸变进行校正。

6950ae5723c69544dbd8aec5f5a3a4ee.png

国产AR操作系统告别“卡脖子”,迈向新里程碑

近日, Rokid 联合粒界科技就推动了国产 AR操作系统向前走了一大步,Rokid 新一代空间计算操作系统 YodaOS-Master 将全面支持粒界图形引擎GritGene,实现在 AR 领域软硬件产品全面自主可控和闭环,向行业释放了一系列利好的消息。

微软专利分享元宇宙远程会议中2D与3D的无缝过渡方法

远程会议的发展正在促进元宇宙的普及。然而,当前在线会议应用使用元环境的其中一个主要问题是,并非会议的所有参与者都拥有相同类型的设备。例如,特定用户操作PC,而其他用户操作VR头显。

Meta正式推出MR Utility Kit,帮助你快速构建空间感知型MR应用

Meta在Connect大会发布的实用工具套件MR Utility Kit( Unity和Unreal)现已可用,并提供了诸如Passthrough Rellighting等能够帮助你加快开发并增强应用程序真实感的功能。

dbbcc8dc0e72bb2631999dab2d0fa61e.png

EUV光刻,日本多路出击

在半导体制造过程中,光刻是最关键的步骤之一,决定了芯片的功能和性能。

被放弃的存储技术,3D XPoint细节首度公开

3D XPoint内存技术被称为英特尔与美光科技(以下简称美光)于2015年7月28日(美国时间)共同开发的大容量、高速非易失性内存技术。英特尔于2017年3月商业化了用于服务器的“傲腾SSD DC P4800X”高速SSD,并于2017年4月商业化了用于HDD缓存的“傲腾内存系列”M2卡。“Optane”是英特尔为配备 3D XPoint 内存的产品赋予的品牌名称。

被放弃的存储技术,3D XPoint细节首度公开

3D XPoint内存技术被称为英特尔与美光科技(以下简称美光)于2015年7月28日(美国时间)共同开发的大容量、高速非易失性内存技术。英特尔于2017年3月商业化了用于服务器的“傲腾SSD DC P4800X”高速SSD,并于2017年4月商业化了用于HDD缓存的“傲腾内存系列”M2卡。“Optane”是英特尔为配备 3D XPoint 内存的产品赋予的品牌名称。

一文读懂GPU的过去、现在和未来

大模型AI席卷全球,推理创新的APP、场景落地越来越多。当训练达到一定阶段,推理必然会形成一个爆发。推理的产品要起来,必然要把推理的成本降到今天 1/ 10 甚至 1/100。此时该如何选好、用好 GPU ,进而影响推理成本?

ee84954e0987a0de71a48b724001ceb3.png

ASRU2023 | U2-KWS: 基于关键词偏置的两阶段自定义关键词检出

近期,西工大音频语音与语言处理研究组(ASLP@NPU)和理想汽车合作论文“U2-KWS: Unified Two-pass Open-Vocabulary Keyword Spotting with Keyword Bias”被语音领域旗舰会议IEEE ASRU 2023接收。该论文提出了基于关键词偏置的两阶段自定义关键词检出方案U2-KWS,该方案在两级验证阶段基于注意力机制分别进行关键词偏置(bias)。

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。

清华大学人机语音交互实验室关于表现力语音合成自动风格控制和篇章情感分析的工作荣获最佳论文

语音合成旨在让机器根据给定的文本生成对应内容的语音。表现力语音合成(Expressive Speech Synthesis)致力于为语音合成提供更丰富的情感波动和风格变化,以提高合成语音的拟人度和感染力,在有声读物、虚拟主播、虚拟人等场景下有着广泛的应用价值,因而受到了越来越多研究者的关注。

https://arxiv.org/abs/2312.03491

郑成诗研究员科研团队发表重要综述:时频域单通道语音增强60年——从传统方法到深度学习方法

近日,中国科学院声学研究所(以下简称声学所)噪声与音频声学实验室郑成诗研究员研究团队在听觉领域期刊Trends in Hearing(中国科学院期刊分区一区top)发表综述:Sixty Years of Frequency-Domain Monaural Speech Enhancement: From Traditional to Deep Learning Methods(0时频域单通道语音增强60年——从传统方法到深度学习方法)。

座舱音频系统的架构设计和音频体验

近年来,智能座舱体验日益成为汽车竞争力的核心,智能座舱的多样体验正在成为用户购车时考虑的重要因素。 

4066cc45f150c425455dc0f8380ce54e.png

低延时视频技术的应用场景和挑战

无线网络对人们的生活产生了巨大的影响,而5G技术的引入将彻底改变我们与世界互联互通的方式。在5G时代,实现万物互联离不开低延时技术的应用。

19e9661d3ff375e02addf0d9be40d217.png

专访Meta CTO:AI已是XR杀手应用,LLM开源社区竞争没有输家

Meta CTO接受访谈,大谈AI开源竞争,认为AI开源将让所有参与者获益。同时,XR已经准备好利用AI搭建杀手应用,Meta最近推出的AR眼镜就是最好的例子。

对话国产EDA和IP厂商,如何攻克大规模数字电路设计挑战?

随着先进制程不断推进,以及AI、大数据、云计算等一系列新技术的快速发展,数字电路的处理能力越来越强,电路规模越来越大,对大规模数字芯片的需求也越来越多。因此,如何加速大规模数字电路设计就成为了业内芯片设计企业关注的焦点。

ae778b2c776c1f55c26d125066cee643.png

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。

华为发布问界M9,号称一千万以内最好的SUV,有被震撼到

昨天看了华为问界M9的发布会,余总号称一千万以内最好的SUV(本来以为是个梗,发布会对标的确实很多是几百万的豪车)。计划继续完善Enhance VR,并通过虚拟现实+人工智能的力量来改善大脑健康。

郭明錤:2024年Vision Pro出货量约50万台;Meta 明年将展示一款超前 AR 眼镜原型

苹果年度重磅产品 Vision Pro 将于明年 Q1 于美国市场上市,目前业内对于 Vision Pro 的预估出货量都持不同看法。据天风国际证券分析师郭明錤最新的推文预测,Vision Pro 在明年的出货量约为 50 万台。

腾讯云音视频的创新技术、多元场景以及出海洞察

近年来,腾讯云音视频在音视频技术领域不断突破创新,从采集、编码、传输加速、云端媒体处理、分发到解码,不断探索前沿技术,并将其广泛应用于多元化的场景中。与此同时,在海外市场的实践中,腾讯云音视频积累了丰富的经验和对市场的深刻洞察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/316146.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html引入react以及hook的使用

html引入react 效果代码注意 效果 分享react demo片段的时候&#xff0c;如果是整个工程项目就有点太麻烦了&#xff0c;打开速度慢&#xff0c;文件多且没必要&#xff0c;这个时候用html就很方便。 在html中能正常使用useState 和 useEffect 等hook。 代码 <!DOCTYPE htm…

k8s的声明式资源管理(yaml文件)

1、声明式管理的特点 &#xff08;1&#xff09;适合对资源的修改操作 &#xff08;2&#xff09;声明式管理依赖于yaml文件&#xff0c;所有的内容都在yaml文件当中 &#xff08;3&#xff09;编辑好的yaml文件&#xff0c;还是要依靠陈述式的命令发布到k8s集群当中 kubect…

2024年最新版 Ubuntu 20+ 上安装 Docker

2024年最新版 Ubuntu 20 上安装 Docker 一、前言 在网上搜了一些安装docker的方法&#xff0c;怎么说感觉良莠不齐&#xff0c;参考GPT整理一下来自GPT4这边的安装docker的解决方法&#xff0c;实测能用》2024.1.2&#xff0c;大概耗时7分钟左右&#xff08;在没报错的情况下…

TinyEngine 服务端正式开源啦!!!

背景介绍 TinyEngine 低代码引擎介绍 随着企业对于低代码开发平台的需求日益增长&#xff0c;急需一个通用的解决方案来满足各种低代码平台的开发需求。正是在这种情况下&#xff0c;低代码引擎应运而生。它是一种通用的开发框架&#xff0c;通过对低代码平台系统常用的功能进…

白话机器学习的数学-3-评估

1、 模型评估 那我们如何测量预测函数 fθ(x)的正确性&#xff0c;也就是精度呢&#xff1f; 观察函数的图形&#xff0c;看它能否很好地拟合训练数据&#xff1a; 这是只有一个变量的简单问题&#xff0c;所以才能在图上展 示出来。 过像多重回归这样的问题&#xff0c;变量增…

专访 | STIF2023第四届国际科创节访第七在线CEO赵嘉程

12月15日&#xff0c;在STIF2023第四届国际科创节暨数服会上&#xff0c;第七在线获得年度数智化创新典范奖&#xff0c;第七在线CEO赵嘉程在颁奖典礼现场接受了媒体专访。 主持人&#xff1a;赵总&#xff0c;您好&#xff0c;欢迎您接受我们的专访&#xff0c;首先我们特别想…

fineBI web组件传参

1、fineBI web组件传参 1.1、 Web组件- FineBI帮助文档 FineBI帮助文档1. 概述1.1 版本FineBI 版本HTML5移动端展现功能变动6.0--V11.0.83web组件适配移动端效果优化6.0.13-web组件支持传递参数 ${过滤组件https://help.fanruan.com/finebi/doc-view-143.html 1.2、自己做的例…

【谷歌云】注册谷歌云 创建Compute Engine

文章目录 一、Google Cloud注册1.1 账号信息1.2 付款信息验证1.3 验证成功 二、Compute Engine创建2.1 启动Compute Engine API2.2 创建实例2.3 新建虚拟机实例2.4 等待实例创建完成2.5 查看虚拟机配置信息2.6 创建防火墙规则2.7 SSH远程连接虚拟机 三、参考链接 一、Google Cl…

使用UDP和JSON在C#中高效发送结构体数据

使用UDP和JSON在C#中高效发送结构体数据 引言 在许多网络编程场景中&#xff0c;我们经常需要在不同的应用程序或服务之间发送和接收数据。UDP&#xff08;用户数据报协议&#xff09;因其低延迟和少开销的特点&#xff0c;在需要快速数据传输的场景中非常有用。本文介绍了如何…

紫光展锐5G扬帆出海 | 东南亚成为5G新热土

东南亚是一块充满活力和潜力的市场&#xff0c;这里人口基数大、年轻消费群体占比高&#xff0c;电子市场在过去几年显著增长。 增速“狂飙”的东南亚手游 近年来&#xff0c;东南亚手游下载量逐年增长&#xff0c;2023 年第一季度下载量突破 21 亿次&#xff0c;贡献了全球近…

【前端】Nodejs与Webpack(学习笔记)

一、Node.js入门 1、概述 Node.js 是一个独立的 JavaScript 运行环境&#xff0c;能独立执行 JS 代码&#xff0c;因为这个特点&#xff0c;它可以用来编写服务器后端的应用程序Node.js 作用除了编写后端应用程序&#xff0c;也可以对前端代码进行压缩&#xff0c;转译&#…

了解深度学习优化器:Momentum、AdaGrad、RMSProp 和 Adam

slavahead 一、介绍 DEEP学习在人工智能领域迈出了一大步。目前&#xff0c;神经网络在非表格数据&#xff08;图像、视频、音频等&#xff09;上的表现优于其他类型的算法。深度学习模型通常具有很强的复杂性&#xff0c;并提出数百万甚至数十亿个可训练的参数。这就是为什么在…