音视频技术开发周刊 | 302

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

45484d0fe04f897cf4a5d30a66479172.png

ChatGPT神器Code Interpreter终于开放,到底怎么用?这里有一份保姆级教程

Code Interpreter 已经正式开放。

上海世界AI大会:MidJourney名字的来源是庄子?

MidjourneyCEO大卫·霍尔兹在2023世界人工智能大会上发言,认为AI将成为创造和想象力的新的载体和引擎。通过AI,我们有可能放大整个人类种族的原始想象力。针对公司的名字Midjouney,霍尔兹表明它来自于道教著作《庄周》中的中道概念,他认为中国古典文学带来了很多最美丽的,最深沉的思想。

0967347cf64c2e9add9c8792680eae78.png

生成式AI时代的AI Infra—从DevOps->MLOps->LLMOps

这篇文章想要从AI Infra的角度出发,从更宏观的角度看Generative AI对AI Infra生态产生的变化,本文不局限于LLM,文中提到的LLM泛指一切Generative AI或者Foundation Models。

华为大模型登Nature正刊!比传统方法预测天气,快1万倍

盘古气象大模型或使人类得以重新审视气象预报模型的未来。

ff27756e207806e575b2213f0f478707.png

CIS制造工艺回顾与展望

CMOS图像传感器由于能够集成到具有高图像质量的智能手机中,因而正经历着巨大的增长。图像传感器发展的主要贡献之一是其制造工艺的创新。这篇文章详细回顾了CMOS图像传感器的不同制造工艺及其对智能手机图像质量的影响。讨论了使用硅通孔和Cu-Cu混合键合等技术制造CMOS图像传感器及其实验结果。

卖一颗芯片亏 23 万,自动驾驶芯片创业有多难

国内车载芯片创业公司黑芝麻智能向港交所递交上市申请材料,计划在港股主板挂牌。黑芝麻智能是仅有的两家实现量产上车的国产大算力芯片公司之一,其量产节奏和出货量仅次于地平线。

e7d2695c8edeaa737b248dd788d2c6ba.jpeg

通过诱导和限制表示的等变单视角姿态预测

该研究探讨了计算机视觉中的一个基本问题,即如何从二维图像中学习关于三维世界的信息。研究人员提出了一种理想的神经网络架构,该架构利用物体在三维空间中的旋转和平移特性,对新的图像进行预测。然而,将SO(3)的等变性应用于二维输入是具有挑战性的。为了解决这个问题,研究人员引入了SO(2)-等变性约束,并利用SO(2)在SO(3)上诱导和限制的表示来构建满足几何一致性约束的架构。

https://arxiv.org/abs/2307.03704

香港科技大学提出视角不变的场景图循环检测方法:迈向场景感知的机器视觉

针对室内场景中的视觉SLAM,这篇论文提出了一种基于增量生成场景图的回环检测方法。它综合考虑宏观视图拓扑、微观视图拓扑和语义实例的占有率,找出正确的对应关系。使用手持RGB-D序列进行的实验表明,该方法能够准确地检测出变化剧烈的视点中的环路。它在观察具有相似拓扑和外观的对象时保持了高精度。

09e16d918b8e9620a17937edce387aa4.png

从神经辐射场中移除物体

神经辐射场(NeRFs)是一种能够合成新视图的场景表示方法。现有的 NeRF 编辑框架很难实现这种指定物体的移除。本文提出一个框架,可以从 RGB-D 序列创建的 NeRF 表示中删除对象。NeRF inapinting 的方法利用了最近在 2D 图像 inpainting 方面的工作,并由用户提供的 mask 作为指导。该算法通过基于置信度的视图选择过程,选择使用哪些 inpainted 2D 图像来创建 NeRF,使生成的 NeRF 是 3D 一致的。本文所提出的NeRF编辑方法对以多视图一致的方式生成修复是有效的,并在一个全新的数据集上验证了所提出的方法。

图像压缩对视觉识别的鲁棒性分析

这篇文章的发现有助于在资源和带宽有限的情况下为用户部署视觉识别。在未来的工作中,希望探索在互联网规模的数据集上训练视觉识别模型时,本文的发现可以用于减少 I/O 绑定延迟。特别是,探索直接在潜在压缩图像表示上训练识别模型,而不是通过通常的 RGB 表示。

室内场景的凸分解(Convex Decomposition)

这篇文章关于三维图形的分割和重建。该研究描述了一种将复杂、杂乱的室内场景解析为简化的凸结构的方法。该团队使用简单的凸多边形作为基本元素来对场景结构进行抽象。利用学习到的回归过程,从RGBD输入中将场景解析为固定数量的凸多边形,并可选择使用分割信息来改善分解结果。

https://arxiv.org/abs/2307.04246

你不知道的分光测色仪结构

通过颜色的测量工具(统称为测色仪)可以轻松地得到被测物体在不同光源及各种条件下的色度数,甚至光谱曲线;有利于进行色彩的管理、控制及研发,方便不同厂家间的色彩交流和沟通;可以避免人为或环境因素造成的色彩判断偏差;无论室内室外,都可以做到更精准、客观地评判色彩。

688f9cddfbc35c95797e6f4d665b35cb.png

音视频工具--Onvif设备管理器

ONVIF 设备管理器 (ODM) 是一款免费的开源软件实用程序,旨在管理符合 ONVIF 标准的网络视频设备,例如 IP 摄像机、视频编码器和网络录像机 (NVR)。ONVIF 代表开放网络视频接口论坛,是基于 IP 的物理安全产品的全球标准化倡议,旨在促进不同制造商设备之间的互操作性。

直播道具高可用建设

根据2022年第四季度的财报数据显示,B站在跨年晚会期间的直播人气峰值达到了3.3亿。直播业务对于B站来说是一个重要的增长点,而道具投喂(赠送礼物,后面统称为道具投喂,礼物统称为道具)在直播业务中扮演着重要的角色。在这篇文章中,介绍了如何确保直播道具相关系统的高可用性,以实现99.99%的稳定性目标。文章将分为三个部分,分别是道具面板,道具投喂和多活。

f2c0485b61bfcf2d64bf161a9bb97915.png

Meta最新开源图形库IGL,star近2k,支持游戏开发、3D建模

IGL 是一个可直接调用 GPU 的跨平台图形库,通过底层跨平台接口封装了常见的 GPU 功能。Meta 称 IGL 的特性包括:跨平台兼容、高性能渲染、易于使用的 API、可扩展、完全开源、可用于任何项目,并且没有任何许可限制。

e8ab224ed60711dd92c2fd055fa10656.png

“Hey Siri”要成为历史了。

今年 6 月,iOS 17 发布开发者版本,其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——用户仅需说“Siri”就能唤醒语音助手。但就是这么一个简单的变化,却愁坏一大堆程序员。从去年年末消息放出到现在将近半年,iOS 依然没有正式更新该功能。拿走一个“Hey”,对语音助手来说有多难?

达摩院FunASR离线文件转写SDK发布,完成工业落地“最后一公里”

FunASR是由达摩院语音实验室开源的一款语音识别基础框架,集成了语音端点检测、语音识别、标点断句等领域的工业级别模型,吸引了众多开发者参与体验和开发。

语音合成中的Lora,插件式speaker开发

语音合成中的Lora,插件式speaker开发,语音克隆的未来。

a3f0f17653e235400be81a15b7976fcd.png

苹果Vision Pro中文开发教程汇总

这篇文章介绍了将Unity VR应用带入完全沉浸式空间、开始构建空间计算应用等7个教程。

手持移动设备上凝视估计及其交互应用的全面综述

近年来,我们见证了越来越多的手持移动设备上采用凝视作为单一或辅助交互方式的互动系统。这一趋势是由这些设备的增强计算能力、更高分辨率和相机容量以及先进的机器学习技术(尤其是深度学习)所带来的凝视估计精度的提高驱动的。这篇文章旨在通过呈现一个端到端的综合视角来实现这一目标,从凝视捕捉传感器、凝视估计工作流程、深度学习技术到凝视交互应用的全面综述。

https://dl.acm.org/doi/10.1145/3606947

谷歌还能撑得起XR的野心吗?

苹果推出了有着划时代意义的Vision Pro,科技圈为此兴奋不已。Vision Pro公布数日后,谷歌CEO桑达尔·皮查伊(Sundar Pichai)在一次采访中还表达过对Vision Pro的看法:“我对这项技术的潜力感到兴奋。” 

但几周后却传来谷歌停止开发AR眼镜项目“Iris”的消息,回想近些年谷歌在AR方面的投入,令人唏嘘。

14a0f7917d5f38e3fb8f98f5d00e4abf.png

EPIQ 2020 | SHVC based HTTP Adaptive Streaming over QUIC

这篇文章研究了QUIC和HTTP/2对ABR算法性能的影响。此外,提出了一种有效的方法,结合了传统的视频流传输方法(基于非可扩展视频编码格式)和一种重传技术,以利用可扩展视频编码格式进行自适应视频流传输。实验结果表明,在丢包和重传的情况下,QUIC从这种方法中获得了显著的好处。与HTTP/2相比,它提高了平均视频质量,并提供了更平滑的自适应行为。最后,本文证明了最初针对非可扩展视频编解码器设计的方法在可扩展视频(如可扩展高效视频编码,SHVC)上也能有效地工作。

e58a8e73c8ff1a5b673f9d1de69f1759.png

B站“横竖”都要

被短视频“冲击”一年后,中长视频能否如愿“逆天改命”?

867f810cbc3f24f0717e0345e6eaa9bc.png

对话中科深智成维忠:数字人的关键是交互,交互的关键是大模型

成维忠一直相信,人是未来 3D 交互的重中之重,而这种与“人”的交互,则必须通过 AI 和大模型来完成。

5fe6bc9195e3d9c22b83bf984cc7d514.png

LiveVideoStackCon 2023 上海站日程发布

LiveVideoStackCon 2023 上海站音视频技术大会以「沉浸·新视界」为主题,除了探索音视频技术在不同场景下的融合与发展外,还增添了游戏、AIGC和数字化行业案例等新鲜火爆的话题。在这里,你可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战,与对未来规划的深入解读。

我们将邀请60余位顶级讲师聚集一堂,与你共同分享他们的专业见解。这是一个与业内顶尖专家进行深入交流的绝佳机会,你将有机会亲自与他们面对面,从他们丰富的经验中获得宝贵的技术心得。

28d249c2b0c304f3f076cce4e4033928.png

扫描图中二维码或点击“阅读原文 

查看更多LveVideoStackCon 2023上海站精彩话题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/28206.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

加水印用什么软件你知道吗?告诉你加水印的app哪个好用吧

笑笑是一个热爱生活的女孩,她经常会随手拍下生活的瞬间,并且在社交媒体上分享自己的开心时刻。然而,最近她发现自己的照片被未经授权地使用在其他网站和博客上。这让她感到非常生气。为了保护自己的作品权益,她决定寻找一个好用的…

Qt6 Qt Quick UI Prototype学习QML第一篇

Qt6 Qt Quick UI原型学习QML第一篇 开始创建项目Qt Quick UI原型简介.qmlproject文件举例Window平台小例子运行效果QML语法 了解语法 开始创建项目 创建一个具有QML入口点的Qt Quick 2 UI项目。要使用它,您需要设置一个QML运行时环境,例如gmlscene。 仅当…

【C语言】Sleep()函数----详解

🍁 博客主页:江池俊的博客 🍁收录专栏:C语言——探索高效编程的基石 🍁 如果觉得博主的文章还不错的话,请点赞👍收藏🌟 三连支持一下博主💞 目录 前言 📌C语言sleep函…

群雄逐鹿,全球 “电竞之都”将花落谁家?

提到深圳,你会想到什么? 四十多年前的小渔村、改革开放排头兵,还是由科技驱动的经济特区? 这些头衔都已经司空见惯了,接下来深圳预计还将有个最新名号——国际电竞之都,这是一个让无数年轻人听到就会兴奋…

虚拟机ubuntu1804打开联合标定工具箱的步骤(toolkit)

1、运行roscore roscore 2、进入到calibration文件夹打开终端 source devel/setup.bash3、运行rosrun打开即可 rosrun calibration_camera_lidar calibration_toolkit

二层交换机和三层交换机区别

一、指代不同 1、两层交换机:工作于OSI模型的第2层(数据链路层),故而称为二层交换机。 2、三层交换机:具有部分路由器功能的交换机,工作在OSI网络标准模型的第三层。 二、功能不同 1、两层交换机&#xff1…

远程办公保持高效的15个小技巧

远程办公提供了在固定办公可能无法体验到的多种自由。灵活的时间安排,只要你完成当天的工作,其它时间你可以任意安排。没有通勤压力,不用挤公交或地铁,省了交通费,还有让你睡个懒觉,有时间做更健康的早餐&a…

【网络编程】传输层协议——TCP协议

文章目录 一、TCP协议格式1.1 TCP如何将报头与有效载荷进行分离?1.2 有效载荷如何向上交付?1.3 TCP报头的理解1.4 序号与确认序号1.4.1 网络不可靠问题1.4.2 32位序号1.4.2 32位确认序号 1.5 窗口大小1.6 六个标志位 二、确认应答机制(ACK&am…

从Vue2到Vue3【零】——Vue3简介

系列文章目录 内容链接从Vue2到Vue3【零】Vue3简介及创建 文章目录 系列文章目录前言一、Vue3的发布带来了什么1.1 性能提升1.2 源码升级1.3 支持TypeScript1.4 新特性1.5 支持 vue3 的UI组件库 二、创建Vue3.0工程2.1 什么是Vite2.2 利用Vite创建Vue3.0工程2.3 利用vue-cli脚…

C++中main()函数和命令行参数介绍

C中main()函数和命令行参数介绍 在C中,main()函数是程序的入口点,它是一个特殊的函数,在程序开始执行时被首先调用,也是程序结束时的最后一个被执行的函数。main() 函数的类型始终为 int,根据C标准,main() …

深度学习trick

本次Tricks主要面向于深度学习中计算机视觉方向的研究,分为数据增广方法、训练技巧,参数调节这三个方面进行深入的分析。内容有一部分是基于openmmlab的mmdet和mmseg两个框架上的成熟应用案例进行详细阐述。 首先是数据增广的tricks: 0、Fli…

概率论的学习和整理18:为什么 P(至少成功1次) = Σ P(几何分布) ,总结几何分布和连续失败概率的关系,二项分布和累计成功k次的关系

目录 1 先说结论: 2 Σ几何分布的P(xn) P(n次试验至少成功1次) 2.1 几何分布的概率 2.2 这个是可以证明的,下面是推导过程 2.3 怎么理解呢? 3 另外,P(累计成功k次) ΣP(成功k次的二项分布) 3.1 成功k次的概率 和 累计成…