音视频技术开发周刊 | 308

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

4eef0191fdb3cce6f132922568998887.png

OpenAI首席科学家最新访谈:对模型创业两点建议、安全与对齐、Transformer够好吗?

OpenAI首席科学家Ilya Sutskever最近和他的朋友Sven Strohband进行了一次简短的对话。访谈中主要提及了以下几个问题:对深度学习的信仰、对AGI的畅想,Transformer够不够好,让人震惊的涌现能力,安全和对齐,以及对模型创业者的两点建议。

OpenAI突发更新!GPT-3.5正式开放「微调」,人人可打造专属ChatGPT|附最全官方指南

OpenAI正式开放GPT-3.5微调API,GPT-4版本也即将推出。这意味着,继插件「APP Store」大爆发后,所有人皆可以打造个性化的专属「类ChatGPT应用」。

AI机器识别突破登Nature封面,加速第四次工业革命,论文一作为浙大校友

HADAR技术攻克了机器夜间识别的难题,加速第四次工业革命!一夜之间,机器夜间识别的难题就被攻克了!一篇AI与热物理学结合帮助机器在夜间成像的文章登上了Nature的封面。

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

知识无法完全编入模型参数,学会搜索也是AI的必备技能!在大型语言模型(LLM)的加持下,与视觉结合的多模态任务,如图像描述、视觉问答(VQA)和开放词汇目标识别(open-vocabulary object detection)等都取得了重大进展。

AI2发布全新的大语言模型预训练数据集:包含3万亿tokens的大规模文本数据集AI2 Dolma,开源免费商用数据集~

Allen Institute for AI简称AI2,是2014年成立的一个非营利性研究组织,其创办者是之前的微软联合创始人Paul G. Allen。目前该组织主导了几个非常大的项目,希望借助AI来推动科学、医学等领域的进步。

4131fdc64698f65c7f05089b3736a43b.png

用ChatGPT方式开发游戏:文本直接生成小游戏,StoryGames.AI来了!

知名无代码游戏开发平台buildbox正式发布,集成生成式AI的游戏开发平台StoryGames.AI。用户只需文本提示,5分钟左右就能生成一个10章节的视频小游戏。

AIGC已改变新闻业

AI技术的产生,为内容创作开拓了新的可能性,VR新闻、虚拟主播等新形态的内容形式接连产生,为内容表达提供了更为广阔的空间。

15B模型单项能力锤得过GPT3.5,开源SQLCoder已上岗

你知道的有关于代码编辑的大模型工具有哪些呢?推特用户 制作了下面这张图,为大家梳理代码大家庭的大部分成员。就在他发布了这张图后的两周内,又有三位新成员加入了这个大家庭,它们分别是 DeciCoder、OctoCoder 以及最新的成员 SQLCoder。

人工智能困境:如何安全、合乎道德地实施生成式人工智能工具

人工智能正以各种方式使用,从聊天机器人和虚拟助手到自动驾驶汽车,97%的企业主认为ChatGPT将有助于他们的业务。但对于任何新技术,人们都会担心安全和道德——人工智能也不例外。

https://www.cncf.io/blog/2023/08/21/an-ai-dilemma-how-to-implement-generative-ai-tools-safely-and-ethically/

d19cdf155f5f558b2f4d4f5194c3da11.png

两大科技巨头加持,它要做AR市场中的“英特尔”

Lumus 在 AR 眼镜光学行业深耕 23 年,现已准备好实现突破。到 2025 年,两大科技巨头将在其眼镜中采用 Lumus 的光学技术,以实现轻薄形态的一体式 AR 眼镜。

Meta AR/VR专利提出通过液晶偏振全息LCPH实现眼动追踪

对于眼动追踪,与将光源定位在用户视场的外围相比,视场内照明可以提供更高的追踪精度。例如,当光源位于用户的视场范围内时,捕获到眼睛所有注视角度的角膜闪烁的可能性更高。另外,在用户的视场内定位光源可以在光源的放置和分布方面提供更大的灵活性,从而使摄像头捕获的光量最大化,并降低光源输出光的强度和光源的功耗。

Quest开发者分享:通过MR功能提高用户下载率和留存率

Meta日前发布了《MR Developer Success Spotlight》,并介绍了《Cubism》和《TRIPP》通过整合Presence Platform的混合现实功能来提高用户下载率和留存率的成功案例。

998a5f7f5dc1e1b16950e32828ed2ddd.png

环视相机自标定(基于hough的车道线检测篇)

AVM环视系统自标定算法分为两个部分:1. 车道线检测 2. 相机外参自标定。其中相机外参自标定涉及到的原理和公式推导在Around View Camera Self Calibration一篇中已经详细介绍。这篇帖的主要内容是基于hough变换的传统车道线检测方法,包含基础的图像处理算法原理,以及调参的trick和策略。

超越传统驾驶模拟:地图先验引领MapNeRF技术

模拟摄像头传感器是自动驾驶中的一项关键任务。尽管神经辐射场在驾驶模拟中合成真实感视图方面表现出色,但它们仍然无法生成外推视图。本文提出将地图先验纳入神经辐射场中,以合成具有语义道路一致性的轨迹外驾驶视图。关键的想法是可以利用地图信息作为先验来指导具有不确定性的辐射场的训练。

动态SLAM方向全方面梳理

动态SLAM是在动态环境中进行定位和建图的算法。传统的SLAM通常基于静态刚体场景假设,即环境中的所有物体都是固定不动的。然而在实际应用中这种假设并不成立。例如,环境中车辆和行人可能会移动。

0c9dd539df082092a738ae660ad98895.png

音视频学习--DTMF代码走读

本文以WebRTC中代码进行代码层面的解读,以便能够更好地理解DTMF。

最佳直播视频CDN

本文中,探索市场上最好和最流行的CDN,并深入研究支持CDN的视频流平台,以及为什么这些可能是最简单、最灵活和最具成本效益的选项。

https://www.wowza.com/blog/best-cdns-live-streaming

浅谈混响及一些去混响方法

在封闭的空间中,当声源产生的声音经过反射物(墙壁、地面和室内装饰物等)多次反射叠加后会形成混响,如图1所示。在均匀介质声场中,声源到传声器的直达声传播时间最短,人们将在直达声之后 50-100 ms内被传声器接收到的反射声定义为早期混响,在直达声50-100 ms之后被传声器接收到的反射声定义为晚期混响。

80e352f9c9401d2d687f5f19f827b782.png

腾讯云V265/TXAV1直播场景下的编码优化和应用

随着视频直播不断向着超高清、低延时、高码率的方向发展, Apple Vision的出现又进一步拓展了对3D, 8K 120FPS的视频编码需求,视频的编码优化也变得越来越具有挑战性。LiveVideoStackCon 2023上海站邀请到腾讯云的姜骜杰老师分享腾讯云V265/TXAV1直播场景下的编码优化和应用,带领我们探索音视频技术的无限可能性。

华为云渲染实践

云计算与网络基础设施发展为云端渲染提供了更好的发展机会,华为云随之长期在自研图形渲染引擎、工业领域渲染和AI加速渲染三大方向进行云渲染方面的探索与研究。本次LiveVideoStackCon 2023上海站邀请了来自华为云的陈普,为大家分享云渲染在垂直场景的一些应用。

基于人眼感知质量的端云结合画质及带宽优化实践

随着小红书视频业务和短视频播放的规模化增长,如何有效地提升用户体验质量同时降低视频带宽成本成为一个重要的技术优化目标。LiveVideoStackCon 2023 上海站邀请到小红书的剑寒为大家分享小红书音视频架构算法团队开发的基于人眼感知质量的端云结合超分框架和画质及带宽优化相关实践。

WebRTC对OBS的鞭策

OBS版本30通过WHIP正式支持WebRTC。WebRTC HTTP摄取协议(WHIP)是一种针对实时流媒体应用而设计的新协议。WebRTC不包括标准的信号机制,因此不能像使用RTMP一样将随机客户端连接到给定的服务。截至上周,OBS 30 Beta已经可用。多年来,通过分支使用WebRTC和OBS已经成为可能,但现在终于正式发布了。

https://webrtchacks.com/webrtc-cracks-the-whip-on-obs/

27bac9f53331bfa76416747fd8cef1cb.png

如果大模型不可靠,那钉钉的解药是什么

最近两周,钉钉异常活跃,看点频频。从成为阿里集团独立业务的消息开始,到发布个人版,8 月 22 日钉钉又宣布推出 AI PaaS 及其最新的 AI 应用——数字员工。

晚点独家丨小红书电商全面加速:成立一级部门后,明确投入方向

《晚点 LatePost》独家获悉,小红书整合了电商业务与直播业务,组建了全新的交易部,成为与社区部、商业部平行的一级部门。此前,电商业务是归属于社区部之下的二级部门。

中美俄实验室同日复现常温超导晶体,美国超导股票盘前暴涨140%

中美俄的实验室同日复现出了LK-99超导晶体,美国超导股票AMSC盘前跳涨71%,最高涨幅150%.

1000亿GMV下,在抖音做团购的商家

据《晚点 LatePost》报道,抖音生活服务上半年的支付交易总额超过了1000亿元。而在去年,抖音生活服务的全年交易额接近900亿元,来势汹汹的抖音,用半年时间就超过了去年一年的成绩。

b2c406fb07d09c050ae7e0d3e888b2dc.png

沉浸新视界·「听」你所想,「见」所欲见

作为深耕线下的技术大会,我们坚信“百闻不如一见”。深圳站八折购票火热进行中,限时优惠截止至9月3日!同时,我们为在校学生争取了六折购票的特别福利(购买学生票,请联系小秘书,微信号:LVSgogo)。准备好了吗?和诸多资深的音视频技术者一起,去见未来。

c4d9d7005617bef190c81254d2faae55.png

LiveVideoStackCon 2023 深圳站 已启动

LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展,多媒体生态正在向精致优化发展,更注重细节、成本,内卷和出海成为压力输出口。一方面,在现有市场及业务竞争仍旧相当激烈的环境下,企业开始更多关注于如何降低成本、追求更高的利润,以及面向用户提供更优质的服务与体验;另一方面,对于不断涌现的更多新的技术、场景,逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。本次深圳站,我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂,与你共同分享他们的专业见解。

e392d6e7376d706554e01d484454a414.png

点击阅读原文 

跳转LiveVideoStackCon 2023 深圳站 官网,了解更多信息

​​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/87498.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试现场表现:展示你的编程能力和沟通技巧

🌷🍁 博主猫头虎 带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~🌺 &a…

【Go 基础篇】深入探索:Go语言中的二维数组

在计算机编程中,数组是一种基本的数据结构,用于存储相同类型的元素。而二维数组作为数组的一种扩展,允许我们以类似表格的方式存储和处理数据。在Go语言中,二维数组是一个重要的概念,本文将深入探讨Go语言中的二维数组…

vue中使用echarts三维的项目

需要安装 echarts 同时引入 echarts-gl 我安装的版本: "echarts": "^5.3.2", "echarts-gl": "^2.0.9", 效果 : 安装后main.js引入 import Vue from "vue"; import * as echarts from "echart…

15.CSS发光按钮的悬停特效

效果 源码 <!DOCTYPE html> <html> <head><title>CSS Modern Button</title><link rel="stylesheet" type="text/css" href="style.css"> </head> <body><a href="#" style=&quo…

【微服务】05-网关与BFF(Backend For Frontend)

文章目录 1.打造网关1.1 简介1.2 连接模式1.3 打造网关 2.身份认证与授权2.1 身份认证方案2.1.1 JWT是什么2.1.2 启用JwtBearer身份认证2.1.3 配置身份认证2.1.4 JWT注意事项 1.打造网关 1.1 简介 BFF(Backend For Frontend)负责认证授权&#xff0c;服务聚合&#xff0c;目标…

外部库/lib/maven依赖项 三者关系

外部库(存放项目初始配置的jar包)(它的文件夹里并没有包含lib文件夹的引的外部的依赖的jar包) lib(存放外部导入到项目的依赖的jar包) maven依赖项(管理项目所有的jar包依赖) 三者存放jar包的关系 项目所依赖的全部的jar包 maven依赖项的jar包 外部库中的jar包 lib中的…

设计模式—原型模式(Prototype)

目录 一、什么是原型模式&#xff1f; 二、原型模式具有什么优缺点吗&#xff1f; 三、有什么缺点&#xff1f; 四、什么时候用原型模式&#xff1f; 五、代码展示 ①、简历代码初步实现 ②、原型模式 ③、简历的原型实现 ④、深复制 ⑤、浅复制 一、什么是原型模式&…

mac使用VsCode远程连接服务器总是自动断开并要求输入密码的解决办法

在mac中使用vscode远程连接服务器&#xff0c;时常会出现自动断开并要求重新输入服务器密码的问题&#xff0c;接下来让我们来解决它&#xff1a; 1、首先&#xff0c;在本地创建公钥&#xff1a; ssh-keygen 这条命令执行之后&#xff0c;出现提示直接回车即可&#xff1b;直…

mybatis plus新版代码生成器,类型转换处理器ITypeConvertHandler使用

目录 引言关键代码源码分析记录一坑类型转换的第二种方式完整源码地址 引言 当默认生成的数据类型不满足时&#xff0c;就需要自定义指定要生成的类型 关键代码 FastAutoGenerator.create(url, username, password).dataSourceConfig(builder -> {builder.typeConvertHandl…

探索数据湖中的巨兽:Apache Hive分布式SQL计算平台浅度剖析!

文章目录 ◆ Apache Hive 概述1.1 分布式SQL计算1.2 Hive的优势 ◆ 模拟实现Hive功能2.1 元数据管理2.2 解析器2.3 基础架构2.4 Hive架构 ◆ Hive基础架构3.1 Hive架构图3.2 Hive组件3.2.1 元数据存储3.2.2 Driver驱动程序3.2.3 用户接口 ◆ Hive部署4.1 VMware虚拟机部署步骤一…

【conda install】网络慢导致报错CondaHTTPError: HTTP 000 CONNECTION FAILED for url

⭐⭐问题&#xff1a; 部署安装环境经常会出现由于网络慢问题&#xff0c;导致conda安装不了库&#xff0c;报错如下&#xff1a; Solving environment: failedCondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/…

【UE5】虚幻5教程-如何解决场景远处植被没有阴影

没有阴影的远处植被 下面是解决的方法。 首先打开项目设置 项目设置 点击左侧的渲染 渲染 在框内输入“距离”&#xff0c;并选择生成距离场。 光源内添加“定向光源”&#xff0c;如果已有可以忽略。 点击“directional light"并在下方找到"距离场阴影&qu…