对话小红书剑寒:如何跨方向技术融合,全局优化打造更智能的音视频系统?...

38d268b6fcfe8d1c77fc5c1cc1545258.png

编者按:在 AI 时代,随着 ChatGPT 掀起技术狂潮,构建更智能的音视频系统已经成为音视频领域从业者的共同目标。

然而,音视频系统的智能化,每个从业者对其都有自己独特的视角和理解,正如“一千个人眼中有一千个哈姆雷特”一样。尽管没有统一的标准答案,我们访谈了小红书音视频架构师剑寒,聊聊他心中的智能化:像人眼一样感知质量是智能的,利用最新图像生成技术的画质增强和修复是智能的,利用AI改善编解码效果是智能的。

智能不仅于此,音视频系统更大的智能可能在于跨方向技术融合以及系统全局优化能力,从而实现看似矛盾的业务目标。作为视频 App 的新兴入围者,小红书如何选择自己的目标?

剑寒表示:首先,在技术方向上,结合业务优先级把单点技术能力做好;其次,重点迭代一些具有长期价值和收益的技术框架,比如云端”窄带高清”、端云结合超分、人眼感知的质量评估等;最终实现保证用户体验,又能降低成本的智能系统,从而实现业务目标的最优平衡。

希望对你有用,以下是对话:

LVS:可以概括介绍下你将在 LiveVideoStackCon 2023上海站分享的题目吗?

剑寒:我分享的题目是《基于人眼感知质量的端云结合画质及带宽优化实践》,也是”降本增效”背景下小红书的一个重点项目。如果简单看是一个端侧超分的算法落地,学术界和工业界基于这个技术点其实已经进行了很长的探索,但面向不同的业务场景和集成系统,端侧超分技术在业务目标和技术方向上会有很明显的区别。

比如面向一款新的硬件设备,只需要基于它的硬件加速器定制化地设计和优化算法即可。而视频业务及APP面向的终端用户设备多样复杂,技术优化的用户体验通常难以全面评估,落地覆盖率直接影响收益大小。

在这个场景下,端侧超分技术的演进方向不再是独立算法模块的设计和优化,而是结合从云端消费档位生产、人眼感知的质量评估到播控及端侧超分的整条视频处理链路的端到端优化,这会极大的释放端侧超分的潜力,一定程度上解决前面提到的技术挑战。本次分享是我们在这个主题下的一些系统总结和实践,当然这也是一个长期建设方向,当前我们已经拿到了一些收益,相信在这个框架下,未来通过技术迭代还会有很大的空间。

LVS:你怎么看待算力、成本和用户体验的这三角关系?

剑寒:从静态的角度来讲,不做任何技术的优化,可以考虑用更大的算力、更高的成本去实现用户体验的提升,比如大的算力可以支撑更高复杂度且更好效果的算法落地,也提升了算法处理的时效性;为了提升用户体验,我们可以提升视频消费码率,而带来带宽成本的增加。或者反过来,通过牺牲一些用户体验节省算力和成本。音视频领域有很多这种trade-off,也有很多特例,比如提升视频消费码率和分辨率一般情况会提升用户体验,但是在网络不好时可能会导致视频卡顿,用户体验反而下降。因此我更喜欢分析每个因素有什么优劣势,看每个变量在当前系统状态下会产生什么影响,针对具体业务目标case by case分析和决策。

而从动态的角度讲,由于技术是不停迭代的,可以通过技术优化同时提升用户体验并降低成本。比如现在每一代的编码标准,可以做到相同的质量下节省30%-50%的码率,这意味着用户体验基本不变,但是带宽成本就节省了很多。上面提到的端侧超分技术,也有类似的收益。除了技术优化,还有很多策略发挥作用。比如现在CDN的带宽成本是根据高峰期收费的,这里的策略是,在非高峰期的时候我可以增加码率来提升用户体验,但并不增加带宽成本。当然这里也涉及一个准确预测高峰期时段的问题。

所以说音视频这个领域,它其实是一个系统,并不是一个单一的点,我们可以从算法上以及系统的策略上同时实现看似矛盾的业务目标。

8247ecbd9db913d021e845f0a75d7ced.png

LVS:面对用户追求更高清更极致的视频体验趋势,视频编解码的技术显得至关重要,针对这个以及其它技术方向,你们团队有什么目标吗?

剑寒:视频编解码技术迭代非常重要,目前我们已经落地了H.265这一代标准,而且达到了很高的覆盖率,在研的包括AV1标准,已经开始了一些实验验证。未来H.266也可能会跟进。

除此之外,在AI时代,构建更智能的音视频处理是我们的一个目标,这里包括各种画质增强及修复技术、质量和内容分析技术、以及智能编码技术。在技术方向上,首先会结合业务优先级把单点技术能力做好,比如使用云端超分技术提升1080P视频占比,面向通用场景的纹理及清晰度视频增强。此外,我们会迭代一些具有长期价值和收益的技术框架,比如云端”窄带高清”、端云结合超分、人眼感知的质量评估等。

现在音视频处理的智能化程度其实还有很大空间,个人理解挑战主要有两个方面:

1.音视频处理不是单一技术,从当前技术发展来看,很难用一个大模型来实现,一个更智能的视频处理系统应该是包含high level语义理解、low level图像处理、编解码技术的某种融合体,而当前算法方向的典型人才画像是聚焦在某一个技术点上。我相信未来复合型人才和具有系统理解的算法人有机会做出突破。

2. 智能化意味着大数据驱动,ChatGPT的训练数据可以来自高质量的问答,通过自监督训练进行大规模学习,构建高质并准确的数据集在音视频领域会更加困难,Groudtruth以及退化模型是否准确通常是音视频算法面临的第一个关键问题。

目前业界的探索更多的集中在单点能力的智能化,比如利用图像生成技术的画质增强算法、利用AI提升编解码子模块效率等,这些都是我们可以跟进的技术点,但我们也希望在跨方向技术融合以及全局优化能力上做更多的探索和实践,为此来找到提升音视频系统智能化的有效途径。

LVS:每个人都有自己认为的主观好与坏,所以,该如何验证画质优化算法对主观质量提升是否有效?

剑寒:这个问题其实也是前一个问题回答中所说的“构建高质并准确的数据集在音视频领域会更加困难”的一个佐证,每个人对于画质好坏的判断都是不一样的。不过,是有国际标准来指导的,简单说就是,在一个可控环境条件下,通过专家评测和众测来判断画质是否有提升,其中众测是对于同一个视频收集多人的评价结果,通过统计的方法来消除个体上的差异,虽然不一定符合某个人的判断标准,但是代表了大多数人的意见。

当然,主观专家评测和众测由于时间和操作成本只能在小数据量上验证,真正上线还需要经过大盘的检验,这里一般会使用AB实验的方式,通过对比一些关键业务和技术指标来佐证大盘上的表现。需要注意的是,AB实验的影响因素很多,不完全是画质上的,需要结合方案具体分析实验数据。

LVS:作为一个非常大的UGC内容社区,小红书图像或视频的来源可以说非常宽泛,所以有时真实拍摄环境不受控,导致内容质量不能保证。这种质量评价问题,你是怎么处理的?

剑寒:我们今年落地了一个基于AI的无参考视频质量评估算法来解决这个问题,它基于人眼感知质量对任意视频做绝对质量评判,像你说的,UGC视频的多样性对于数据驱动的AI算法来说是一个挑战。此外,当视频经过整个视频链路的处理后质量变化也极大,带来了更大的复杂性,比如特效编辑、多档位视频增强和转码等。因此,数据集是要精心设计的,既要包含线上的主要质量问题,同时需要主动构造一些难以直接从线上采集到的case,核心点是,如何用尽量少的数据样本代表大盘,这里有一些技术上的辅助手段,比如数据采样方法。

算法设计上,重点是如何有效提取质量特征,这里需要对质量问题的产生过程有充分的认知,比如视频链路中编辑和转码会如何影响质量,我总结几个关键点分享给大家:

1. 全局构图和局部纹理信息都很重要,质量相关特征体现在局部纹理上,而劣化程度在于全局感知;2. 捕捉大范围时空信息及依赖关系,人眼对质量的感知涉及到整体语义理解、关注区域、创作意图理解等,很多视频处理操作会在较大的时空范围内影响质量,比如码率分配、ROI编码等。3. 质量评估数据集的量级和完备程度远低于分类识别等CV任务,我们需要某种显式地辅助质量特征提取的手段,一种方法是通过添加有序的质量样本或者利用质量评估的代理任务,进行数据增强及质量特征自监督学习。

5ade422295dd6325e90516f24b0cd268.png

扫描图中二维码或点击“阅读原文 查看更多精彩内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/9217.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于FreeRTOS的嵌入式设备管理关键技术研究及实现(学习四)

硬件平台 终端设备的硬件选型主要由STM32芯片作为处理器,板载时钟电路和电源电路以及对外通信串口,并挂载AM2302温湿度传感器来实时收集环境相关信息,将收集到的信息通过NB-IoT通信模组上传到云端,从而实现整个环境监测功能。 主…

基于jsp+Servlet+mysql学生信息管理系统V2.0

基于jspServletmysql学生信息管理系统V2.0 一、系统介绍二、功能展示1.项目骨架2.数据库表3.项目内容4.登陆界面5.学生-学生信息6、学生-修改密码7、管理员-学生管理8、管理员-添加学生9.管理员-修改学生信息10.管理员-班级信息11.管理员-教师信息 四、其它1.其他系统实现五.获…

【Linux】LVS负载均衡群集 NAT模式

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 LVS负载均衡群集 NAT模式 一、理解负载均衡群集的原理1.企业群集应用概述2.企业群集分类3.负载均衡群集架构4.负载均衡群集工作模式分析5.NAT模式6.TUN模式7.DR模式 二、LVS虚…

CMU 15-445 -- Tree Indexes - 05

CMU 15-445 -- Tree Indexes - 05 引言Table IndexB TreeB-Tree FamilyB TreeB Tree NodesB Tree OperationsIn Practice Clustered IndexesCompound IndexB Tree Design ChoicesNode SizeMerge ThresholdVariable Length KeysNon-unique IndexesIntra-node Search Optimizatio…

SpringBoot(原理篇)

SpringBoot原理篇 自动配置 bean加载方式 xml方式声明bean 相关类: domain域中的实体类: public class Mouse { }public class Cat { }public class Dog { }测试: public class App1 {public static void main(String[] args) {ClassP…

【hadoop】Linux安装和配置

安装 RedHat Linux 7.4 创建新的虚拟机 选择“自定义(高级)” 选择“下一步” 选择“稍后安装操作系统” 选择操作系统的类型 设置虚拟机名称和保存路径 下一步 下一步 设置网络类型,选择“使用仅主机模式网络” 下一步 下一步 下一步 设置硬…

Web3本地搭建truffle智能合约开发环境

之前的几篇文章 我们是成功的操作了我们本地区块链的 那么 本文 我们就来说说智能合约 啊 不容易啊 扯了这么久 终于到这了 智能合约是部署在区块链上 不可逆的 一种去中心化的程序,他没有任何第三方公司来管理这个程序和数据 然后 还有就是怎么连接到区块链上的智能…

垃圾回收器

CMSParNew配置 -Xms7500m -Xmx7500m 初始堆大小 -Xmn3000m # 新生代大小 -Xss512k # 每个线程的堆栈大小 -XX:MaxMetaspaceSize512m # 设置类元数据区的最大大小(限制Metaspace增长的上限,防止因为某些情况导致Metaspace无限的使用本地内存,影响到其他…

css重点学习

一、选择器 1.标签名选择器 div{border: 5px blue dotted;color: aquamarine;font-size: 20px;} <body><div id"div001">div标签1</div><div id"002">div标签2</div> </body> //只写出了重点部分 2.id选择器 #div0…

蓝桥杯专题-试题版含答案-【猜算式】【排列序数】【还款计算】【滑动解锁】

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列点击跳转>蓝桥系列 &#x1f449;关于作者 专注于Android/Unity和各种游…

Elasticsearch总结

目录 1、正排索引和倒排索引 2、什么是Elasticsearch 3、es核心概念 索引&#xff1a; 文档&#xff1a; 域&#xff1a; 4、安装es和可视化工具Kibana 5、原生操作es 索引操作 新增索引 删除索引 文档操作 新增文档 修改文档 删除文档 查询文档 查询所有文档 分词器 默认…

Win2008下使用IIS+URL重写+Server Farms在同一台服务器实现混合 多域名网站与多个负载平衡集群网站 共存,配置及域名绑定笔记

因公司要在现有云服务器增加负载平衡集群网站&#xff0c;但要保证现有在用网站不动&#xff0c;操作系统为Win2008。 以前没有配置过IIS的负载平衡&#xff0c;只能百度一下&#xff0c;实现也简单&#xff1a;只要安装URL重写Server Farms就能实现负载平衡集群网站。于是根据…