对话小红书剑寒：如何跨方向技术融合，全局优化打造更智能的音视频系统？...-编程知识

编者按：在 AI 时代，随着 ChatGPT 掀起技术狂潮，构建更智能的音视频系统已经成为音视频领域从业者的共同目标。

然而，音视频系统的智能化，每个从业者对其都有自己独特的视角和理解，正如“一千个人眼中有一千个哈姆雷特”一样。尽管没有统一的标准答案，我们访谈了小红书音视频架构师剑寒，聊聊他心中的智能化：像人眼一样感知质量是智能的，利用最新图像生成技术的画质增强和修复是智能的，利用AI改善编解码效果是智能的。

智能不仅于此，音视频系统更大的智能可能在于跨方向技术融合以及系统全局优化能力，从而实现看似矛盾的业务目标。作为视频 App 的新兴入围者，小红书如何选择自己的目标？

剑寒表示：首先，在技术方向上，结合业务优先级把单点技术能力做好；其次，重点迭代一些具有长期价值和收益的技术框架，比如云端”窄带高清”、端云结合超分、人眼感知的质量评估等；最终实现保证用户体验，又能降低成本的智能系统，从而实现业务目标的最优平衡。

希望对你有用，以下是对话：

LVS：可以概括介绍下你将在 LiveVideoStackCon 2023上海站分享的题目吗？

剑寒：我分享的题目是《基于人眼感知质量的端云结合画质及带宽优化实践》，也是”降本增效”背景下小红书的一个重点项目。如果简单看是一个端侧超分的算法落地，学术界和工业界基于这个技术点其实已经进行了很长的探索，但面向不同的业务场景和集成系统，端侧超分技术在业务目标和技术方向上会有很明显的区别。

比如面向一款新的硬件设备，只需要基于它的硬件加速器定制化地设计和优化算法即可。而视频业务及APP面向的终端用户设备多样复杂，技术优化的用户体验通常难以全面评估，落地覆盖率直接影响收益大小。

在这个场景下，端侧超分技术的演进方向不再是独立算法模块的设计和优化，而是结合从云端消费档位生产、人眼感知的质量评估到播控及端侧超分的整条视频处理链路的端到端优化，这会极大的释放端侧超分的潜力，一定程度上解决前面提到的技术挑战。本次分享是我们在这个主题下的一些系统总结和实践，当然这也是一个长期建设方向，当前我们已经拿到了一些收益，相信在这个框架下，未来通过技术迭代还会有很大的空间。

LVS：你怎么看待算力、成本和用户体验的这三角关系？

剑寒：从静态的角度来讲，不做任何技术的优化，可以考虑用更大的算力、更高的成本去实现用户体验的提升，比如大的算力可以支撑更高复杂度且更好效果的算法落地，也提升了算法处理的时效性；为了提升用户体验，我们可以提升视频消费码率，而带来带宽成本的增加。或者反过来，通过牺牲一些用户体验节省算力和成本。音视频领域有很多这种trade-off，也有很多特例，比如提升视频消费码率和分辨率一般情况会提升用户体验，但是在网络不好时可能会导致视频卡顿，用户体验反而下降。因此我更喜欢分析每个因素有什么优劣势，看每个变量在当前系统状态下会产生什么影响，针对具体业务目标case by case分析和决策。

而从动态的角度讲，由于技术是不停迭代的，可以通过技术优化同时提升用户体验并降低成本。比如现在每一代的编码标准，可以做到相同的质量下节省30%-50%的码率，这意味着用户体验基本不变，但是带宽成本就节省了很多。上面提到的端侧超分技术，也有类似的收益。除了技术优化，还有很多策略发挥作用。比如现在CDN的带宽成本是根据高峰期收费的，这里的策略是，在非高峰期的时候我可以增加码率来提升用户体验，但并不增加带宽成本。当然这里也涉及一个准确预测高峰期时段的问题。

所以说音视频这个领域，它其实是一个系统，并不是一个单一的点，我们可以从算法上以及系统的策略上同时实现看似矛盾的业务目标。

LVS：面对用户追求更高清更极致的视频体验趋势，视频编解码的技术显得至关重要，针对这个以及其它技术方向，你们团队有什么目标吗？

剑寒：视频编解码技术迭代非常重要，目前我们已经落地了H.265这一代标准，而且达到了很高的覆盖率，在研的包括AV1标准，已经开始了一些实验验证。未来H.266也可能会跟进。

除此之外，在AI时代，构建更智能的音视频处理是我们的一个目标，这里包括各种画质增强及修复技术、质量和内容分析技术、以及智能编码技术。在技术方向上，首先会结合业务优先级把单点技术能力做好，比如使用云端超分技术提升1080P视频占比，面向通用场景的纹理及清晰度视频增强。此外，我们会迭代一些具有长期价值和收益的技术框架，比如云端”窄带高清”、端云结合超分、人眼感知的质量评估等。

现在音视频处理的智能化程度其实还有很大空间，个人理解挑战主要有两个方面：

1.音视频处理不是单一技术，从当前技术发展来看，很难用一个大模型来实现，一个更智能的视频处理系统应该是包含high level语义理解、low level图像处理、编解码技术的某种融合体，而当前算法方向的典型人才画像是聚焦在某一个技术点上。我相信未来复合型人才和具有系统理解的算法人有机会做出突破。

2. 智能化意味着大数据驱动，ChatGPT的训练数据可以来自高质量的问答，通过自监督训练进行大规模学习，构建高质并准确的数据集在音视频领域会更加困难，Groudtruth以及退化模型是否准确通常是音视频算法面临的第一个关键问题。

目前业界的探索更多的集中在单点能力的智能化，比如利用图像生成技术的画质增强算法、利用AI提升编解码子模块效率等，这些都是我们可以跟进的技术点，但我们也希望在跨方向技术融合以及全局优化能力上做更多的探索和实践，为此来找到提升音视频系统智能化的有效途径。

LVS：每个人都有自己认为的主观好与坏，所以，该如何验证画质优化算法对主观质量提升是否有效？

剑寒：这个问题其实也是前一个问题回答中所说的“构建高质并准确的数据集在音视频领域会更加困难”的一个佐证，每个人对于画质好坏的判断都是不一样的。不过，是有国际标准来指导的，简单说就是，在一个可控环境条件下，通过专家评测和众测来判断画质是否有提升，其中众测是对于同一个视频收集多人的评价结果，通过统计的方法来消除个体上的差异，虽然不一定符合某个人的判断标准，但是代表了大多数人的意见。

当然，主观专家评测和众测由于时间和操作成本只能在小数据量上验证，真正上线还需要经过大盘的检验，这里一般会使用AB实验的方式，通过对比一些关键业务和技术指标来佐证大盘上的表现。需要注意的是，AB实验的影响因素很多，不完全是画质上的，需要结合方案具体分析实验数据。

LVS：作为一个非常大的UGC内容社区，小红书图像或视频的来源可以说非常宽泛，所以有时真实拍摄环境不受控，导致内容质量不能保证。这种质量评价问题，你是怎么处理的？

剑寒：我们今年落地了一个基于AI的无参考视频质量评估算法来解决这个问题，它基于人眼感知质量对任意视频做绝对质量评判，像你说的，UGC视频的多样性对于数据驱动的AI算法来说是一个挑战。此外，当视频经过整个视频链路的处理后质量变化也极大，带来了更大的复杂性，比如特效编辑、多档位视频增强和转码等。因此，数据集是要精心设计的，既要包含线上的主要质量问题，同时需要主动构造一些难以直接从线上采集到的case，核心点是，如何用尽量少的数据样本代表大盘，这里有一些技术上的辅助手段，比如数据采样方法。

算法设计上，重点是如何有效提取质量特征，这里需要对质量问题的产生过程有充分的认知，比如视频链路中编辑和转码会如何影响质量，我总结几个关键点分享给大家：

1. 全局构图和局部纹理信息都很重要，质量相关特征体现在局部纹理上，而劣化程度在于全局感知；2. 捕捉大范围时空信息及依赖关系，人眼对质量的感知涉及到整体语义理解、关注区域、创作意图理解等，很多视频处理操作会在较大的时空范围内影响质量，比如码率分配、ROI编码等。3. 质量评估数据集的量级和完备程度远低于分类识别等CV任务，我们需要某种显式地辅助质量特征提取的手段，一种方法是通过添加有序的质量样本或者利用质量评估的代理任务，进行数据增强及质量特征自监督学习。