智源大会-2024-九-

news/2025/4/2 19:33:22/文章来源:https://www.cnblogs.com/apachecn/p/18430457

智源大会 2024（九）

2024北京智源大会-智能驾驶 - P4：比亚迪智驾与智舱开发工作实践：高文 - 智源社区 - BV1Ww4m1a7gr

呃首先感谢刘主任的介绍以及组委会的邀请，呃很高兴与大家相聚在致远，呃，刚才首先黄教授先讲了这个人类对于呃，驾驶任务的这个完成，刚才也说了，人类是先有了这个完整的一个认知，然后经过特殊的50小时的训练。

就可以在没有训练过的道路上完成驾驶的任务，然后同时又说了大模型思维在智驾的呃作用，以及对未来的展望，然后法旺主任呢，刚才也有对智能驾驶汽车的这个产业，应用的现状以及方向进行了同步，然后呃梁总和马总呢。

在呃长安汽车和这个小鹏的相关的支架，还有AI大模型的实践进行了分享，然后很高兴，今天由我带来，比亚迪在智驾和座舱开发工作方面的，这个实践分享。

呃从1876年，奥托发明了这个往复活塞式四冲程内燃机，到1985年，本次发明了世界上第一辆汽车，再到八六呃，1886年，戴姆勒成功发明了世界上第一辆四轮汽车，汽车从诞生之初，它的使命呢是代步工具。

那么经过了138年的发展，汽车的产品呢属性增加了很多，其中有两个最重要的就是安全和体验，那么它的使命也变成了兼具智慧的，有温度的伙伴，下面我将从三方面进行相应的分享，第一部分感知传感。

我们和车作为一个整体，要感知什么呢，大概分为三个方面，第一个是环境方面的感知，感知道路交通标识，障碍物，交通参与者动等动静态的这个目标，做到看得清环境，第二呢是自身的感知自车的位置，速度，方向位资。

以及驾驶员和乘用车乘车人的呃，生理和心理状态呃，动作手势，语音空气等，做到看得清自己，第三呢是物联感知实时的路况呃，道路信息，行人信息等等，车路云看得清交通，那么说到感知就不得不说一下传感器。

以摄像头为代表的视觉传感器呃，基纳斯还有v two x的定位传感器，以及激光雷达，毫米波，超声波雷达的这个雷达传感器以及麦克风压力，还有嗅觉的呃，感官传感器以及呃惯性测量呃单元，还有这个角编码器等等。

这些姿态传感器共同构成了感知传感链，呃车载摄像头从市场角，普段等多方面的多方向的发展，以提升探测距离，弱光环境的适应能力以及动态响应的速度，从单目的基础识别演进到了双目的立体测距。

在集成红外成像应对夜间的这个场景，到引入事件相机，快速捕捉动态变化，逐渐增强智能驾驶的感知能力。

毫米波的发展呢，从发展的里程碑和技术的里程碑，两个角度上来讲，发展的萌芽期可以从追溯到1940年，开始于实验室，主要应用于军工领域，呃，发开发期呢从上世纪80年代，各国呢积极投入研发。

尤其是欧美普及期呢，在呃毫米波雷达呢进入了这个应用阶段，中国起步虽然比较晚，但是现在已经逐渐的国产化技术里程碑，共经历了七代的这个迭代的过程，工艺上从碳化身到转化硅再到西茅斯的进化，性能越来越优。

集成度呢也更好，体积越来越小，重量越来越轻，从测距测速加上水平角的3D，再到测距测速水平和俯仰角的4D，再到测速测距水平俯仰角，再加上抗干扰的4。5D，角度的分辨率呢越来越高，抗干扰能力也越来越强。

呃激光雷达呢利用脉冲激光的飞行时间，进行物体距离的探测，从20世纪60年代，休斯实验室研制出了世界上第一台激光器，到80年代加入了这个扫描机构，一直到2005年，第二届无人无人车挑战大赛上。

参赛车辆上出现了360度的多线束，旋转式激光雷达，以及五个单线激光雷达的方案，七支完赛队伍中，有六支都搭载了64线的，这种旋转式的激光雷达，激光雷达自此一战成名，到2017年。

全球第一款车规级激光雷达量产交付，是一个四线的一维转镜的方案，2022年，国产的半固态激光雷达量产，价格呢也逐渐的走下了神坛，激光雷达正在向千元内迈进呃，同时呢功能上进行了相应的细分，有前视补盲。

然后还有这种呃像素级空间分辨率的呃，高线数呃，长距的激光雷达经过了这20年的发展，从光场生成方式到收发单元的这个技术路线呃，也也趋于收敛，但是flash固态还有OPA以及FMCW等技术。

也仍在蓬勃的发展，第二部分智能驾驶功能以及相应的趋势，智能驾驶从定位感知，规划到通信技术，都进行了全面的革新和技术的更迭，从减少驾驶负担到逐渐释放双手，技术的每一步进步。

都是向着更安全更智能的方向迈进了一大步，智能驾驶技术以预防为主，通过全天候监控和即时响应，为用户编织出一张无形的安全网。

DEPLOT智能驾驶辅助系统，以天神之眼为设计理念，安全为设计初衷，依托先进的电子电气架构和全站自研能力，为智驾提出整车系统及解决方案，实现整车全场景的陪伴，辅助和救助，以安全为核心。

结合电机云年等控制技术，做到起步制动更平稳，大曲流，弯道更丝滑，全场景的智能领航，全球独一无二的E4方泊车，行业领先的窄道通行，双速泊车模式，以及断头路泊车等，为用户带来了极致舒适和极致安全。

行业上普遍理解的L3有别于L2的功能要求，而安全要求是控制的冗余，仰望U8E4方，不但实现了控制冗余，而且还实现了机械冗余，E4方概念车是行业首款无制动装置，无转向柱结构，无转向电机的汽车。

实现了驱动制动和转向三合一，行业首次实现，车辆在传统制动和转向系统都失效的情况下，仍具备制动和转向的能力，体现了强大的E4方机械冗余能力，超越了L3级别的冗余要求，因此仰望U8。

成为全球首款具备L3技术底座的量产车，最后智能显示，为增强安全以及车内娱乐和人机交互，带来的新方式，舱内的显示屏从最开始的仪表演进到了中控，副驾后排呃空调，还有这个车门旋钮上面等等，这些是从体验出发的。

那么补充驾驶视野的盲区的透明A柱，以及减少视野遮挡，增强夜视感知效果的电子后视镜，以及避免驾驶员视线从前方行驶切换到中控，增加驾驶风险，以将显示信息投影到呃，驾驶员前市区的这个HUD显示与现实相结合。

带来的AI导航增强显示以及多功能补盲等，都是极致安全的体验呃，全息投影显示技术在紧急情况下，将虚拟方向盘和其他操作设备投影到必要位置，驾乘人员在全息空间操控汽车，确保车辆的安全。

让主驾副驾以及后排空间共享屏幕，让欢乐与喜悦在家庭之间传递，完美兼容手机生态，让车载应用不再困难，实现人车手机互联，让交互不再存在隔阂，通过3D显示技术打造沉浸体验，让汽车成为用户的第三生活空间。

混合实现呃技术打破现实和虚拟的边界，给用户带来前所未有的科幻感受，从未来科技驶入现实，1995年的译制片霹雳游侠，片中的这个cat不仅像很多电影里的车一样，无坚不摧，同时会说多国的方言和呃。

多国的语言和方言陪你悲伤和快乐，可以完全接管汽车，自动驾驶是一个兼具智慧和温度的伙伴，那段每周日两集的这个译制片，不仅打开了我们的想象和对未来的无尽憧憬，也教会了我们正义和勇敢创造。

霹雳游侠里面的KATE是很多人儿时的梦想，那时没有物联网，那么在霹雳游侠KATE的这个自动驾驶，有温度的人机交互，对环境的感知追踪，营造的立体的多维感官监测以及氛围提醒，与现在的物联网联相结合。

这将是梦想的升级版，汽车不再是以硬件为主的工业化产品，也是一个自学习，自进化，自成长的软硬兼备的智能化终端，心有所信方能远行，让我们汽车人一道共同努力，创造美好的明天。

2024北京智源大会-智能驾驶 - P5：自动驾驶大规模应用的挑战及展望：白宇利 - 智源社区 - BV1Ww4m1a7gr

首先感谢那个组委会的邀请，然后也感谢刘主任的介绍，那呃各位下午好，然后我是来自未来人工智能平台的白羽丽，很开心呢，今天下午有机会跟大家一起交流呃，自动驾驶，聊一聊这个大规模应用下的这个呃挑战和展望，对。

可能我我这个这个风格，跟其他前面几位有点不太一样，然后还是比较偏向于说，这个量产的工程落地没有那么学术，然后时间也比较简短，然后呢，我先简单介绍一下未来汽车和未来智能驾驶。

那未来汽车是一家全球领先的电动汽车品牌，那我们致力于为用户创造愉悦的生活方式，对那未来智能驾驶的，当然我以下的时候称，就未来智驾旨在呃解放精力，减少事故，提供安全放松的点到点智能驾驶体验。

那在2023年，汽车界最权威的这个安全测试机构呃，un un cap启用了新规，其中主动安全新的百余项的这个场景之下呢，未来支架也表现出色，然后助力于未来，成为这个首个达成五星安全评评估的。

这个汽车品牌，那下面呢我也介绍一下整个未来支架的组成，主要包含里边四个部分，那包含感知系统，车单超算核心的算法以及整车平台，在这里边呢我们要首这个着重的时候介绍两块，一块是大家刚才也提到的这个感知系统。

那在未来的这个整个感知系统里边，是拥有33个高性能传感器，那分辨率是一个非常高的一个状态，而且全系标配了激光流激光雷达，另外呢是说在车端的超算，那未来也是第第一家在车上边时，全系标配了四颗奥瑞X的芯片。

然后算力总量是达到1016tops，那第二代整车平台NT2。0呢，我们全系标配了这个配置，那不光在当前，包括在现在，那都可以说是重新定义了量产车的，这个智能驾驶的系统，树立了高端支架新的标准。

那接下来呢我想呃介绍几个这个呃，未来支架的一些时间点啊，可能有些同事是并不太清楚对，那我们在2021年的1月，未来发布了NTR的首款车ET7，那其实标志着未来从这个呃走向了全站自研。

智能驾驶的一个新的时代，那2022年的4月，ET7上市，我们仅仅用了一年多的时间，就交付了智能驾驶的功能，同年的9月，然后我们在o p plus，在高速的场景里边是也开始了交付。

在2023年的呃10月份，NO p plus从高速拓展到城区嗯，到4月呢，那全域的领航辅助，我们就向所有的NTR的车主全量推送了，那所以从一个全量推送的过程呢，那我们仅仅花了六个月。

而特斯拉的FSD啊整整花费了3年的时间，当然我们还在这个持续的更新，也不断的在优化着我们智能驾驶的这个技术，和它功能体验，既然今天要讲这个大规模应用的挑战，那我们首先定义一下呢，大规模是什么。

那我在想大规模主要是有两个呃方面的含义啊，一个是说在使用规模上面，另外的呢就是在功能范围上，那首先说从用户量上边啊，那在我们第二大平台，用户量从2022年的8万，2023年的15万。

然后进而的时候到现在2024年的时候，预计的时候应该远远超于30万，基本上我们每年翻一番，那第二的话是说从这个覆盖的范围和区域上，那我们在2022年的话呢，ET7在中国交付。

同年其实我们即在欧洲完成了交付，那2324年我们进一步的时候，也拓展了欧洲多个国家，然后包括呃也有新增的中东的地区，对那再次的时候我们在聊的是里程，从22年呢高速成快，然后大概是36万公里。

那到23年10月份发这个，我们发布城区的时候呢，目标是六十六十八万公里，对那如今我们可以痊愈的领航辅助，这个可用里程已经超过了140万公里，最后呢那我们要讲的是车型和平台，那在2021年以前。

我们的n T1的平台，那也是经典的，在在未来的886的车型，到22年我们新增了n t two，对然后呢在这里边的时候，我们现在九款在售的全系车型，都已经更新到了第二代的车载平台上。

那24年我们搭载的NT3的自研平台的，这个第二未来第二品牌乐道也即将开始交付，对那这些都是从我们讲说这个呃量和维度上面，那我们说从功能上变未来支架体系，那我们也开在这里边开始支持多个车型。

然后新老平台的三代平台的同台，多个国家，多个公的这个多个区域上的功能交付，挑战其实非常大的，那我们去看说从呃功能规模，从最简单的功能独立功能，到我们后边复杂的更融合的系统，例如我们经常谈到的AEB。

就是自动紧急制动的这样的功能，当我们发展到现在的NO p plus，全域领航辅助的功能，那从最开始数据每秒钟的时候，百这个百兆B的这个大小到现在的时候，我们可以每秒产生的数据十十G大B对。

那10G大B每秒相当于什么呢，一秒钟看完两部4K的电影，那我们端测的算力也是呃急剧的在增长，从最开始的时候可能大家都知道的时候，比如说那可能都小于实实实这个实体套，这是10top4的这样的算力。

到现在那在整个未来的呃，未来的车车载上面是进有这个千体，这就是上千TOS对在这个算力规模之下，其实跑一个100B的大语言模型都绰绰有余，那我们的这个车载平台，是完全有能力来去支持的，那从研发任务。

那以前的时候研发任务可能小到几十项对吧，大到上现在大到上百项，从最开始那我们感知唱片的时候，在车辆行人障碍物的检测，到现在大家开始去聊这种GOAAES，然后MAI这种复杂的融合系统。

那其实从功能上面都是一个大幅的这个提升，对那从评测任务最开始的时候呢，小到几百，现在大到上万，总不光是这种评测的种类多，那验证的里程的时候也是要求的，逐渐的时候去增加，说到这里呢，大家可能会想说。

这么大的规模，这么多的场景，这背后需要有有有哪些挑战对吧，然后我们以及怎么来去支持，这么大的这个这个场景的变化，那接下来的时候，我刚我将跟大家一起的时候去深入探讨说。

那在未来我们再怎么应对这样的问题的，对咳，就我我给后边的时候分为这么几呃，这部分挑战的时候分为几块的值来去讨论啊，主要是分为计算啊，那数据和成本我们先说一下这个计算的挑战吧。

对那未来自动驾驶研发每天要进行数百个实验，数千次的构建，数10万次这个数10万个挖掘的任务的执行，那这些都与这些高并发的任务，都与说都需要一个非常强大的呃，计算平台来去支持。

那我们自己自研的高性能计算平台，能够支撑什么，200万次任任务的这个日间峰值的吞吐，并且可以支持说瞬时瞬时的并发的时候，超过1。5万个节点对，那大家也在讲说天下武功唯快不破。

从发现问题到解决问到解决问题，发布这个版本，那更短周期的迭代是我们一直优化的目标，那为了解决这个这个超大型任务的性能瓶颈，我们自己也设计并研发了一套大规模，分布式的集，这个训练集群，计算集群吧。

那在这个集群里边的时候，我们可以做到单任务量级的时候，是超过EFLOS的，那我觉得这个啊行业里边事大家也都可以知道，说具体的总量我就不讲了，但是这个集群一定是在支架行业里边，是top规模的。

当然在规模之外的话，我觉得前面的侄儿像小鹏同时也提到了，说那规模在规模之外，其性能和稳定性是这里边非常重要的，那我们在这里边的时候，整个训练集群性能也是非常好的，那以我们在云端这个空间大模型。

那我们能做到训练加速比的时候，达到91%，有效的训练时长的时候大于98%，当然为了支持这样高性能的训练集群，我们也需要上下游的组件上面的支持，为此的时候我们也啊有这样的自研的，我们认为说缓存的系统咳。

那以以缓存系统为例的话，那我们可以做到横向的扩展性能的时候，能超过同类商业的这样的存储软件的，这个将近四倍，那整整体在支架的研发任务差异是非常大的，然后又在不同的硬件上面跑。

如何让他们都能高效的合理的运行，也是需要花费巨大的时间来去优化的，那我们可以通过性能优化providing工具，然后包括这种协同优化，那我们可以通过实现这种异构的调度，任务的拆分和传输的优化。

包括这种流水线并行，然后多方面的努力，那我们都可以去动态的去，把这个这个负载均衡做好，大幅的提升整体的这个有效利用率，当然强大的算力的时候只是一方面啊，那没有大量的数据的支持计算。

其实就无从谈起，那支架的场景的话，我愿意给它简单分成三类的数据吧，那一类的时候我们称之为训练数据，然后那一部分时候我们称之为这个验证数据，还有一部分称之为反馈的数据嗯，对于训练的数据。

那随着这个自动驾驶的发展，每年对数据的需求都是几十倍的增长，那在三这3年以来的时候呢，我们就有近万倍的增长，那量产车上面的海量数据，海量高质量的数据呢，那我说在未来支架的是未来支架的这个护城河。

那每秒钟产生PB级的数据，让我们从来不担心这个数据的供应，但是如何通过自动化的产线，自动化的标注对吧，能使得这些数据参与到云端的模型的训，练和功能迭代之中，那是要面临的难题，对为此的时候。

我们其实在这里边也建立了，500多种标准化的标注工艺，然后100多条自动化的产线，通过云端的世界模型，参与到这个自动化流程之中，将整个标注的这个自动化效率，时候提升到三个九以上。

那第二块的时候我在讲的时候是验证数据呃，像刚才前面的同事也讲到说，那其实对于整车上边的测试是一个非常复杂的，那对于尤其对于软件测试，大家嗯传统的测试模式，最终功能还是要上实车验证的。

那方法大多数呢是通过这种自建车队，那而如今那我们认为说有多版本，快节奏的并行验证的需求之下，那区区的几百辆车的话是远远不能满足需求的，那为此的话我们NO p plus，我以这个为例吧。

就是我们在开城透路里边呃，那一般情况下是要一个城一个城的开，然后开完之后的时候用这车去验证，但是我们可以结合自有的车队车上边的时候，一块奥顿的芯片接，用这种群体智能的方式。

未来在未来在这里边时候用非常快，额外的这一颗芯片呢，用群体智能规模化优势的是，大批量验证了这些道路的可用性，原定于这种三个月要去验证的，NOP的开通透露的任务，那我们缩短到这个更短的这个时间就能完成。

在在这个之在这里呢，当然我们也要强调一下，说那在这个呃，我们认为说大规模，10万量级规模的这些种并行测测试任务，对于平台的压力是什么呢，那我们需要说能在小时级别，这在这这里面我们能做到四个小时级别。

这种10万规模的车辆，98%的任务下发的成功率，立刻能展开这种测试的任务，数据验证也无需回传到云端，那大幅的去提升这种验证的效率和数，这个数据成本，这个这个数据传输的成本降低，对。

那我们群体智能可以同时支持，150万的验证任务的并行并行测试，那每日可以验证的里程数超过1500万公里，最后要讲的是反馈数据，那量产车每天能产生数百万条的接管事件，潜在接管事件。

那但是如何去有效的时候去完成筛选和压缩，将最有价值的数据上传到云端，并且通过这种自动化的分析，然后是数据闭环里面时，其实最关键的一步啊，那我们通过车端复杂的这种价值筛选，算法和缓存机制。

将万分之一最有价值的数据上传到云端，进行分析，并且在这里边时候，我们去通过5%以上的自动的分拣率，然后能去促使反馈迭代的这个数据飞轮，真正的能去运转起来，当然行业总会调侃说这个未来的研发成本高。

但我们实际上在研发过程中的时候，还是非常在意这个成本效率的，因为我们知道说，长期主义需要这个建立在短期成本可行性上的，因此我们说在研发上的这个巨大投入，并不是无节制无节制的支出。

那而是说对长期技术布局的，这个重要的一个要求，那面对着说这种百倍的算力的需求，我们打通了说这个车端边缘计算的能力，使得端端云的总算力达到26000000000ops，这个算力规模相当于什么呢。

相当于100个分布式的千卡的计算集群，那通过我们车端的计算和筛选生命周期的管理，那我们通过车端的缓存和数据压缩的技术，可以大大的减少数据回传量，降低这里边的流量成本，另外呢我们在讲说呃。

支架的研发周期周期性很强，波动很大，碰到发版的时候，大家一定都遇到过说这种资源上的这个波峰，那未来人工智能平台在规划之初，就是一个混合云的架构，那我们在自研的支架这个智算中心之外。

也加设了多个这个混合云的节点，能通过弹性的上云，分时的定价来去优化这个调度，有效的将这个波峰波谷能控制到10%以下，对最后呢我们要讲说研发任务的种类多，节奏快，如何去平衡这种研发交付和资源的有效利用。

解决资源就占用高，但是利用低的这问题，那我们通过多维的成本分析的工具和运营机制，有效地将研发的价值和资源，利用率的时候去做了关联，通过运营机制，那我们每年能在这里边时优化运这个研发，运营成本是数千万元。

在这里面我要表达的是，就是很很大程度上，然后做相同的事情，用一倍的成本跟用一半的成本，那它是完全不一样的，研发体系，对于研发成本的在意，本质上是对技术上边的，我们认为更高的要求，谈完了这个挑战。

我们也可以展望未来，那用在脚踏实地的同时，我们也仰望星空，自动驾驶的发展也充满了无限的可能，接下来呢我愿意分享几个关键方向的一些看法，包括端到端的大模型，全站的AI平台以及群体智能技术。

就第一点的话呢，端到端大模型大家听得很多，但是呢呃它不是什么灵丹妙药，如果目以目前的这个模型架构上，只能做到70分，那你无法通过说把这个端到端大模型上了车，然后就能做到100分。

因为这说明说你现在的工程效率还远没有，使你的模型架构达到上限，问题还很多啊，其次呢现在的模型架构转换也无法实现，并不是一夜之间的事就能完成的任务，在我看来，要去做得到大大模型。

需要满足以下几个关键的先决条件咳，首先是说数据飞轮，大家讲这个数据飞轮讲的很多，但落地效果好的寥寥无几，飞轮真的转起来了吗，里面核心的就是说数据验证体系的自动化率，然后呢。

我认为说在这里边是至少要能达到三个九以上，才能飞吧对吧，在各个模块上边也是，那尤其大家在讲端到端之前的时候，硅控是不是能全面的模型化了对吧，然后感知是不是可以上BEV transformer，去量产了。

地图，是不是可以实现有图无图的全面，这个自由的切换，那另外的时候我们在讲大模型，我们更愿意给它定义为云端的环境模型，云端的世界模型，那在这里边模型架构和研发方式的转变，需要有初步能去初步验证。

并且把模型应用到研发和验证流程之中，发挥作用，最后的时候我们要讲千卡集群包，包括我刚才看说有有有同事引引用了，马斯克的一个一个推特，然后呢我最近也在看，在6月4号的时候。

马斯克在社交媒体里面讲讲了一件事情，就是特斯拉在部署英伟达芯片，想要部署英伟达芯片来去使用它，但是呢那没有地方，然后他们就放置在仓库里面，后来呢特斯拉也在这个新的德州的工厂里边，开了这个新的空间。

用于容纳5万片H100的芯片，用于FSD的训练，那5万片H100对大家来讲只是听起来很疯狂，那我们说如果想要去做端到端大模型，1万块100总是需要的，那在这里边，如果你不能做到千卡级别的并行训练。

那万卡的训练基本是不可能的，那举举我前边的例子，在我们优化之前，千卡的训练，千卡训练的有效时长的时候只有85%，加速比呢只有60%，那考虑考虑这种故障率和加速比，万卡的真实性能。

在这乘上去的时候就只有1200卡不到了，那但是有效的训练时长提升到98%，加速比提高提高到91%，这样才有可能扩展到万卡，大概的时候也能做到一个这个八九千卡的，这样的规模，我们才能才能去使用它。

那毋庸置疑，在数据量足够大的情况之下，算力也足够充足的情况之下，端到端模，端到端模块的联合优化，是有可能整体去提供系统功能和体验上限的，但是正如千卡和万卡的例子一样。

如果没有很好的工程化的这个效率和质量，端到端带来的这个研发链路的简化闭环，这个闭环效率的红利，其实都会被低效的工程效率去吃掉了，对。

那后边的时候第二块的时候要讲AI平台，那在呃不仅在这个智能驾驶的这个大背景之下，最近我们也看说大语言模型也出圈了，对那AI平台开始更多广泛的去关注和讨论，那随着这种基础模型的能力的通用化。

那我们也看到了一个机会，就是全站的AI研发平台的可能性，那全站的AI平台，我我理解，不不仅仅可以支持自动驾驶的研发任务，最近我们还支持了集团之内的那像NOI，也就是未来内部的智能座舱的助手。

还有内部的NEOGPT的应用平台，客服专属群，那正如我们可以跨平台，跨地区多车型的这种模型模型产线交付一样，那实现了85%以上的模块的复复用度，让我们也成为国内第一个，可以跨州量产支架的汽车企业。

在2022年的3月国产，我们在国内这个量产的ET7，交付了自研的NOP的功能，在同年的9月，然后我们智驾算法就上线了欧洲的这个ET7，并且建立了功能安全，智能安全等大规模的量产的能力。

这也得益于说我们有高度可以复用的，全站的AI能力，对咳全站AI的平台统一管理，去优化数据AI技术应用的整合，提升了效率，并且降低了它的整个研发成本，才能真正实现我们所谓的m l ops。

大家也应该知道说，m l off在绝大绝大多数企业落地的时候，其实并不是都不是特别好，因为一个好的研发工具，在我们看来，不仅仅要适应于企业内部的研发流程，还应该去适应于它的不同的阶段。

生搬硬套的去把这些工具强塞给，这个企业的AI研发里面是不太现实的，那在我们去设计AI的全站的AI平台，特别是注重它的灵活性和适应性能，确保说在满足各个阶段的需求，就像是说建一个高效的一个引擎。

各个部件可以完美的配合，可以有效的最大限度上面提升它的性能和效率。

在2023年9月，未来第一次的未来科技日，然后我们第一次介绍了群体智能的技术，那群体智能是未来智能驾驶技术，未来发展的重要的方向，未来群体智能具备强大的计算能力，达到6700000000offs。

那能够每秒处理2。1PB的数据，通过优化这种并发和实验，一定程度上我们实现了真正的车云一体化，进行分布式的验证和协同学习，也正如我前面提到的那，在AEB的道路验证NO p plus。

全这种全域领航开成拓路，包括世界大模型的数据迭代上，那群体智能都发挥了其强大优势，和无限的无限的潜力，它让我们量产的功能可以持续的高效的迭代，不断的为用户提供更安全，更舒适，更加个性化的支架功能体验。

就像说在赛车队的这个在赛道上，可以通过协同的作战实现最佳的战绩，那我们量产车队也可以通过这种协同学习，不断的进步和提升，我们也相信在不远的将来，那我们自己的自研芯片进一步的去整合，去定制这些功能和能力。

以推动智能驾驶和通用AI的技术的发展，让我们去设想，那智驾智能这个支架的汽车，在没有支架的同时候，其余时间也是可以进行推理计算的，那通过闲时复用，将算力共享给其他智能应用，就像分布式的云一样。

那将智能驾驶乃至这将为整个智能驾驶，乃至整个人工智能行业，带来巨大的这个算力的提升，那真正的实现车联网和云计算的结合，那我今天的分享就到这里结束，那感谢大家聆听，最后的时候。

我给大家这个一一部小小的影片，让大家感受一下，说我们在呃未来如何去做这个呃智能驾驶。

包括他们的结果是怎么样的，感谢大家，领航开始，即将开始领航换电。

2024北京智源大会-智能驾驶 - P6：自动驾驶3.0时代，大模型重塑汽车智能化路线：贺翔 - 智源社区 - BV1Ww4m1a7gr

感谢法王主任，感谢志源的邀请啊，今天有机会能给呃各位嘉宾分享一下，我们在那个自动驾驶大模型方面的，一些实践经验，我觉得刚刚访华主任有一点，所以我非常的赞同啊，前面几位数啊，主机厂侍卫讲了很多。

修了很多肌肉，做了很多牛逼的东西，但是好像讲的不够透彻是吧，我们作为供应商，我们就把最干货，最底层的东西全部抛出来了，尤其我们过去几年，在整个大模型方面探索中遇到的一些问题。

走过的一些弯路也一并贡献出来是吧，希望能对大家有一些呃启发或者帮助吧，对，我们根据过去几年，整个自动驾驶发展的这么一个历程，把整个自动驾驶的这个呃技术的演进路线，分为了三个阶段。

第一个阶段我们称之为一个硬件驱动是吧，大家主要是靠堆激光雷达，那第二个阶段，其实呃现在绝大部分公司可能处在第二个阶段，就是用一些小的数据，小的模型去解决感知啊，认知道决策规划的这么的问题。

那么接下来我们判断是说未来是一个3。0，我们称之为数据驱动，它的核心特点就是大数据，大数理大模型是吧，其实刚刚很多那个呃呃，前面的老师也讲到了这一块。

那么在3。0时代，我们更应该去做什么呢是吧，刚才讲到三个关键词，说大的数据，大的模型和大的算力，那么今天会主要跟大家分享一下，我们整个的大模型到到底是怎么做的，以及具体这个大模型我们怎样去做。

我们整个的数据系统，然后算力这块我们在这就不详细讲了，因为这个我们之前已经讲过很多次了，那么大模型这一块，其实去年也是在资源的会上。

我们公布了，我们当时的那个自动驾驶的大模型的，我们称之为现在可以称之为1。0版本吧，当时我们是业界，应该是第一家，使用深层式技术来做自动驾驶大模型的，这么一个方案呃。

为什么我们会走到这条路呢，我们现在先呃留一个悬念啊，我们最后我们会给大家回顾一下，我们整个的研发的历史，以及我们怎么样是走上这条路来的，那么这条路我们选中了啊，通过深层式方式。

而且是通过BEV生产的方式来解决，自动驾驶问题，那么在研发的过程中，我们也发现了很多的问题对吧，开始我们可能把这个问题想的简单了，我们觉得因为我们大量的量产车在外面开，在全国各地开会。

传各种各样的数据是吧，我们天真的就以为说，我只要有大量的这样的数据，然后把它看到的世界表达成一个BEV的视图，然后通过深层次的大模型，把未来的BEV生成出来是吧，我只要能把未来的BEB预测出来。

我自动驾驶的任务就解决了。

那么实际上在训练的过程中，我们花了大概有半年的时间吧，呃训练的过程中遇到了很多的问题，这些问题主要包括两个，第一个是说，因为你采用的数据是量产回传的数据，它有它先天的优势，就是右边的。

也有它先先天的弱势，就是左边的呃，它先天弱势在于说，因为你不可能用量产车来回传海量的视频数据，这个成本是比较高的，我们没有办法去承受这么高的成本，所以我们回传的是感知的结果，当然也会回传一些视频数据。

这些数据肯定是在特定的处罚条件下才会出来，所以我们回传的海量的数据，基本上是感知的结果，然后有了感知的结果，有了实际的驾驶动作之后，我们就可以把这两个合在一起，做那个深程师的学习。

但是我们很很很遗憾的发现，我们的量产车的数据，回传的感知结果其实并不完美，对于我们后面去做那种想要一学，一个非常牛的这种老司机的这种驾驶决策出来，是有很多的限制的，比如说我在举了一个非常非常常见的例子。

这基本上呃呃哪都能碰得到，就是我们在城里头车开到这种城，进入城市AA之后，我们会发现城里的车道线其实并不那么清晰，因为他经常磨来磨去是吧，都磨没了，尤其是在光照条件，比如逆光这样的环境下。

他根本就可能原传统的感知技术，可能做的不够好，它回收的车道线就不好是吧，那你基于这样不好的感知结果，再去虚拟后面的那支角色，其实就会有先天不足是吧，那么它的好处就是说右边确实我们看得到。

这是我们真实的数据，我们的车卖出去之后是在全国各地开的，也是它的数据的分布确实非常非常的好，有地域的分布，然后我们把这些数据拿出来，又重新看了一下它的场景的分布，其实也是非常非常好的。

就是各种各样的场景你都能遇得到，那么这个数据非常好的，是一个好事，同时我觉得也是一个巨大的挑战，刚才大家也讲到了，说呃特斯拉训这个呃DUANGDUANG的大模型，花了差不多100亿美金是吧。

那我们作为一家小公司，新西兰不可能干这样的事是吧，所以我们想到是说面对这么复杂的场景，你要训出来一个特别牛的老司机，你真正的降低成本的方式在哪里是吧，你人家花100亿美金，你能不能花1亿人民币是吧。

这个挑战是比较大的，那么具体怎么做的呢，我们先把这个任务定义清除出，我们到底要干嘛，这是我们训完1。0之后，遇到这些问题之后，我们重新去思考了一下，这个自动驾驶的大模型究竟应该去干什么事情。

我们把它分成了三个阶段，第一个阶段就说根据我们之前对量产车回传来，感知的效果不好的这么一个大的问题，我们觉得第一步，我们该先首先需要做一个通用的感知能力，为什么叫它这个通用的感知能力呢。

这个跟我们传统的，就是我们之前在车上已经卖出去的，这些量产的感知对比，它是一个完全不一样的东西，我们传统的感知大家都很清楚是吧，是基于标注来做的，我标了十类物体，那我就只能识别这十类是吧，没有标过的。

它就没有，那就也就不能回传是吧，所以我们希望通做的通用感知是说，它能跟我们的能量感知一样，它具备2D的能力，也就它能够看懂图片是吧，它具备3D的能力，它能够理解三维的空间。

同时它还能够加速时序变成一个4D的东西，最好它还能够识别万物，它不是一个只能够看懂图片纹理的，它能够识别弯，我知道这是什么东西是吧，跟我们人的感知是一样的，然后有了这样完美的感知之后。

你后面这个第二步我觉得做起来才是有价值的，那第二步我们希望做到什么什么的，我们希望是说在你有人类的感知之后，能够做到一个人类的驾驶决策，那么人类的价值角色，跟我们传统的价值角色有什么差异，它的差异。

我觉得最主要体现在说，我们大模型和小模型的一个很大的差异，我们希望这个认知决策是具备世界知识的，有时我们能够看懂或者理解，这个世界背后运作的规律是吧，这是个我们称之为世界知识。

能够看懂各种各样的驾驶场景，而不是人为的去定义各种各样的场景，以及定义各种各样的静态的规则是吧，能够具备这种推理的能力，我觉得这样才是真正具备一个老司机的，这么一个能力，然后这两个都做好了之后。

我们才有机会去把它们俩拼在一起，去做咚咚咚的训练，来提升整个全链条的这种全局的最最优先，所以我们在前面尝试过半年之后，就把我们整个的技术路线调整为这三个目标，那基于这样的目标，我们整体的那个架构的设计。

大概是分为这么一个阶段吧，的左边是我们的那个感知大模型，它实际上你可以简单的认为它是一个4D的，Encoder，就是为了把我是看到的事件，把它encode到一个4D的空间里头去。

然后右边是我们的那个内置决策对吧，这样我们只画了一个BEB的生成，就是我们有了这对这个世界的完美的认知之后，接下来就说我怎样能够把我这个看到的是，看到的信息，把它编码传递下去，让下游的那支角色。

能够知道我看到的世界长什么样子，并且我能够怎么样去利用好我看到的这些信息，来做出很好的驾驶决策是吧，这是我们整体的架构，那么刚才讲到，我们怎么样去降低我们整个的训练的成本呃。

我记得我们当时应该是在22年，我们去建我们的自创中心的时候，我们大致算了一下，如果我们要去做覆盖全国的，这种各种各样的场景，K4的训练，这种视频，比如100万个克利普，当时我们还不敢想。

有1000万个克利普啊，100万个克利普覆盖各种各样的场景，我们要去把它训练起来的话，我们当时算了一下，至少要1万卡，这个很显然我是要不到这么多钱的是吧，那怎么办，那还我们我们想到一个办法。

就是我们能不能去借助外界已经训练好的，这种大模型是吧，别人帮我们一把把，用他的卡，不把这个事情已经训练好了，我把它里面的东西挖出来就可以了嘛对吧，这是一条一条现实可行的，降低我们训练成本的这个道路。

所以我们在整个的这个自动驾驶大模型里面，引入了两个外挂，那么在感知大模型里面，我们有了一个多模态的大模型，它的目标就是实现刚才我们讲的识别万物，因为我们在这个呃图片编码的过程中。

可以很容易地借助外部的多模态大模型去对齐，我们的文本的特征，这样就相当于说我这个东西，不但能看懂图片纹理，也能够理解世界的万物，它是什么东西是吧，然后在后面那个我们讲到在内资决策里面，很重要的一点。

就是说，我们如果要训出一个像人类一样的老司机，他的必要条件就是它具备世界知识是吧，你能够看懂人类世界，你才能够像人类世界一样去开车是吧，你来个小狗小猫，你续再怎么训它也训不出老司机出来是吧。

小狗小猫也会开车，我觉得我前两天刷了个视频，就是个小狗在开车，我觉得挺有意思的，但他不可能像人类一样看懂人类的世界，他能够看懂交通报那个标志吗是吧，它能够看懂我们的路牌吗，很显然是不不行的。

那么这些信息在哪里，其实大语言模型里面都已经有了，我们的任务是说，能不能把这些信息从里面拽出来，我们利用好就可以了，那么通过这样的设计，我们就有信心说，我们只用几千块卡就能把这个事情搞定。

这也是我们我觉得国内的企业，在算力有限的前提下，可行的这么一条路线。

那么具体我们看一下左边整，我们整个的感知大模型大概是怎么做的啊，我们真的是把干货都给拉出来了是吧，左边是我们的那个最，左边是我们的那个呃，摄像头的数据直接输入进来，输入进来之后。

我们首先会有一个自监督的图片编码器，我们会把图片里面的纹理特征全部提取出来，也就这得到一个二维的编码，那么二维的编码之后，它是个图片的特征嘛，我们都会跟外界的那个动漫态大模型去对齐，也就是对齐完了之后。

那它就具备了那个识别万物的能力了，然后接下来我们会它会给它进行一个升维，变到变到三维空间，加上时序，实际上就是四维空间，那我们怎么去做这个事情呢，我们是用那个图片的下一帧预测啊，是视频的下一帧预测。

因为我们这个左边输入来的其实不是图片，是视频，它是一个序列是吧，我只要能够让这个模型去预测，我下一帧图片长什么样子，跟我的增值去对去做对比，如果他能够预测对的话，那这个模型一定是三维的。

因为在这个过程中，我这个车已经往前开了一段距离了是吧，所以通过这种方式来预测，我们通过乐福的方式，把图片的下一帧给渲染出来，然后跟我们的真实图片去做对比，那这强制的这个模型学会了我们的4G的空间。

那这样的话我们就真正做到了，像我们刚才讲的，像我们的人类一样，它具备能够看懂二维图片，看懂三维空间是吧，具备时序，而且能够识别万物，然后我们就通过这种方式，就得到了一个4D的编码的空间。

这个我们认为至少在现在看起来，是我达到我们所谓的完美感知的这么一个结果。

我们可以看一个我们的demo，这是我们实际的呃，车上回传的一个一一个数据，上面两个视频前面那个呃是上面那个是前四，下面那个是后视，因为呃地方有限啊，就就就放了两个，然后我们的模型可以输出这些东西呢。

左边是三维重建之后的结果，这里面是有两个图的，一个是上面那个是从上往下看，也就是两瞰图的视角把它拍扁了，其实就是B1B图，那么下面这个图是一个前视视角，有它在三维空间里，它是可以改变你的视角的。

然后当然也可以做语义的分割，也可以实现光流实现深度，如果跟雷达结合起来，就可以实现去做制度的标注了，4D的自动标注是吧，然后右边我们也给了一个非常常复杂的场景，这是一个绑定的。

应该绑定一个入口非常复杂的一个场景，我们可以看得到，我们在一个模型里面可以把分割语义光流是吧，那个深度全部搞定了。

那刚才我们也讲到了，我们是呃交互GPT11。0是做的呃，BB的生成，我们还是沿用了这套思路，但是我们会把前面的那个输入换掉，之前我们训训练效果不好的原因，我们分析下来是说。

我们感知的结果是从量产车上回来的，而量产车的感知是基于传统的白名单的标注方，式来做的是吧，也就说它有世界上90%的东西，它是看不到的，它也当然无法回传是吧，所以我们把它换成了我们现在的完美感知。

然后有了这个完美感知之后，也就是我们把这个设计空间把它token换，也说刚才看到那个三维空间把它拍扁了，变成BEV，再把它token化，token化完了之后再丢进去，让它去生成未来的BEB。

那这样的话它生成的效果就会比原来好很多，同时我们刚才也讲到，我给它引入一个外挂，这个外挂就是大于大的语言模型，我们可以把我们感知模型看到的世世界，丢给这个大的语言模型。

那他来告诉我你看到的东西是什么是吧，然后你能不能给我一些驾驶的建议呃，相对于说我们的那个呃副驾驶坐了一个陪嫁，一个老司机，是吧，他可以给你去解释，你看到的世界是长什么样子，你应该采取什么样的决策。

通过这种方式，我们能够要大规模的降低我们训练的费用，就快速的使我们上面这个模型进行收敛。

这也是我们一个实际的例子啊，我们找了一个比较复杂的路口，这些路口的标牌肯定都是人类世界的是吧，呃我们要看懂这些东西，如果纯粹采用自动驾驶的数据，这个讯起来是非常非常困难的，因为你没有人去标注。

上面这个标牌到底是个什么意思是吧，但是你借助大语言模型之后，你会发现这个事情很容易就拒绝了，呃当然这里面还是有一些问题啊，比如说他对汉字的理解可能不是特别好，但对于这种标牌的理解还是相当不错的。

各种各样的符号它的理解还是可以的，我觉得可能比很多的女士会懂得更多，呃我们今年又把这个任务进行了一些扩展啊，我们去年做了BEV呃，坦白讲这个思路我们走过了，有一定的效果，但是不够好是吧。

如果大家还想尝试，我觉得也可以，但是我觉得我们现在接下来，真正我们称之为这个自动驾驶基础模型脸，应该是下面两个，我们现在已经第二个已经做完了，我觉得就是刚才你讲，我们可以具具备图片生成的能力是吧。

我们主可以，现在是可以把这个中间的那个4G的空间，把它解码成图片的token，然后用这个GPT的方式去生成，我们下一帧的图片，而且是多V的，是个黄色的图片呃，这个任务看起来好像不难是吧。

但是实际上你真的去做，你就会发现很难，因为在呃那个我们跟收纳去对比，就发现了收纳为什么在自动驾驶好，你没办法用，首先它是单式的，它只有一个摄像头是吧，我们自动驾驶都是环视都一圈摄像头。

说他没有办法搞定这个事情，这是第一步，第二步是说他没有做到，没有办法做到时序，或者说物理空间上的三维空间上的一致性，这个问题我们留到了第三条路，我们现在正在呃做这个呃，难度是比较大的啊。

比如我们在生成图片之后，我们更希望的是说我们应该不是生成一个图片，图片是我们看到的一个表象而已，也就是这个现实世界，在我们眼睛里面一个投影而已，那我们真正的世界是怎么样呢，是个三维的是吧。

那我能不能直接把我们刚才编码的4G空间，把它变成3D的token，然后用GPT的方式来生成，未来世界的3D token，也是我们未来世界这个车往前开了2米之后，这个未来世界的3D脱口会变成什么样子。

这个才是我们真正要解决的核心问题，这个问题解决了之后，你才有可能去渲染出来多V的，保持空间一致性的，持续一致性的这种视频出来是吧，这个视频才对我们这种驾驶是有价值的，你可以用来做训练。

可以用来做测评是吧，如果没有这个东西，我觉得都是很困难的是吧，至少我目前没有看到，有合适的技术来解决这个问题。

我们也可以来看一些，那个我们现在实际的一些demo，就这是我们早期做的那个BEV，生成的这么一个呃效果，就这是呃车上传回来的几个视频呃，左边是实际的BEV，就是我们感知的结果，把它拼成了一个BEV。

然后这个模型会把这个左边的BEB图输进去，那这个模型来预测未来的BEV会长什么样子，其实我觉得通过这种方式呃，已经可以解决自动驾驶的很多的问题了，然后这是我们多V的图片来生成的效果。

其实图片的生成效果已经非常的好了，嗯基本上如果不提示的话，是肉眼是很难分清楚哪些是生成的，哪些是假的是吧，那那那哪些是这真实的图片，其实只有文字在这里面是乱码，除了文字之外，别的我觉得你很难看出来。

就这里面生成的文字都是乱码，这个现在确确实还是一个一个，比较难以解决的问题，就内核的这种生存技术，目前在生成文字上，我目前还没有看到说能够生成一个交通标志牌，能够符合我们真正的像人写出来的汉字。

一样是吧，现在还没有，包括我们现在的那种交通标志牌啦，包括我们现在广告牌啦，生下来的文字其实都是乱码，这个目前还没有解决，我们还在呃公关中，然后视频那一块还没有啊，呃非常抱歉。

我们希望下一次能给大家带来多V的环视，视频的生成，那么接下来就讲到数据了是吧，我们刚才讲的是，我们整个的核心的大模型的制作，那么在这个大模型的呃，在上车之前，就目前而言。

我们现在大模型上车还是比较困难的，刚才也看到我们引入了多模态的大模型，说大语言模型，那参数量都很大，这个想放想要放到车上去，短期内还是比较困难的，那么在上车之前，我们主要是用这个大的模型来赋能。

我们云端的整个的工具链，这是我们整个的那个航母做的那个ma的呃，数据智能体系，我们从整个的数据的采集到数据的管理，数据的标注，数据的筛选是吧，数据的标签化等等，底层都是通过大模型来支持的。

有了大模型之后，你会发现传统的这种对数据的管理的工作，就会变得像我们跟ChatGPT交互一样，非常的简单轻松是吧，大幅度提高你的效率，我们可以看几个例子哈，这是呃我们去从我们的海量的那个图片里面。

比如110的图片，你要去找出一些collar case，比如六个灯走过斑马线是吧，你传统的方法你是很难去找的，比如传统我们打标签，你不可能打这样的标签是吧，那有了这种淡漠性之后。

因为他对可以对这些场景做一些文字的理解，那这样的话你可以输入输入任意文字，非常复杂的文字都它都可以去理解，然后非常精准的把你想要的那个图片找出来，比如这是呃有了大模型之后。

对整个数据筛选的这个这么一个体效，同样我们还可以去定向的生成数据，比如说我们可以任意画几条车道线，它就可以基于这条这几条车道线，来生成各种各样的数据，包括比如晴天的，雪天的，雨天的，雾天的都可以。

当然你也可以换，比如环岛可以换弯道都是可以的，那我们还可以对我们采集到的数据，做一些迁风格的迁移，比如说我们采到的一张数据，我们可以到可以把它变成不同的天气，不同的光照是吧，不同的纹理。

这样来丰富我们场景的数据，那这次引入大模型之后，我们可以对这个驾驶的场景做一些解释，我们可以看得出来就是说他对这种复杂的场景，他还是有一定的理解能力的，他可以告诉你。

虽然说这个呃呃可能还没有达到我们的预期啊，说实话还没有达到我们预期，但是它能够把几里面，交通里面的一些核心的元素已经告诉你了，通过这些它呃，呃从这个呃场景中提炼出来的一些价值的解释。

我们可以可以用这些价值解释来做很多的工作，比如说我们那个分丰富这个场景的那个特征，能够帮我们的PM去分析各种各样的场景是吧，能够对这些场景进行的聚类的筛选啊等等，啊这是我们一个实际的case。

就回到了最早我们看到的这个case，那么有了大模型之后，我们这个case是怎么去解决的，是吧啊，传统的感知肯定是这么差的，那么有了这个大毛蟹之后，我们首先会去检索同样的场景，比如说你输入一段话。

叫什么城市里面的这种模糊车道线，它它就会把所有的模糊车道线剪出来对吧，如果数据量够了，那没有问题，你直接去训就可以了，如果数据量不够，还我们还可以去做数据生成，你输入一个prompt就可以了。

它就可以按照你的方式来生成，各种各样类似场景的数据，然后用这些数据快速的去训练，就能够快速地解决这个问题，好了，最后我也给大家分享一下，我们整个的呃自动驾驶大模型的研发的历史，走过的一些弯路，呃。

其实我们从2022年就开始去做这个事情了，呃为什么我们会做这个事情呢，其实嗯也不是说什么呃，完全就是路径依赖，因为我们原来是干互联网的，在干互联网的过程中，其实这个东西已经用了很多了是吧。

互联网里面用这种强制风暴已经用了很多年了，那我们到了自动驾驶领域，自然也会想到是说这个自动驾驶领域，这个这个任务其实跟机器翻译没什么区别是吧，我输入的是一段一个序列图片序列是吧。

输出的实际上驾驶动作就是个机器翻译问题，所以我们最早就把乡村foo弄过来了，然后训练一个模型，训完之后发现，这个任务其实比机器翻译要难得多得多，所以我们就把这个任务稍微简化了一下。

就是我们把感知的结果就是把图片干掉了，我们能不能用感知的结果来训是吧，这样相对来说稍微简单一点，于是我们就引入了类似于BT这样的呃模型，就是我们把我们量产车回传的海量的数据，因为它是对齐的。

就它有感知的结果，也有司机的驾驶的动作，我们对齐之后就得到了天然的得到一个派对，那么我把司机的驾驶动作mask住，那这个bot来预测实际的驾驶动作，这个跟训练的模式跟bot是完全一样的，那训完了之后。

确实效果比那个原来我们直接用图片训，要好很多啊，但是这个模式其实也是有问题的，就是我们把这个驾驶的那个呃，动作的那个发生的那个原因，可能搞得稍微有有点错误吧，最后我们发现这个。

其实这个任务其实跟GPT是更像的，为什么这么说呢，因为我们真正的老司机，他是不是基于我现在看到的，也就不是基于我现在的感知结果，来做出驾驶决策的，它更多的是基于对未来的预测是吧。

我未来这个世界会可能会发生什么变化，比如我旁边那个车会不会出来加塞是吧，基于这些未来的预测来采取我驾驶动作的，所以这个预测就是个生成，所以我们很快的就把整个的那个技术站从bot，迁向了GPT。

通过这种生产的的方式，生成B1B的方式来解决驾驶决策的问题，这就是我们最开始讲到的，我们叫AGPT1。0，然后做完之后我们就会发现，在你的感知结果不够完美的前提下，你这个驾驶决策再怎么训都训不好是吧。

你不可能在你看不见的时候，做出一个好的驾驶动作，所以我们就提出来要做一个完美的感知，这个完美的感知，其实也是我们应该是在23年初的时候提的，当时这个任务也是相当的艰难的，但是经过我们一年左右的时间吧。

确实这个事情我们还是搞定了，就是我们通过一个模型就能够解决2D3D，4D包括呃识别万物这样的一些结果，那么今年我们会把这两个模型呃拼到一起，做一个咚咚咚的训练，真正是说从完美的感知到完美的认知决策。

能够让这个呃呃自动驾驶的大模型，像老司机一样去识别万物，去看懂我们各种各样的非常复杂的能力的世界，去理解各种各样的驾驶场景，然后做出像人类一样的价值的决策。

好我的分享就到这。

2024北京智源大会-智能驾驶 - P7：智能网联汽车安全验证策略和仿真工具链：杨强 - 智源社区 - BV1Ww4m1a7gr

呃尊敬的法王主任，尊敬的各位嘉宾，大家下午好，呃刚才几位嘉宾呢讲了很多这个算法的迭代，包括引入大模型啊，来提高我们整个自驾系统的安全性，包括它的性能，那接下来接下来呢我要分享一下，赛木科技。

在自家系统的安全验证方面的一些思考，和我们解决方案，呃首先我要简单来谈一谈，这个自驾系统安全存在哪些方面的这个挑战啊，呃我们知道就是随着这个L3以上等级，这种价值对这个安全这个责任认定的不一样啊。

呃我们自驾系统如何去通过设计，实现我们的这个安全，包括通过这个验证保证我们的安全，有一系列这个要求啊，比如说我们说功能安全对吧，这个26262其实它解决什么问题啊，就是我们对于一个系统内部的。

这个据它哈纳分析，我们可以把它的这个硬件，硬件的随机性失效和这个系统性失效可以解决，它要解决的问题是，我们这个系统本身内部没有问题，那网络安全呢对吧，通过网络安全的话，我们通过相关的安全设计啊。

我们我们知道这个自家系统它是个联网的对吧，那么可能存在外部的攻击，距个IO448呀，我们要解决这个，不要受到外部这个攻击的这种风险，还有一个就是我们叫做预区功能安全，这个聚光安全。

它要这个呃安全分析和设计要解决问题，就是说当我们这个系统内部足够安全了，但是在我们系统设计层面，它有一些这个天然的，这一些这个系统的这个缺陷，比如我们一些感知传感器，它对一些这种光照。

或者说我们对一些这个识别的这个范围，有缺陷的话，那如何来这个验证这个领域的一个一个安全，同时我们这个自家系统啊，它的软硬件非常复杂，我们很难通过分解各个模块啊，把这个案件给一这个解决。

另外的话就是说我们知道这个支架，我们说它安全验证很难，一个很重要的就是说它的长尾问题，或者说我们很难通过一种有效的方法，我们去枚举这个测试场景，我们知道我们做这个软件或硬件测试啊。

我们很多这种测试都是可以，它是确定的，所以我们是非常好的，可以去确保它的安全性，那自驾这个系统的话，它一个很大的挑战，就是说工况不确定性很难枚举呃，呃我结合这个I14482对吧。

在里面在这个安全验证的领域啊，提出了一个非常重要的问题，就是说如何去制定这个ADS系统这残余风险，这个验证的方法和这个这个工具链。

呃这里呃来介绍一下我们SAM科技，在这个自驾系统和安全验证，这个策略方面的一些思考，我们都知道哈，基于场景的这个测试方法，是一种有效的验证自驾系统的安全性，但是如何去构建这个场景啊，变得至关重要。

我们我们讲这个AA大师的话，通过我们这种专家经验对吧，或者我们通过手工搭建的话，我们认为基本上是可以确保它L2，这种安全等级的，但是上升到L3以上的这种测试的话，我们很难通过手动大众主动搭建场景。

包括通过这种专家经验啊，能去呃制作一个非常这个全的有效局，所以我们需要寻找一套方法，如何去解决这个场景的问题，我们借助于这个SDF的这个四象限分析啊对吧，这里面就比较关注的就是对于这个危险场景的。

这个这个怎么来验证，我们如果对已知的危险这个场景，那我们认为我们可以把它放在一个二，要那个20202范畴里面，我们基本上可以确保的，但是对于这种未知的风险场景，怎么来验证它呢对吧。

其实他就很难去找到这些边界，那我们的一个思路就是说，我们把这个对自驾系统的测试验证啊，把它转化到一个测试空间探索的这个领域，其实这是空间参数，在我们很多，比如说航天航空这个领域的话，其实应用比较多的呃。

这测试空间呢对吧，我们也可以去再再细分一下，就是叫做连续空间和这个离散空间，怎么理解这两个概念对吧，这个连线空间的话，我们就是它是有边界的，举个例子，在我们今天这个当中对吧，虽然它很很这个很大。

但是我们总归能在一定的范围当中，这个去限定它的边界，那还有一种是离散的，就离散的话，你很难通过建模去找到这个系统的边界，对不对，那针对这两种不同的支持空间的话，就是我们的方案就是说针对连续的。

那我们要去通过我们的SDF安全分析，去定义一个这样的逻辑场景，这个逻辑场景呢我们认为它带边界，就是一个在一个这样的这个空间当中，然后再结合我们的这个安全，我们的这个测试空间分析工具及生成器。

具体的场景呃，后面我们会具体展展开来讲哈，最终的话基于我们这个在测试空间当中，我们会去找到我们关心的那一些这个样本点，然后通过统计来论证我们的这个这个这个风险，那我们的理解就是说在给定边界的条件下。

基于我们的方法的话，我们是可以有效的去量化的评估，我们整个系统的安全的，这第一个第二个就是离散的空间，就离散相对于我们这个呃连续来讲，就是无法去定义它的边界，那就你你很很难去通过这种建模的方式来做到。

这种呃风险评估，那我们的方案就是说，通过构建大规模的AI的交通流，来做这种随机测试，所以总结来讲，就我们把测试空间分为两大，这个这个这个这个方面来制定相应，相不那个对应的这个验证策略。

和我们的仿真工具链，我们先来看一看对离散空间，我们如何来进行这个风险的评估的方案呃，我们在我们的这个这张那个PP上讲的话，我们第一首先通过缩TIF安全分析，安全分析的话。

就是它可以构建一个这样的这个逻辑场景，呃，我们讲说那个锁屏分析的话，其实分为两大块啊，一个是我们的安全分析跟我们的验证，那有一些我们在安全阶段，比如说我的系统上有些这个性能的局限。

我们直接修改我们的系统，就可以去规避一些风，但是有一些我们是无法去调整系统方案的，这时候可能可能存在潜在的危险，这时候我们的安全工程师啊，就会把相应的这些我们做危害的话，给到我们仿真工程师。

但是呢我们在安全分析阶段，需要输出一个逻辑场景，你可以把它理解成一个有待边界的这个空间，呃，比如说我们它结合我们这个仿真领域的话，我们叫这个逻辑场景和我们的这个参数分布。

当我们拿到一个这样的这个呃逻辑场景以后，我们就要进行这个采样对吧，我们在统计当中，那采样的话，我们有很多种方法，我们知道像比比如比如说种均匀采样的话，蒙特卡罗它的这个采样的这个密度啊会很高。

它的覆盖率也很高，但是呢它有个问题，你要对一个高维度空间进行一个，非常好的覆盖的话，它的采样样本也是很高的，那即使我们基于你这种云端这种大脑，这种并发的这种仿真测试啊。

那我们的测试结果也是这个呃证明是不可行的，所以我们希望找到一种好的这个DOE，我们叫实验设计，我们通过少量的样本点来去对空间进行覆盖，同时呢我们可以通过这些样本点，对整个这个系统的这个我们叫失败概率啊。

进行估算呃，我们DAOE完了以后，我们就会基于逻辑场景生成我们的具体场景，这时候我们就会做我们的仿真测试，结合我们的云的仿真的这种大算力平台，当我们有了这些仿真的这些数据以后，我们会做参数的敏感性分析。

就我刚才提到了对吧，我们对一个这个高维的空间啊，你去采样就非非常在这个功能上是不可行的，我们要进行降维敏感性，就是消除那一些对我们自家系统影响不高的，一些因子敏感性分析完了以后。

我们会再进入到我们下一轮的这个，仿真测试迭代，这时候我们就是做我们的可靠性分析，可靠性分析它最终要解决的问题，就是说通过我们对系统的失败概率，你可以认为它是碰撞对吧，或者我们去TTC违反来。

去这个估算出我们这个自驾系统啊，它未来的失败的一个这个概率，我们知道从这个呃失败概率的角度，如果说我们一个系统，它的这个失败概率是个十的呃，十的四次方，五次方，我们认为它是不不够安全的，但如果一个系统。

它的这个失败概率是一个十的七次方，甚至更低，我们认为未来如果在仿真当中，我们可以达到这个级别的话，那我认为它未来在这个实车的这个路程当中啊，基本上这种工况也是不会发生的，那整个就是针对这个方案的话。

就是我们对于连续空间，我们认为我们是有一套，这个从我们数学上可以论证的，这些我们的工程应用上的话，可以去给出一个量化的这个。

风险的评估的一个指标，呃其实我们刚才讲的那个整个的一个，验证的思路，我们分为几大块，首先就是我们这模型的定义，模型的话，这个呃我们理解就是它它是一个逻辑场景对吧，借助于我们数据库分析的这个工具。

当我们有了这样的一个逻辑场景，定义好了，这样测试空间我们做敏感性分析，敏感性这是刚才讲的，我们高采样啊对吧，包括我们会去呃拟合一些代理模型，对我们这个参数进行一些这个分析，那么敏感性分析完了以后。

我们就会做这个可靠性分析，可靠性分析就是呃对，要对我们一个高维的连续空间下，我们要对所有的失败率，都要进行一个覆盖或者搜寻，那我们要做的事，就是要有效的去找到这些失败玉，对整个系统一个呃失败概率的估算。

那么我们做完可靠性分析以后，我们会再做一个这个叫鲁棒性分析，鲁邦先分是干嘛呢对吧，当我们在前一阶段，已经对这个系统的一些零界面，或者说就是说它可能存在这个，失败风险的区域啊，我们进行了这个测试验证。

那我们增加脑洞，看一看我们整个系统鲁棒性怎么样，所以通过我们这个敏感性可靠性呃，鲁棒性分析，来对整个呃给定的一个我们从ODD分析下来，给定的一个这个呃区域，一个空间啊，进行一个安全验证。

最后我们会有一个失败概率的一个这样的输出。

那具体展开来讲的话，我们敏感性它这个主要做什么，对不对，其实呃呃它通过我们这个，比如说我们首先要DOE这个实验的设计，那借助我们为仿真，那在我们用这个敏感性分析，其实分为两个阶段了。

我们第一个我们叫model free的一个，这样的这个敏感性分析，这个阶段的话，我们就是要去对呃，相关的这个敏感性的参数进行一个排序，但是它并不去决定呃，这个参数是否会影响。

我们对整个这个自驾系统的一些KPI的这个影响，那我们做完第一model fit这个敏感性分析以后，我们会进入到第二个环节，就是我们讲的model base的一个一个这个验证。

这个我们会结合我们这些机器学习的，这个算法呀，那最终会选取了一些，我们叫做对整个这个自驾这个行影响的，那些这个场景的因子，比如说我们这个前车的离我们的距离啊，我们的速度速度啊等等，呃这里我们重点强调。

就是说我们会基于我们的这个敏感性分析，算算法，我们通过比较低的这个样本点，那对我们整个空间进行填充，来结合这个基于统计和机器学习的方法呀，来确定这一些这个这个因变量当中，不确定的这个因子啊。

对我整个这个空间的一个影响。

呃这里讲了两个这个阶段，我刚才也讲到，对不对，我们第一阶段的话，就是通过我们统计的一些分析，来找到我们这些这个应变量。

它的一些这个优先级，第二个我们叫model base，model base的话，我们会去呃，他要解决的问题，就是说，当我去在增加我这些应变量的这个过程当中啊，它对我们整个结果影响的这个影响是多大。

如果我们认为当你去加入新的这个影响因子，或者是我们场景的这个一些这个定义的时候，它的这个模型的精度啊，在增长的话，我们认为这种参数是我们比较关注的，反过来，如果说我们再增加一些场景或者因子的时候啊。

它整个我们叫呃，基于我们CP这个呃呃定义这个模型，这个精度的这个指标啊，如果它是下降的话，我们认为这种指标是没有用的对吧，所以敏感性分析，就是说经经过这一轮的这个敏感性分析啊。

就是我们会去得到这个比较重要的，这些这个场景的参数，为我们后面的这个仿真测试啊，做一个降维的准备，可靠性分析，可靠性分析的话就是说呃刚才我们讲的对不对，就是我们希望就是说通过对这个测试空间，这个失败率。

这个失败与我们要强调的是，所有的失败与我们都要搜寻到，通过这是搜寻到这失败与后，我们通过我们样本点的设计，来通过这个呃呃我们的结合的仿真测试，对整个系统它的这个失败概率进行一个估算。

呃我们传统的方法我们可以居，比如说我们叫做蒙特卡洛采样，对不对啊，但这种采样的话，那我介绍了他这样本点比较多，呃，我们知道对于一个一个比较成熟的系统啊，我们认为他的这个失败概率，基本上在使得一个负。

这个呃六次方或者负七次方，只是这个还要比他小，但是如果说基于蒙特卡洛采样的话，基本上我们认为它是我们叫做这个呃呃维度，这个灾难，你很难去通过这个工程上去，通过这个测试验证啊。

得到一个这样的这么大的一个采样样本点，所以反过来就是我们如何来去解决，对这么低，这么低的失败概率的，一个这个这个数值的一个评估呢，对吧，我们叫做可靠性分析算法，这里我们罗列了几种。

就是说我们现在目前这个常用的这个，可靠性分析算法，第一个我们叫方向性采样对吧，就这个在这个左上角，我们进行采样，然后可以对各个维度进行这个，失败率的一个搜索，还有一种我们叫做重要性。

自适应的这个重要性产业，就是通过我们不断的迭代，通过我们上一轮的结果来搜寻，我们下一个它可能存在存在的一个失失败率，那这样的话我们就会对对整个前空间啊，进行一个这个呃全面的全面的覆盖。

这里我们可以看看我们这个做了一个实验啊，结果做了个对比，就我们做了一个这个测试函数啊，呃可以看就是说我们这个测试函数的话，它的失败概率是在一个十的这个负七次方呃，如果说我们看到这个表哈。

这个表格这个表格就是我们在前面的话，当然失败概率是比较，比如说我们在大概十的三次方的话，对不对，其实基本上就是基于我们的可靠性分析算法，和这个蒙德卡拉采样，那基本上这个维度啊大概在两个维度对吧。

但是也是也是比较大，来了我们看最下面的话对吧，如果说我们这个系统啊，它这个失败概率在一个十的七次方的话，我们可以看到，那我们的这个采样方法的话，就是可靠性分析算法的话，大概就是可以5000次左右仿真。

就可以把这个概率的给给给这个估算出来。

但是如果基于这个蒙特卡罗这种采样方法的话，它就要达到这个6700多万次，所以通过数字对比，我们知道我们在这种情况下，我们对于这个失败概率估算，我们可以达到四个数量级的这个提升，这个是非常非常高的。

非常高的，所以这个也是我们这个可靠性分析算法，非常重要的一个特点，就是它在我们既能去估算出我们整个系统，它未来可能这个失败的概率，同时我们这个效率还是非常高，鲁棒性，鲁棒性的话就是说我们去争。

在我们可靠性这个做完以后啊，我们已经搜寻到这个失败域的这些零界面，我们通过增加这一些脑洞啊，来看它的一个一个我们叫safety emergin，那如果他的这个safety min。

如果是如果落在一个比如说这个六西格玛对吧，我们认为它鲁棒性很好的呃，或者我们这三西格玛这样来对，我们这个整个系统，在未来就是可能存在的一些脑洞啊，它的安全域呃。

在这么一个什么范围，我们进行一个这样的统计分析，那基于我们刚才讲到的，我们这个呃我们叫测试空间分析工具啊，对吧，我们的敏感性分析，可靠性分析，还有我们鲁棒性分析这个理论的这个，那建立前提下。

我们制定了我们整套的仿真工具链，首先是我们的那个安全分析工具，那个safety pro，那这个的话就是说我们它一个很重要的输出，就是说当我分析完了以后的话，我们会输出一个逻辑场景。

这个场景的话会给到我们这个云，云端的仿真平台，云端防止平台的话，我们会结合我们的这个叫测试，测试空间分析工具，这个可以理解成它会制作我们这种测试策略，对吧呃包括我们说对他这种采样啊，DOE啊。

那当我们这个进行了这个采样DO以后的话，我们会生成很多具体场景，再给到我们云端的这个仿真平台，这是我们要大算力，我个人的理解，未来我们对这个L3以上的这个自家系统，安全了，这个大规模并发的。

这个云仿真平台是必不可少的，那一定要我们有这个呃，非常强大的这个仿真测试能力，那整个仿真测试云平台的话，基于我们这个simple自研的这个仿真引擎，我们这个仿真引擎的。

我们可以达到这个最高1000HZ的仿真，同时我们的传感器的话，我们能覆盖毫米波激光camera的物理传感器，对不同的光照，包括它的一些这个呃呃噪点等等，我们都可以去做，去做这个这个仿真测试。

然后再结合我们一个自研的这个，27自由度的动力学模型，做一个闭环的这个仿真测试，我们仿真测试会有输出一个这个仿真结果，这个结果待会给到我们的这个呃，测试空间分析工具来做。

我们这个刚才提到的这个可靠性跟鲁棒性分析，最终这个结果的话对吧，我们再返回到我们的安全分析阶段，看看我们这个结果，比如说我们这系统测下来呃，在这个ODD下，我们这个潜在的风险，我们评估下。

如果它是失败概率是十的负四次方，那说明我们还我们在安全阶段，还重新进行这个呃一个系统的设计对吧，但是如果我们说仿真的结果是一个十的，这个七次方，那我们认为在这个场景下，你是足够安全的。

所以整个这套这个工具链的话，就是说哎我们都已经在云端集成，也目前的话也是在我们呃多个主机厂客户的话。

商业落地使用，另外就是说我们两款核心的这个呃工具，我们的安全分析工具safety pro，包括我们的仿真引擎SYMPO，已经通过了我们这个功能安全，这个AHD等级的一个认证，那为什么要做这个事情呢。

就是我们知道这个整个仿真啊对吧，包括我们在做公共安全的时候啊，他对这个你的工具链的执行度是有要求的，我们通过采用车规级最高的这个距R62，AHD等级这个要求的这个流程啊，来去呃。

对我们整个系统的可靠性啊，包括这个执行度进行一个验证，好的就是刚才就是我们讲了，我们在第一个维度对于这个连续空间下，我们如何对系统啊，进行一个这个安全的这个评估呃，接下来我们来讲。

这个对于离散空间的这个风险评估，离散的话就是相比于我们这个这个呃，连续测试空间啊，它很难去通过我们数学的方式建立一个模型，对它进行求解对吧，那更多的就是说我们不知道它的边界在哪里呃。

那我们的一个一个这个解决方案的思路呢，我们要引入这个随机交通流对吧，随机交通流，那当当时我们在做整个方案的时候，我们也在思考，就是说这个随机交流应应该如何来构建，我们是采用这个传统的基于这种规则的。

这个模型来去生成这个交通流，还是说我们要通过这种数据驱动的，那我们的这个理解是基于传统的这一些这个，交通流模型啊，它是比如说有些这个是第三方国外的对吧，就是它很很少有我们中国内地的这个。

交通的一些这个规则，所以他们那些基于传统的这些变道啊对吧，我们跟车啊这种模型啊，是很难去跟我们真实的这个交通流模型，交通绿化进行一个这样的这个逼近的，所以我们认为基于这个实应该构建。

基于我们中国实际交通流数据的AI模型对吧，构建我们宏观交通流和微观交通流，那我们的方案呢对吧，就是首先我们要去采集这一些，宏观的交通流和微观交通流，那基于这些数据训练我们这AI模型。

那再结合我们这个呃云端的这个仿真平台，做一个闭环的测试验证呃，这可以看到对吧，首先我们是要去去采集，我们这一些宏观微观的这个数据，比如我们对某些城区也好，或者高速公路也好，对不对呀。

那具体的模型我们会对这个宏观交通流，数据做预处理，包括我们的微观交通这个做进行预处理，再给到我们这个AI交通流，那我们这个ARDUO的话其实也是包含两方面，一个是我们的宏观的，一个是微观的。

就简单讲一讲宏观微观有什么区别呢，就是宏观的话就对我们整个城区不同道路的，它的一些交通流，比如说我们车流的密度，车流的速度，包括我们的一些这个流量进行一个这样的预测，未来的预测。

那微观的话就是对我们一个单车，它的在这个一个复杂的这个工况下，他的一些表现对吧，当我们前车有前车的时候，你是要去变道，还是说要去超车，还是要减速呃，是要解决这个维度的问题，当我们把我们这个交通率这个。

确定出来以后的话，我们再结合我们在云端的这个解决方案，我们叫做加上我们虚拟城市，虚拟城市的话，就是它可以理解成跟我们这种数字孪生啊，是有点类似的，我们要采集这些高精度的这些这个呃地图对吧。

那在这个地图之上，我们要去构建这一些高拟真度的这三种模型，我们知道就是说对于R3以上的这种，支架的验证啊对吧，我们刚才我们在第一阶段，我们要做的是这个在给定区间下，它可能是一些这个片段式的这种仿真呃。

但是我们说对这个城区的这个这个，自驾系统的话对吧，它除了我们在那些比较这个确定的这工况下，测试，验证完理，我们还要在这种连续的空间下进行测试验证，那我们这个交通流模型啊，就是要解决这个问题的对吧。

当我们有了这个比较一个大的这个地图，那我们这个真实道路，是这个这个这个这个这个一致的同时，我们也引入了我们的这个AI交通流模型，再结合我们云端的仿真平台，来进行一个测试验证。

这时候我们就可以接入我们大量的这个，自家的算法，进行一个闭环闭闭环的这个仿真测试验证，呃这里可以介绍一下我们做的这个，AI的宏观交流模型啊对吧，它就是结合了我们基于这个道路拓扑信息的，交通流动态。

以及这个非线性的一个这样时空，这个图神经网络，我们为什么选择这样的一个实经，这个呃这个时空的图神经网络呢，首先就是说我们这个图神经的话，就对我们这个道路拓扑啊，是比较这个吻合的对吧。

第二就是我们在这个宏观交通流上，它有这种时间跟空间的概念，那通过构建一个这样的这个模型的话，我们会对未来的一个这个时间节点，某一个路段的宏观交通路进行模拟，整个模型的话可以看到对吧。

我们就我们的输入的话，就是说我们的地图信息，包括我们这个宏观交通流数据，那我们整个主干网络的话，就是基于时空的这个图神经网络，我们就引用了四个这个主干网络，因为它每个模型缺优缺点不一样对吧。

呃我们都会同时来确定他们，也同时他们会推理，然后在这个这个这个推理阶段的话，它会输出我们这个四个模型，不同的这个对宏观交通的预测数据，那结合我们这一个stacking算法。

这个算法的话其实就是一个后融合，那最终来给出我们这个宏观加重流，对我们特定道路的一些，这个它的交通流的一些流量密度，速度的一个预测，那微观交流流的话对吧，我们刚才讲的，其实就是要。

你可以把它理解成是一个驾驶员模型，但是它是一个数据驱动的，是我们一个本地数据驱动的一个训练出来的，这个模型，整个网络的话对吧，我们可以分为几大块，就是呃第一是我们我们叫光栅化，第二就是我们这个主干网络。

那整个这个主干网络的，我们也是基于这个BV加transform这样的，一个架构的，那后面就是我们这个呃呃呃，包括我们这个编码和解码器，最后我们会有一个多模态的一个输出。

这个模型我们输入的话就是我们这个地图，包括我们这个行车的一些数据，那光栅化，就是我们就是把这个把我们这个，比如说我们地图的拓扑，包括我们车辆的在车道线上的一些朝向，它的一些这个呃跟地图的一些夹角等等。

作为这种光栅化给到我们这个模型，那再到我们这个嗯，呃encoder这个这个这个encode器里面，这里面就是我们会提取我们的一些，比较重要的特征，那我们解码器呢，解码器。

我们这边加入了对于一些这个矢量的这些数据，比如说我们车辆的类型对吧，你是卡车啊，还是轿车，包括我们这个车辆的这个数一些数据比车辆，你的你的一些行驶的一些速度啊，加速度啊等等，那最后对吧。

我们会输出一个多模态的一个这样的这个预测，就动模态怎么理解，就是我们这辆车对吧，在这个交通路口，我们是要去直行还是左转还是右转，它会都会给出我一个概率，我们会找到一个这个最最高概率的这个预测。

我们认为是它比较好的一个呃行驶轨迹，那最终的话我们就发现这个模型啊，就是我们训练完了以后，他还是对有一些工况这个推理啊，是有些误差的，我们会加入加入一个这个后优化的，一个这样的呃模块。

来对我们整个呃微观交流模型来进行一个优化，基于我们这个AI交通流的模型的这个呃设计啊，我们针对这个我们讲这个离散空间的这设置，验证啊，我们整个房子工具链我们可以看到对吧，在我们图的这个左边的话。

结合了我们这个呃，基于我们真实采集数据训练的AI交通流模型，再结合我们这个虚拟城市对吧，虚拟城市我们对特定城区的一个测试验证，来给到把这个海量的交通流数据啊。

输入到我们的simple的一个这样的这个仿真节点，这个节点的话对吧，那我们重点强调一下，就是我们知道当你数量级很大的时候对吧，你这个你这个几千个几万个数据的时候，你用单引擎的话。

包括你的这个对于传感器的这个设置，这个计算你的性能是不够的，那我们采用了一种分布式的仿真，分布式绑定，我们把我们在传统意义上，传感器在我们仿真引擎内部，我们把它移到我们的节点上面对吧，呃在每个节点上面。

我们去计算我们主车周边的一些感知的信息，那再结合我们的评估，这样我们就可以达到，就是我们通过一个仿真引擎的节点，然后再把我们计算量比较大的，就是分分解到我们在并行仿真当中，每一个容器当中它的这个计算量。

这样我们会做到这个实时的仿真，同时的话对吧，我们可以去做呃，这个多任务的一个这样的这个并发，我们每一个任务的话，我们可以，目前的话我们的性能可以做到五千五千，5000加的交通车，加100的主车。

可能大家觉得哎，我怎么你们的性能交通流只能支持5000，对不对，有些传统的这个基于规则的话，它可能几万甚至10万的就这样数据，但是我们要强调的是，通过这种AI训练的这个模型的话，它在推理阶段还是有很多。

这种需要优化的地方呢，这也是我们目前重点在推进的，包括我们在这里面做了很多种，大量的这种并行计算的优化，那最终我们我们整个这个自驾平台，这个自驾这个系统安装验证的话，我们会做到实时的这个分析。

可以去提取这些关键的NG场景，这里有张图，可能有这个字，有有有有点小，就是我们把我们在线目录在云端部署的，这个结合我们AI交通流和虚拟城市啊，还有我们整个云仿真的一个并行的平台的，数据展示在里头。

我们就可以做到非常好的，这个连续的一些城区的这个测试验证，这对于我们在俄罗三以上的这个城区的验证，是非常重要的。

那总结一下，就是说我们就是对针对这个整个额预计公安全，提出的，对于这个未知的这个呃风位置的，危险场景的测试验证，我们通过对空间的划分来去进行这个测试验证，好的。

2024北京智源大会-智能驾驶 - P8：智能网联汽车深度学习算法：万少华 - 智源社区 - BV1Ww4m1a7gr

大家下午好啊，感谢法王主任的这一个邀请，感谢组委会，使得我们有这样的一个嗯交流学习的机会，向更多的这个企业界的朋友能够呃学习，以及能够产生更多的这一个碰撞的这个机，这个机会就产生一些一些火花。

然后我是来自电子科技大学的呃，万少华，然后先介绍下我们这一个高等研究院，我们是在这一个深圳也实验这一个呃，深圳的市的20+8就是低空经济，人工智能，还有这个立体化的发展而应运而生。

那么我们是对一个就是相当于电子科技大学的，二级学院，我们数据智能研究中心目前是从日本回来的啊，这个任福济工程院的院院士，然后是呃这一个带领我们，我们一共有这一个八个正高级的教授，然后六个国家级的人才。

然后有八名博士后，30名博士和130名的硕士，然后我们主要研究啊机器学习，人工智能，然后相位仍然是是做这一个数字人机器人，然后情感计算，我们也就希望这一个既做这一个理论的，这个研究。

也做这一个啊产学研啊。

好然后对一个跟大家汇报的这个提纲，就是包括这个研究背景，然后研究的现状和这一个挑战，然后我们的呃一些实践就是科学研究。

然后最后是一些应用展示和总结，然后这是这一个人工智能驱动车联网，通感算是实现智能驾驶等第一个根本保障，那么这个随着这个通感算技术的发展，那么这一个无线通信和网络，向更高的移动性。

和这一个更复杂的这一个场景去延伸，那么这一个像云计算和人工智能，使得这一个呃哦就是智能网联汽车的计算，就是走出这一个智能的座舱，然后这一个嗯像这一个就使得这一个啊提高，提供了更高的就是高可靠性。

这一个就是大带宽对一个低延迟的传输的通信，然后向B软计算呃，就是使得这一个降低了这个延迟，然后这一个使得我们的这个服务体验，能够做到这一个强实时，然后这最右边的是这一个车路协同。

我们我们最近也在讲这一个大模型，那么大模型呢车轮系，车漏轮协同的这一个部署是这一个必然的趋势，它能够就是说在这一个啊，这一个这一个就是把将预训练好的这些模型，卸载到这个冰原那里，降低这个延迟。

然后呢可以能够提供一些啊这一个定制化的，这种场景的微调的定制化的服务，和这一个个性化的这一个服务，以及和这个不需要把这些数据上传到这个云端，能够能够对一个降嗯，降低这个隐私泄露的风险。

那么这一个就是呃智能驾驶是一个必然的趋势，那么我们看看这一个人工智能的，第一代和第二代的人工智能，它都是从不同的侧面表征了这一个人类的智能，然后又有各自具有不同的这一个优势，也有不也有自己的一些局限性。

那么这一个单靠某一种理论，某一种这个无法实现真正的拟人的智能，我们需要结合这一个呃理论，建立新的可解释的，鲁邦的这个AI的理论和方法，我们下面一个我刚才注意到，我们下面一个要讲的。

刚好是这一个这一个数据驱动，加这个知识驱动的这个相结合。

那么这也看看这一个解决这个民生问题，就是交通的安全，我看这一个每年的就有交通的事故，以及交通的这个拥堵呃，我们我最近也也常也注意到，就是像这一个特斯拉，它把这一个就是白色的汽车，是就是判断为这一个啊。

就是蔚蓝的这个天空，所以导致这一个一些事故，还有这个骨谷歌的这一个啊这一个呃事故，那么这一个我们就是说更加可靠，更加安全，更加节能和更加这一个舒适的这一个智能驾驶，是这一个呃一个必然的趋势。

然后这一个啊全球也在积极的推荐，那么自动驾驶系统的核心和技术呢，已成为全球的这一个战略的制高点，像中国制造，2025和2035的这个远景规划，也也确定了，这一个就是呃，就是智能驾驶。

为这一个智能制造的核心的战略的内容，像这一个我最近也刚刚注意到，就是今年6月份，也这一个呃，就是说智能网联汽车的准入和这一个道路管理，规范的这一个试运行，也这个通知也刚刚发布。

然后好像这一个由我们在座的确定了，九个联合体，包括这个比亚迪这个还有这一个啊，这一个像这个长安呃，广汽还有这这这这些啊联合体，那么这一个呃，就是加加速推动这个智能网联汽车的这一个，高质量的发展。

然后像美国向欧盟和日本，都也在积极的这一个推推进，然后嗯。

我们下面是我们面临的一些研究的现状和挑战，那么百度它这个我们知道，它专注这一个路测的这个感知，用这一个啊，感知是这一个提供的信息的这个基础，我们要这个希望能够做到这一个全方位多角度。

多视角和这个多模态的这这种感知，像这个中国联通，它是基于这一个比这个移动变软计算是吧，这是我新用新的这个架构，像华为是基于这个veto x。

就是啊就vehicle to inin infrastructure，就是这包括这一个路人网络，还有这个这个路测的这个这个基础设施的，这一个啊这一个一种新的部署，实现了这一个多场景下的这一个呃应用。

然后那么车路协同它的这一个实现呢，需要分阶段的推进，它不可能这一个一蹴而就，其中感知任务，在这一个车轮系统中具有这一个重要的地位，因为它是提供这一个啊，一个一个信息的一个一个基础，就是协同感知。

车漏的协同感知，那么下面是我们我这见证我们学术界的，这一个就是关于这个系一些车路协同啊，协同感知啊，这一个一些research的一些研究，好看我看一下这一个就是单车智能。

它面临的这个安全性和运行设计与以及经济性，以及成本的方面的这个挑战和问题，就是首先说这安全性，因为这一个啊单车智能，它在一些比较特定的场景下，它有这一个，就是就是这这个这个辅助的驾驶系统。

它有这一个啊应对不足和失效的这个风险，就是安全性有待提升，然后这一个呃车辆锐写设计域，就是说将这一个在一些，就是我们刚才有同事也提到，就是呃雨天雾天，雪天的这个恶劣的天气的场景下的长尾场景。

鬼探头的这种现象，也这一个呃也是感知能力，有些人人是几代，这个提升，最后一个就是为了这个做到这个全方位，就是啊这一个多视角，这一个多模态的融合的感知，我们需要部署这一个更多的这个传感器。

和这一个嗯呃就是呃高高性能的这个通信设备，来增加这一个呃增加这个感知的性能，这样就自然导致这个呃，在车单的这个成本的增加，然后我们看一看这一个单车智能和车路协同，那么单车智能就是说在这个车辆本身。

用这个车自动的感知规划决策和控制，执行的这一个全过程，搭载这一个神经神经网络，进行一个自动驾驶的算法，然后这个车漏系统，它就是这一个实现车落影一体化，这一个啊就是实现感知决策的一体化。

然后充分发挥道路目测这个云和云计算，和这一个这一个的一个协同的配合，那么这一个关于这一个啊，单车智能和车路协同呢，它并不是一个就是完全的这一个非合，就彼此对立的二元的对立的，他们都有彼此的优势。

也彼此的这一个不也不足之之处，然后这一个他们是这两种技术的这一个，这种一一种融融合，应该是一个未来的一个趋势，像这一个啊车路协同呢，它呢是能够这一个实现啊，就是自动驾驶的一个上上限。

而这一个呃在自车轮系统中，仍然也需要这一个单车的智能。

然后这是我们就是啊研究的一些准备的，就是呃研讨的一个科学的问题，就是这一个啊高移动性，高动态性的这脱高动拖动态的拓扑，然后这一个呃车单的这一个，而是异构大海量的数据。

那么我需要适应这个通信计算的新型的一个，整体的一个体系架构，然后这一个我们需要这一个多模态，就是多视角，然后这一个准确的这个精准的这个这个感知，然后这一个嗯复杂的这一个是呃，就是深度学习模型的这一个。

它的一个可可可可解释性，比如说它的这个轻量化，它的这一个啊模型的分割模，还有模型的这个压缩这些知识，争六的这技术研究，第最后一个就是啊面向数据时效和缓存卸载，因为我们这要是要对一个低延迟，高可靠强实时。

我们希望把这一个就是一些一些服务，一些比如说一些这一个顺利好的，日顺利的模型能够卸载到这一个这一个路测，或者这一个啊比软的服务器来降低这个延迟。

然后我们下面就是我们的一些呃，一些研究的一些工作嗯，第一个工作就是关于感知的，就不良天气条件下的感知技术，就是基于多模态融合的这个未知天气条件下的，单到端的一个自动驾驶，那么我们针对什么问题呢。

就是主要是针对这一个呃，不良天气条件下的多元异构数据，难以这一个融合，然后这一个啊多阶段的这种自动驾驶，它有存在这些误差累计，那么我们我们提出了这一个单独单的，这个这个多模态的这个增强的。

这个是新的这一个架构，我们在这个最右侧可以看到它有这一个两个，就是一个输入，一个是这一个啊，这一个二维的这一个RGB的图像，一个BEV的这个这个图像的一个一个融合，然后我们我们呢用了这个这个。

然后经过这一个呃底人模式，通过灵活映射就是弹性解耦，这是我们提出两个方法，还多特的注意力机制，以及CN来融合多模态的数据，来获获得一个更加可靠的，一个驾驶的环境的感知，然后在这个右侧还有两个两个输入。

就是一个是这一个路点和速度，速度就是为了这一个感知这一个车辆的实际的，这个是这个速度的控制，车辆的这个这个这个轨轨迹嗯，以实现这个高阶段的导航导航引导，那么对于路点的路点的输入的话，我们我们这一个啊。

就是说啊，输入的它是一个一个一个这个控制的命令是吧，它输出的这个最后是一个，来对车辆进行一个控制，那么实现了这一个不同不呃，天气条件下的这一个各种的这里一个啊，这一个自动的一个驾驶。

然后这然后这个就是啊可以看到，就是说我们这里就是刚才提到的这个多，这一个啊灵活的这一个映射，和这一个就是这个弹性的解耦，就是来来这一个提高这种融合的这个，鲁棒性的表征。

就是避免这个在不良天气条件下的这个性能的，这个这个下降或者特征的这个丢失，来来来提高这种这种鲁棒性，然后这一个经过这一个就是联合映射这一，然后弹性结构还有一个这一个多层的规化机制，以及多层的注意力机制。

然后最后这一个形成一个灵活这个特征向量，分两部分向这一个呃，这个反馈就是RGB的feature，和这一个BEV的一个这个这个feature，然后第一嗯，我这是我们在这一个仿真系到。

担当当的自动驾驶性能的一个算法，的一个进行了评估，来这一个啊，就是在复变化的各种变化的场景下，来对模型进行一个验证呃，然后这是我们我们做的这一个哦，Sorry，这是我们做了这一个这一个实验。

就是我们这个baseline显示显示的是一个transfer，然后它也是两种传感器模式，就是一个是激光的这个底轮，和这个RGB的图像跟我们是非常的，这个方法是非常类似，我们有这您提到了三个性能的指标。

一个就是这一个driver school，就DS就是这一个啊嗯就是用来这一个呃，就是嗯后呃就是用了这个后面的就是root completion，就是呃完成了这一个距离和这一个呃完整距离。

这种级数和后面的这个每公里的违章数，的这一个一个几何的一个平均，然后这个RC就是这一个我们用自动驾驶的，这个这个完成了这个路线的距离，和这个总的这个路线的距离的一个百分比。

然后这一个IS就是每公里的这个违章违章数，比如说闯红灯，比如说这一个好人的车展的这个刮蹭等等等等，就是来来来做一个一个就是来做一个验证，再分别在这一个不同的这个区域，就是汤01~05的这个进行一个验证。

我们可以看到这个，就是我们的这个前面的这个数据，都有些性能的优势，这个细节我就不展开啊，然后第二个感知技术就是技术互学系列的语，无条件下就是技术知识的这一个呃，不良天气条件下的这个交通目标。

的一个强化识别方法，然后这一个又如在恶劣的天气条件下，这一个呃就是物体的检测不可避免，尤其是呃就是嗯就很多的研究，它集中在这个两个方向，一个就是啊就是区域的检测和这一个叫什么。

和这一个嗯和和这一个语义的风格，但是他们没有考虑到这两个任务之间的一个，相互的作用，我们提出了这一个就是CEMGN，就是互学系的这个直线度增强互图网络呃，来来来来，这一个就是相互的这个激励。

就是呃能够提高各自的任务的一个鲁棒性，然后我们的这一个可以看到就是在这个双任务，就是呃这个如意分割和加和这个边界的区域，这个检测，然后来这一个完成的一个直线度增强模块，它将特征图转化为图特征任务呃。

转换这个图空间，来提高这一个各自任务的这个这个鲁棒性，然后降低了欧几的已的空间的，这一个就是特征的一个一个一个损失，然后我们这个使用INTEGRAPH来推理了，估计任务之间的一个差异。

使用INTEGRAPH来推理来提取这个模块的高级特征，最后我们做了这一个，在city scape就开展数据集和这个forty six cape，数据集上来这一个做这个呃，现代的这个验证。

达到了大概IOU的交并比80%左右，而现在呢在这个物体的条件下，是它的扰动是低于1%，然后这大家可看到就是嗯，呃这是就是我们做的这个呃。

就是刚才提到的一个city cape和forty focus citiescape，的两个数据集上的一个呃一个印证，我们可以看到这个就是黑体字的，就是一个就是平均的这个呃准确率。

最后一个最后右边的就是这一个啊交并比，平均的一个交并比我们是都是占有这个优势的，下面呢就是我们这一个可在这一个city focugae，的数据的可视化效果就是有误的情况下，就是这个衰减系数。

然后我们看一看我们的这个性能的这个波动情，况呃，呃第四，第三个工作就是关于这个复杂城市，这种环境下来，就是交通因素，比如说车辆的一个这个识别，然后这个地方我们根据这一个城市的复杂环境。

就是有些比较这一个复杂，其实也我们这一个也是改进了这个，YOO这个模块，然后加入了这个通道的注意力机制，然后做这个实验，从右图可以看到，我们我们引入了这个就是high resolution。

这一个模块来代替这一个呃，这一个呃呃来加入到这个YOOYYELLOW中，然后我们可以看到低分辨率的这个网络特征，和高分辨率网络特征，它是并行的，这一个来来这一个并行的连接，来降低这个低分辨率网络特征的。

这一个特征的这个这个这个这个这个丢失，然后嗯我们的这个也是做了这个实验，这个呃就不不展开啊，然后这一个就是我们在这一个呃，city cape数据集，和我们自制的数据集上，做了一个性能的一个对比啊。

对比的就两个，一个一个是啊这一个误误解率，误诊率和一个是这一个和这一个漏漏检率啊，而第四个工作就是我们的一个关于交通流量的，一个一个一个一个预测，我们看了就是针对的问题，就是单一的深度学习方法。

面临着一个过拟合的风险，我们使用动态的权值以后呢，这个两种这个模型来提高模型的这个，预测精度和和这个发货能力，其中就是用到了这一个呃，这一个RSTM模型，和这一个SAE的这个这个，模型的这个这一个联合。

然后我们可以看到就是这一个做一个这一个呃，一个实验的验证，我们这边这个可以就可以知道就是MS1，它是一个越小，就表示我们的这个预测值，和真实值之间的差距是越小，所以可以看到我们的这个数据是最小的啊。

然后就是下面就是这一个啊，云边端协同的这个训练的这一个呃关键的技术，我们第一个提出来就是呃，呃就是联邦学习，就是带来的这一个高通信的开销，为高隐私数据带来一个巨大挑战。

主要就是为了这个压缩这个呃这个通信量，就是这一个呃，降低这一个就是呃模型更新的频率和这个size，来这个压缩这个通信的成本嗯，特别是跨中性的这个模型的这个，这个训练的时候，那我们可以看到联邦学习的。

他的这一个一轮的一个通信的轮次，包括了一个啊，这就是下行和上行这个完整的一个轮次，还有这个这个聚合，那么下行下行的话，就把把这个参数服务器的这个模型参数下，卸载到这一个就是啊车车单。

然后上行就是把这一个呃，这一个车单的这一个这个这个模型参数，上传到这一个啊参数服务器，这是个这是决定了通信的这个成本的这一个呃，这个大小，然后聚合的就就要等待所有的这一个车单，要需要等等。

等待所有的车单的这个参数的的这一个啊，这个这个这个参数的传传输完，才能进行进行进行融合，我们提出了这一个呃车载编码联播学习，然后在这个地方我们用到的几呃几个策略，就是本本地顺利的策略减少就是通信人次。

部分客户端参与规则，月输上传时间和一个聚合策略，最后我们我们验证了这一个就是啊，这个通信的这个成本，然后以及收敛的这一个啊收敛的这个快，这个这个速度快慢呃，第二个就是我们进入。

这也是计入增量训练的DNN的一个计算的，卸载，也是为了这一个呃，就是能够顺利的这个这个减少，这个顺顺利通信的这个这个这个成本提高，这就快速的梳理，然后这个地方我们提到的增增量顺利。

就是它有一个卸载的算法，的一个灾难性遗忘问题，那么模型需要重新顺利的提高这一个准确性，然后我们这里就提到一个一种增量，顺应的方法啊，啊这个就是我们在这个几个对比算法，就是关于这个random就是随机的。

就是随机的呃，卸载和这一个local的，就就是直接在这一个车单进行这一个计算，然后这个呃GRADY就是TANA的算法，就是说啊它是一个最好的输出，但是它有一个问题，就是它的这个执行时间非常的长。

然后我们这一个就像这个DDDTO，它是一个一个baseline，然后这一个我们在这个进行一个，优灵活的一个优化，既考虑到这一个啊这个延迟，也考虑到这个能能量，然后当这个贝塔等于零的时候。

那就是那那就是对这一个，对于这一个延迟的一个优化，当贝塔等于一的时候，就是对这一个哦能量的一个一个一个优化，第三个就是我们提出一个多尺度压缩的一个，DN推理的加速，因为这个冰软环节的动态线。

就是车辆的动态线和这个终端设备的多压线，对第一个模型的这个划分，提出了一个重大的挑战，我们希望将这个问题建模为一个混合整数，零零和优化的问题，灵活优化，这个有几个就是模型的选择，包括任务是延迟性的延迟。

敏感型的任务还是这一个呃，这就是计算计算比较重的这个任务，以及模型的分割点，以及以及带宽资源的这些资源的分配，来根据任务属性最大化的这一个推理，准确性和延迟之间的一个一个传一个一个权衡。

我们可以看到就是说呃有我们有这个在云端里，有个有一个cloud，有一个offline，一个离心的训练，还有在这个edge当的这个online这个顺序，然后edge n的这个进行这一个，好。

然后这个就是我们可以从这一个左图可以看出，就是不同的准确性和计算复杂度的，这个DNN的一个就是，就是深度神经网络的一个不同的版本，就是版本的选择，然后这个右边的这个123就是嗯。

就是我们要需要做出的一个具体的一些决策，比如说这一个版本的选择，这一个就是这一个呃呃资源的分配啊，然后然后456就是说在这些根据这些决策的，一个执行的一个一个结果，然后我们把它优化的。

第一个就是PE的这样一个问题，然后受到一些第一些约约束，如我们优化的问题，目标是考虑所有的这一个，它的这个服务员服务的请求，比如说我们刚才提到的，这是计算量重还是这一个延迟敏感型的，还是这个模型的选择。

还是这一个啊资源的分配等等，就是说做一个动态的一个灵活的一个优化。

还有带宽啊，然后这个实验就不说了啊，然后最后就是我们我们提出了这一个，就是一个模型的分割，因为在资源的这一个受限，我们讲大模型在这这个车单比软单，它的这个资源不管是计算还是存储都是受限的。

在这方面是部署大模型是吧，它这个密计算密集的这个DN是非常的困难，是那么我们对一个呃模型的划分已经卸载，受到广泛的关注，但是它并没，但是很多的研究，他没有考虑到这一个最优分割点。

和这个计算资源的分配而变化的这个问题，我们针对这个问题吧，考虑到第N模型的最优分割点，随资源计算资源的分配，而这一个变化的问题，我们提出第一个模型的划分的计算器载策略，然后针对这一个就是嗯这一个交。

针对这一个就是说啊，呃就是这个加这个迭代次数和这一个呃，就是这一个惯性权重，作为这个反馈参数，来改进这个离子粒子醇的这个算法，然后实验表明我们的这个和机器相比，我们的这个呃这个整体的延迟都有提高啊。

然后这这个是模型压缩，就是轻量化技术，轻量化技术是这个大模型的，这个我觉得这个呃，这一个它的这个落地的一个知识点啊，然后我们提出来，这一个就是改进了这个云宾纳的一个一种训，分布式训练架构。

然后我们改进了yo模型，就是用这个啊这一个dense block that residuo mock，Residuo block，然后在这个dance block之间加了这个两个。

这个这个MARKEPLIN就是池化层，然后呢这一个减减少特征的这个丢失，然后我们就将这个我们视频的分析任务来，来这一个啊转移到这一个B软端OK，然后我们可以通过这个实验结果可以看到。

就是说然后这个是IKOS，然后面是4spec speed，我们可以发现经过这个模型压缩后的这一个啊，这一个它的它这个准确率，它的准确率是这一个有所下降，但是他的这个就是它的这个呃，就是检测的这个速度。

它是它大家看到这个4speed，是有非常好的提高的啊，然后我们最后的就是呃深度学，强化学的计算卸载，这个我又是考虑到这一个呃，就是实定拓扑，高高高高动态性的，这车辆和这个卸载任务的这个数据依赖性。

它的高效率卸载带来一些巨大的挑战，我们构建了这个车流系统计算卸载模型，然后提出这一个考虑这个响应时间，和这个能耗的这个优化问题呢，提出这种移动移动感知和相关任务的卸载方案。

就进入深度度强化学习的这种这种需卸载的，这种这种策略呃，不展开说了啊，这个，然后第二个就是车轮系统计算，卸载的这个关键技术之二，就是深度强化学习，又是这个车辆的高移动性，和和这个可资源的可用性，可用性。

我们仍然缺乏，能够支持低延迟和这个这一个高可靠性的，这一个intelligent的，就是这个智能，那个网联系列的网络服务，的一个简单的解决方案，我们我们提出的这个就是呃，任务卸载和最佳任务卸载的方案。

表述为一个受约束的马尔科夫的这个决策过程，因为深度强化学习，它能够就能够对一个解决，就是感知决策顺序的这种问题，所以我们把它最后这一个呃，就是提出这种最优最优质任务的卸载策略，发现我们的实验就是说。

能够对延迟有26%的改进，然后这一个整体的这个可用性资源可提高，可以提高到42%啊，然后最后一个就是呃，基于计算卸载的这个资源分配，我们由于这个车内网的车道网，网络的这个资源的负载的不均衡。

然后自然又受限动态资源的需求，我们提出了这一个提出来，这一个就是多目标的这个这个资源分配，我们把它优化为这一个一个多目标的优化问题，然后我们开发一种这个非支配排序的遗传算法，的。

这个这个这种来解决这个多目标的资源分配的，优化方案不展开了，然后这一个呃可能是没时间是吧，还有5分钟是吧，呃可以这一个嗯就是看看可不可以放一下这些。

就是我们对于啊这个感知常见的这一个，做了一个一些一些一些测试啊，感知场景的一些一些嗯，然后这是在这个呃校园的，做了一个实车成果的一个一个一个一个展示，然后呃啊最后就是总结啊。

就是我们面向智能驾驶，驾驶这个现实场景的需求，我们啊就是对复杂场景天气条件不良，天气条件就是雪天雨雾天，多模态的融合感知，车路云协同训练的高效，就是高效训练和这个推理加速以及计算技术。

深度强化学习的计算，卸载这三个方面的关键技技术展开的这个研究，然后未来的智能驾驶是吧，能够希望能够这个多模态的融合，就是全视角，然后这个多多模态这一个还有这一个呃，多智能体的这个融合，提高这种更加精准。

更加的这更加精准的这种感知能力，然后车路协协同来进一步，就是大小模型的这个协同，就是然后包括大小模型这一个相互的一个一个，一个一个知识的这一个就是一个嗯协同吧，最后就是呃。

就是希望能够就是接受结合并软计算，能够能够就更加轻量级的实时的模型，能够这个这个部署和落地，最后我们就是啊，是在这一个我们的国家自然科学基金，和这个深圳市重点基金的，这个对本研究的支持哦。

谢谢各位。

2024北京智源大会-智能驾驶 - P9：从数据驱动到知识驱动——自动驾驶新路径：石博天 - 智源社区 - BV1Ww4m1a7gr

啊好的呃，感谢刘主任，然后也感谢之前各位前辈带来的精彩的演讲，其实说我压轴绝着实是不敢当，因为我其实21年刚刚博士毕业，然后就加入到了上海人工智能实验室，然后其实我们本身是一个科研机构嘛。

所以我们研究的一些内容可能会偏发散，偏一些，不同于大家常见的一些技术路线，那我们可能会愿意做一些这种，初步的一些探索啊，那所以啊接下来就我来介绍啊，很荣幸介绍一下我们团队的一些研究工作啊。

那今天的主要的这个话题叫做动漫，台大模型和知识驱动的自动驾驶，其实这个故事早在38年前就已经展开了，其实自动驾驶呢在呃就大概快40年前，在86年的时候，这个CMU的NEVLAB。

他们其实推出了一款原型的系统，已经能够大概去实现一个由机器代替人类，驾驶员去开车的这样一套系统，那后来到了这个95年左右，那他们的第五代系统成功实现了一个壮举，就是完全由自动驾驶的系统操纵。

然后横跨了美国，但是呢其实整个的过程中，差不多有98%左右的这个路线，是由啊算法来去接管的，那当然其中有2%左右的场景，还是由人类的驾驶员来完成的，但其实直到了这个30年之后的今天，其实最后的这2%。

可能到现在也没有真正得到这个完全的解决啊，所以其实可能是呃我觉得一个原因吧，可能现在数据驱动的方法，也逐渐的去达到一个瓶颈，就是在预期大家的这个L1，L2这样的一个迭代的过程。

可能L1的阶段我通过啊加更多的传感器，然后达到了L2，我再通过增加更多的数据，然后实现L3，然后让它适应更多的场景，然后来达到这个L4，甚至L5的级别，但实际发生的情况呢，就是我在L2的阶段。

我可以通过增加更多的数据，但仿佛有一面墙一样，它能总是实现到这个L2。999，总感觉像是离L3啊，就是存在这样的一个瓶颈，那究其原因呢，其实之前很多前辈也都介绍了，那主要的一个原因。

就是因为呃存在各种各样的counter case，那这些corner case呢，它不但是一些我们在路上罕见的，甚至还有很多，是我们可能一辈子都不会见过一次的数据啊，比如说像像以下展示的这些。

其实甚至都是真实的路上发生的情况，所以我们啊作为一个研究的这个团队，所以我们在探索，是不是有一条新的技术路线，能够去缓解这个问题啊，所以我们在探索呃，是不是通过这种技术路线。

能够实现L4再到L5的这样的一个进化啊，所以我们呃主要是从这个，人类学习驾驶的一个角度出发，那我们认为可能如果这样，如果真的有这样的一条新路线，它一定具备这样的几个特征，就是泛化性。

自监督和持续学习的能力，那围绕着这几个观点，我们认为现在的这个巨神，智能技术和自动驾驶相结合，最终实现一个知识驱动自动驾驶，可能是我们为这个路线起的一个名字吧，对其实呃。

最开始其实呃好像铁军教授也介绍到了，这个人类学习开车的一个过程，其实这句话呢是这个LEQUEEN在20年左右，在他的一篇啊文章中提出的，说，为什么一个青少年呢，他只需要大概摸20个小时的方向盘。

就可以学会开车这件事，而且呢对于大部分人来说，他在很多这辈子从来没有遇到过的场景，他在第一次遇到的时候，也能有一定的能力去解决这个场景啊，所以其实这是一个很有意思的一个问题，那我们认为可能呃。

之前的很多方法可能遇到的这个困境，就是这种数据驱动它泛化性的一个难题，那对于知识呃数据驱动的方法来说，它通常是我在固定的一些场景上训练，我规定好了它的输入输出形式，那这个任务的定义就限制了这个啊。

整个的这个这个他的这个能力的上限，比如说如果是传统的感知模型，我在目标检测的阶段，我一般应该不会定义出一个目标检测模型，检测路上是不是有架飞机啊，但是呢知识驱动的方法就不太一样了。

因为它通常是用这种跨域的知识的能力，比如说现在这种多模态的大模型啊，或者是一些这种预训练的技术，它首先啊具备对某些通用场景的，这个通用的物体的理解能力，那并且这个能力可以通过比较低的成本。

迁移到一个真实的环境中，所以可能就能够完成一些之前数据驱动，很难想象的事情，那这个是我今天早上去这个用GPT4，试了试啊，就刚才的那张图片，我直接问这个GPT4，说。

描述一下这个图片到底发生在什么场景场景里，又有什么异常，如何避免出现危险，我应该怎么做，其实能看到这种结合了open doomman的这种知识的，经过预训练的这样的一个通用的视觉模型。

其实确实对这种特殊出现的场景，还是具备一定的理呃这个理解能力的，那所以其实我们呃如何去构建这样的一个知识，驱动自动驾驶呢，我们更多的是从一个呃呃这种具身智能的视角，来看待自动驾驶这件事情。

那所谓的均衡智能啊，其实很关键的就是两点了，一个是环境，一个智能体，一个智能体呢它在环境中去实现探索呃，呃然后呢去把这个呃从环境中去进行感知，然后呢，智能体会自主的在这个环境中去进行探索。

然后整个的过程呢其实很重要的一点，就是能够在一个闭环的环境下去完成的，它能够基于自己的好奇心，或者基于自己的这个知识积累的能力，能够在里面不断地运转，那所以其实我们团队的研究。

也基本上围绕着环境和智能体，这两个方面去展开的，那首先对于环境来说，我们现在想训练这种自动驾驶的算法，那最最最好用的环境就是真实的世界嘛，那所以呃在真实的世界中直接训练，要么不闭环，要么就不安全。

不闭环，就是我可以去预先采集好很多的数据，那这种方式它是一种开环的训练，或者测试的方式，它不一定能真实反映，你这个模型在现实的世界中，它的运转的这个效果啊，那要么就不安全，这个肯定的。

我一个没有任何训练经验的自动驾驶算法，扔到这个城市中，让他自己去积累驾驶经验，其实这是个非常危险的事情，那所以我们一直在去研究啊，有没有可能去构建一个这种虚拟的环境，构建一个对真实世界近似的刻画。

因为这种刻画的真实程度，其实决定了这个agent，他脑中形成的世界观的这样的一个知，认知的上限，那围绕着这块呢，我们又有两条不同的技术路线的探索，就是围绕这个虚拟的环境，那第一条技术路线呢。

就是我们基于神经渲染和结晶仿真啊，我了解到可能呃这个据我自己的认知吧，可能我们团队算是非常早期去从事这方面的，research的研究，就在这个NERF的，甚至在NERF刚出来的时候。

我们其实就有一些相关的布局和探索，那整个这套技术路线它大概就是三个部分，一个是重建，然后泛化，然后再生成所谓的重呃，重建呢就是我用真实世界的数据出发，我去对它，去用神经渲染的这个技术去做三维重建。

然后呢我能够把它前后景截，我开，我对里面的一些交通流，我可以利用一些交通流的生成工具，我可以编，让他创造出一些真实世界中不存在的交通流，但是呢这个交通流它也很逼真，它可能是一些counter case。

但可能更像是这种人开出来的corner case，然后我们再把它去用神经渲染的技术去渲染，生成出来啊，那这里其实展示了一些，我们这个中间的一些阶段性的成果嘛。

然后我们其实提出了一套叫做NEUROSEM的框，开源框架啊，目前也是在GITHUB上是开源的，它是一个前后景解耦的，其实这个里highlight一下就是很多呃，这个友商的这个算法其实很多。

它还是针对背景为主，对于前景甚至动态物体，其实都不是能非常好的处理，因为我们其实采用了一套不是NERF的技术，我们是用这种三呃这个SDF的表征，它的一个特色呢。

就是说NERF可能能做出这种视觉的三维重建，然后呢我渲染的相机可以比较真实，但是因为NERF并不并不能真实的去建模出，一个物体，它的表面，那我们现在有一套新的技术，然后来实现呃，那个它的表面的重建。

能够同时对这种动态，静态前后景的物体实现解耦和三维重建，那并且因为我们有这种表面渲染嘛，所以我们可以很容易的去把啊，用各种各样的传感器去进行仿真啊，比如说NERF可能仿个图像，仿个相机啊。

这个是可能是他的一个能力的上限了，但是我们还可以去仿出这种不同型号的激光，雷达等等这样一些线呃，这个功能，然后这块呢是我们的神经渲染的一块呃，就重建和神经渲染的研究。

那第二块呢我们也做了一个叫做这个LIMSIM的，一个开源的高一致性的交通流仿真工具，它也是一种从数据驱动的角度出发吧，然后从能够从真实数据中去学习到很多，不同驾驶风格的一些交通流仿真。

然后呢它能也能支持这个多车复杂的博弈，那最终呢我们将刚才的这个neuron sim，和这个lime sim两个平台相结合，我们就构造了我们一套基于神经渲染的，端到端的仿真引擎，叫做OESIM啊。

然后呢它其实能够使呃在右下角，其实我们展做了一个非常简单的界面啊，因为我们是一个研究机构，其实没有什么工程师，这个基本都是一些学生，大家自己写的一些简单的界面，然后我们也很少有这种非常真实的数据嘛。

所以我们从cola中仿真去get到了一份数据，然后我们从这份数据出发，我们可以去呃通过编辑出一些不同的交通流，并且让它仿真生成出来，而且这里展示的其实全是神经渲染重建和渲呃，这个泛化生成的结果对。

然后刚才介绍的呢，是这个是基于神经渲染的技术路线，它其实是一个相对比较长的技术路线，我先重建在泛化，在生成，其实这个技术路线，我们在探索的过程中发现有很多问题，比如说重建对于数据质量要求非常高。

那可能对于很多量产的实际的情况，你得到这个数据，可能能够用来重建的数据就非常少，然后再加上整个的这个链路太长了，然后呢我们所以也同时在探索第二条技术路线，就是我们有没有可能用啊生成模型的技术。

来实现这个闭环的仿真，本质上呢其实非常简单的一个架构图，就是我们可以用一款可控的生成模型，这个所谓可控生成模型就是我给定一个layout，比如说这个路网的结构加上自车踏车的结构啊。

然后呢我再结合这个生成模型呃，就把它作为输入，然后这个生成模型就可以给我生成一张图片，那同时呢我们再配合上我们刚才提出的这个，LIMSIM的这个闭环控制的算法，把这两个相结合。

我们就能够形成一个纯的纯粹的，基于这个生成模型的一个闭环仿真的引擎。

那这个可控的生成模型，其实不限制它到底用哪个，包括像现在比较热点这个magic drive啊，还有这个这个帕纳西亚等等，各各种就是研究上比较成功的一些，基于layout可控路网生成的这样的一些工具。

那围绕着这些工具呢，我们其实做了一些简单的尝试啊，比如说这个是一个连续帧的生成，那本身这个模型其实不是一个，基于视频生成的模型，还是基于单帧图像生成的模型，但是我们所给出的路网。

其实是由我们的仿真器仿出来的，像之前很多的这种生成的算法，然后他们更多的是基于一个ground truth的，这个路网路径，然后我去重新的再把它生成一遍，但是现在我们可以去编辑，生成出一些新的场景来对。

然后呢，呃这里有一个我们做的一个简单的一个demo吧，然后就是介绍了一下，我们之前的这样的一些结果。

就首先其实我们除了刚才介绍的那些以外，我们也有非常多的一些其他的研究，比如说4D的自动化标注，所以这里展示的完全就是算法真正标出来的，实际的跑出来的结果，所以可能会有些瑕疵，就是我们可以去实现啊。

完全自监督跨模跨模态的呃，跨域的就是这种啊，一个model free的一个4D自动标注的算法，然后他能真的去把这个场景中去进行，然后标注的同时，其实也是在做这个对应的三维重建，包括我们能获取到它的深度。

以及这个最重要的就是表面法向量，其实基于NERF的方法，它是很难绘制出一个表面光滑的，这种表面法向量，那我们把各种各样的序列去做三维重建之后，我们其实就能得到一些这种序列的场景库。

那我们可以比如说挑其中的一条一个场景库，我们去做一些编辑啊，这个是真实的这个数据，但是呢因为我们对它进行前后景结构的重建了，假如说我们现在可以删除场景中的一些某些，特定的类的物体，比如说把这个人删掉了。

或者去编辑一些车辆啊，增加或者删除一些车，那这个时候我还可以去啊，比如说增在这个路上增加更多的车辆，然后呢，创造出一些这种真实世界中，也不存在的一些场景，比如说要让这个场景变得更危险一些。

或者说有这种右边的一辆车去来来来别车，这种特殊的一种情况，那同时我们也做了一些简单的也探索吧，就是说改变一下他的这种daylight啊，然后呃其实后面这个就是展示的时候。

我们也具备一定的这种场景的生成能力啊，我们在给定这种情况下，我们可以去基于这个路网，去生成各种各样新的数据，那最终我们能够让这个数据变得越来越丰富，包括能够拿它用来去做自动驾驶算法的训练。

或者说去把它做成一个闭环仿真的测试的，这样的一个或者是一个闭环仿真的引擎啊，这个就是我们这两块的工呃，这个关于环境这一块的工作，那呃除了环境以外，我们还有一个很重重要的一个研究方向。

就是对于agent的研究，就是怎么去利用这种智能体，去实现自动驾驶的任务啊，那我认为可能自动驾驶的这个智能体，刚才提到的这三点，一个就自监督，高泛化性和持续学习，它为什么重要呢，呃自监督主要指的是。

他需要有这种自我反思的能力，而不是凭借一些外部信号去进行反馈，那这个其实对于这种大模型，或者说大规模的数据来说是非常重要的，因为现在有的开环的方法，我无论是自动标注还是人工标注。

本身本质上也都是需要有标注才能进行的，但如果我们有一套算法，它部署到这个模型中，自己跑自己发现自己哪里做的对，哪里做的错，那我可能就不再需要去有人工标注，是从而实现一个自监督的效果。

那第二点就是高泛化性，我们认为可能一个这种算法，需要具备一些推理的能力，它不是简单的去对所有我采集到的已知的场景，去做记忆，因为其实如果大家就是做这种啊优化了，或者说这是机器学习的一些呃有背景的同学。

大家应该都知道，就是呃任何这种optimization based model，他肯定会有这种遗忘灾难的问题，那所以大家想要去通过采集更多的。

corner case的数据来解决corner case的问题，那corner case呢它天然就是一，就是现在的这种基于学习的方法，天然的就要记那些常见的case。

我要忽略掉那些corner case，因为对于很多算法来说，conner case反而是一个异常，我conner case做好了，我可能common case做的就不一定好了。

所以其实这里面存在一个矛盾，所以我们认为可能如果简单的去记这些啊，input output的这个pair可能还不够，还需要让模型具备一定的推理能力，那第三点呢，就是我们可以基于前面介绍的这个啊。

反思和推理能力来克服这些遗忘的灾难，实现一个积经验的持续积累，其实整个的这个过程就跟人类开车的，这个或者说甚至不只是开车啊，就聚身智能在日常完成各种日学习任务过程中，很类似的这样的一种模式。

那我们管这个模式，其实叫叫做这种自动自动驾驶，然后这里其实我们呃介绍了一个这个闭环的呃，就是关于这个知识驱动自动驾驶，闭环训练的一个研究框架，是一个偏这种high level的一个一个框架。

那他首先能够从环境上去进行这个感知，然后呢感知到这个场景之后，我试图去理解这个场景，并且做出一个plan，然后呢这个plan呢它在执行之后，它可能会有两个结果，一个就是成功了，一个就是没成功。

那成功了呢，他就作为一个成功的经验，我有一种模式把它保存下来，失败了呢，那我要求有一个模型，自己或者一些外部的模型，能够自动化的去让它去进行一些反思，并且让它呃重新生成出一些这个成功的。

这个告诉他如果怎么做，有可能就能避免刚才的这些事故啊等等，这些信息呢也会被保存到这个memory中，那在下一次遇到每一次遇到这个场景，我先从我的memory库中，我去query说。

我是不是曾经遇到过类似的场景啊，如果遇到了，我当时是怎么做的，那我结合当前场景的一些特殊性，加上一些之前的这个经验的这个泛化性，结合到一起，让他做出一个决策，那这种方法其实就有可能会去进一步提升它的。

这个模型的性能啊，然后其实刚才有提到说，我们整个这个过程需要让agent，它具备一个这个能够去做推理，能够去做决策等等这方面能力的一个呃，这这方面的一个能力啊，呃其实之前我们有尝试过。

用一些传统的一些方法，那现在大模型呢其实出现了，我们发现大模型刚好是可以，作为这样的一个模块来嵌入进去，那这个的话是我们在这个ACCLEAR，二四的一个工作吧，那这个工作其实进行的比较早。

其实投的比较晚，然后它是以应该算是我们呃第一个，能够用知识驱动的方法，去把这个大模型跟自动驾驶相结合，去进行决策的啊，然后的这样的一个研究，那它本质上跟刚才说的这个架构是非常相似的。

只不过它中间所有的这个呃进行推理，进行决策的模块是由一个大圆模型来执行的，然后呢刚才有介绍的说哎这样的一套系统，它的一个重要的特色，其实是在于持续学习的能力，那我们认为可能记忆它就能体现。

它是不是具备持续学习的能力，比如说我们可以通过一些机制，人为地设置它记忆的这个上限，然后呢我们发现随着这个记忆的上限的增加，整体的性能其实是呈现一个上升的趋势的，也就是说明它在积累经验的过程中。

这个经验其实是切实有效的啊。

然后这里有一个简单的例子吧，因为我们这个其实做是一篇，非常早期的一个文章，那那个时候其实还没有很好的这种，甚至那个时候还没有VIM的一些工作，能用的VOM，所以我们更多的是呃。

只是关注于这个真基于这个绝对真实的这个，ground truth的这些这个呃感知的结果，然后加上我们一个简单的仿真引擎，然后去让大模型去针对现在的这个场景，去给出一个自己的评判。

并且最后给出给出一个final answer，就是决定我要加速减速还是换道，那目的就是想要在这个场景中，能够尽可能的不是不断的开下去，比如说我们的这个实验，最后发现模型刚开始放在这个环境中啊。

它可能跑靠开个这个几十帧就撞车了，然后呢当执行到一定程度之后，你会发现它可能开几个小时都不会撞车，那这个是我们做的一个，非常奶义务的一个探索对，然后呢其实在这个这个阶工作之后。

那很自然的就是我们可以对它有些改进，就是呃我们最新的一个工作，这个工作其实比较新，上个星期其实才挂到RK5上，然后呢，它是一个结合了现在的这个快慢系统的，自动驾驶闭环学习的框架呃。

它的一个主要的一个特色就在于，其实呃我们又进一步的去思考人啊，去进行决策的过程，会发现人的脑子中其实分成大概两个系统，那一个叫做这种heuristic process，就是啊这个这个直启发式的系统。

它更像是一个这个呃肌肉记忆，或者说这个那个叫什么呃，就是呃一个一个非常快的这样的一个系统啊，然后呢呃在遇到一些特殊的呃，遇到一些场景的时候，我很多的情况下，我可以下意识的就做出一个正确的决策。

但是呢有很多的时候，我可能是光靠下意识的决策还是不够的，肌肉记忆也是会出问题的，比如说在我们遇到一个从来没有遇到过场景，那这个时候人可能就会有一个，更加理性的一个系统，叫做分析系统。

然后呢这个系统它相对来说比较慢，但是它能够有比较强的推理的能力，那我们这篇工作的一个特色之一，就是把这种快慢系统结合到一起，去，实现一个呃，能够像人一样去对这个场景，去做知识积累的一个过程。

那除此之外呢，我们也弥补了之前那篇工作，只能基于这个绝对感知的结果来做啊，的这样的一个缺陷，然后我们也设计了一个VLM来去让他去进针，专门针对这个驾驶的场景去做一些理解的，这样的一些能力啊。

然后具体来说呢，就是我如果是在进行场景理解的话，其实很关注的一点就是我们要关注呃，专注于周围的重要事物，其实像普通的这种传统的一些方法，如果我只是去对场景做个描述，那它的描述可能会非常的广泛。

然后就是可能跟这个实际的，我想用的这个结果并不是非常的match，他可能你给他一个交通的场景，让他描述一下里面有啥，他可能说今天天气真好，然后天上有小鸟在飞之类的，跟交通没关系的场景。

所以我们用一小部分的数据去合成一个，专门针对自动驾驶场景很有价值的一个数据集，他会关注于这几类信息，比如说语义标签，就是啊关注这个场景中的危险场呃，这个危险的物体，比如说红绿灯，比如说基础设施。

交通标志牌，还有一些运动的这些物体，然后呢会对他们有一些特殊的标注，然后我们去用这样的一小份数据，去SFT一个开源的感知模型，其实我们就是用的一个千问的一个模型，其实几啊规模也非常小，然后呃在这个场呃。

呃然后呢我们甚至整个SFT的数据也非常少，其实只有差不多1万帧左右的，就是1万个这样的pair，11K的这样的一个pair，然后最后就能实现针对每一个感知的输入，我能给它产生一个跟我自动驾驶非常相关的。

这个场景描述的这样的一个功能对，然后就是关于刚才介绍的这个快慢系统的，这样一点，就是我们认为，可能首先呢就对于这个自动驾驶一个场景来说，我们先让快系统去做一次推理，在当前这一帧的场景做一次推理。

那这次推理因为它速度很快，但是它可能会出错，如果出错了，对应的这个系统我们会又给回到慢系统，让它去生成出一些你为什么出错，你下次怎么做，该正确的这样的一些决策，我们会不定期的去把这些慢系统生成出来的。

这些数据用来再去调整这个快系统，那然后呢最后就能够让呃发现哎在绝大情况下，我调用快系统都不会出错，只有在很少情况下，我需要调用main系统的时候，再来调用一次慢系统，然后再来生成新的经验。

整个这样的一套pipeline的一个最大的好处，就是它能够实现真正意义上的，我把这个模型部署到一个虚拟环境中，它就一直跑，它自己可以给自己积累经验，而不需要针对每一帧人去总结他哪里做对了，哪里做错了。

也同时也不存在像这种感知，像这种人工专编写规则啊，等等这样的一些非常麻烦的一些事情啊，那我们其实做了一些很简单的一些实验吧，然后主要就是这种在特定的数据集上，首先第一点就是左边这个表格呢。

我们尝试了在针对驾驶场景优化之后，我们其实超过了GPT4的，就是用GPT4来去做我们这个快慢系统，然后呢它本身没有对自动驾驶场景进行优化，但是我们大致拿了11K的数据，对自动驾驶场景去优化了一下。

发现只用一个千问，1。5这样的一个非常小规模的模型啊，不是千问，也就是千问一个小的一个模型，然后就能达到这跟GBD四一样的效果，然后同时呢，我们也探索了跟这个数据驱动的方法相比。

因为驾驶的经验是自监督这个闭环形成的，所以对于监督的数据要求是非常低的，比如说像这个表格中展示的上面的有些结果，其实它的性能是非常好的，但它是建立在海量的人工的标注的基础之上。

可能有几百万帧的这种数据来去训练，但我们其实整个系统真正拿来去训练，模型的数据其实是非常少的，那底下的这个表格呢，我们也验验证了另一个关键的点就是泛化性呃，我们有探索过说在这个呃呃我们实现这种跨域。

比如说像KALA这个仿真引擎中，我们用除了这个某一个城市以外的这个数据，去在这些城市里面让他跑去积累经验，得到的这个模型，我们直接把它放到一个全新的城市，它之前都没有跑过，然后让他来直接去运行。

发现它的性能是不会呃，虽然会有一有一些下降，但是这个性能不会一降到底，让它彻底的不work，说明我们学习到的这个知识，是具备一定的泛化性的，为什么呢，其实是因为我们整个知识的表征。

都是用这种类似于语言的这种方式来表征的，其实我们回过头来再去看我们学到的很多知识，它基本都是一些这种红灯停绿灯，行车离你太近了，你需要踩个刹车之类的这种级别的知识，那这种知识其实它是一种放之四海皆准的。

而不是去OVERFIT到某一个场景下，所以这个是我们认为啊，它能同时具备这个泛化性的这个和闭环测试，这个能力的一个主要的原因，然后还有就是我们也要验证一下，它是不是具备持续学习能力，就是我们可以发现啊。

比如说看右边这个图，就是我们随着反思的次数的增加，随着我们在这个场景中跑的轮数的增加，整体的平均的成功率，也是能够呈现一个不断上升的一个趋势的啊，对但是实际上在这个应用的场景中嘛。

因为也不能说完全达到百分之百的一个准确性，也是主要，也是因为我们现在的这种视觉的模型嘛，也是一个临时的方案，其实它没有非常完美的解决好，对于交通场景的这个感知理解能力啊，那后面有一个非常简单的case。

然后呃就是这个场景特殊是在于它是别的物，两个物体撞车了，然后呢，我们可以通过这个模型，让它能发现了别人撞车了，然后我们自己来做出一个判断，就是觉得我需要先减速暂停一下，看看是不是有什么问题。

然后当这个问题解决了之后，我再往前走，就是我我们觉得可能这种场景挑出来，是一个相对比较corner case的一个场景吧，对然后最后的话再介绍一下啊，这个今天的这个结论。

那我们认为可能现在是一个呃很关键的一点，就是从开环走向闭环的一个节点啊，因为有无穷无尽的corner case的存在，所以我们通想要通过采集海量的数据，用这种开环的方式来去逼近闭环的这个模式呢。

其实是比较困难的啊，那我呃所以我们提出了，可能现在可以从数据驱动的方法走向知识驱动，那因为为了解决这些control case，我们就需要让模型具备这种自监督的，推理和反思能力。

那所以它呃呃同时呢我也认为这个自监督，泛化性啊，持续学习是实现知识驱动自动驾驶的基石，包括自监督呢，它能够在无人工标注的情况下，来对环境实现一个交互和反馈，来实现最终的自我反思。

而泛化性呢就是利用它的推理能力，能够对未见的场景去举一反三，那最终持续学习呢，就是呃能够同时利用这个推理能力和反思能力，来实现闭环的这种持续学习，能够不断的对啊场景的理解去呃。

这个不断的去增长他对场景理解的能力对。

然后最后的最后就是做一页的广告吧，就是介绍一下我们团队，其实我们是上海人工智能实验室，智能交通平台组，我们目前的研究方向也都是专注于知识驱动的，自动驾驶的技术路线呃，的探索。

主要追求把AGI和聚神智能的一些相关场景，应用在自动驾驶的领域中，然后想要去探索这一些比较新的路线的，一些可能性啊，我们团队其实非常的年轻啊，就是21年7月刚刚成立，然后目前有30名左右的成员。

其实一大半还是实习生，然后呢，目前呢呃大概呃取得过七项的评测的冠军，包括像这个vivo open data家set，它的3D离线目标检测，其实我们差不多已经这个霸榜第一名啊，已经有一年多的时间了。

然后在一些学术的会议期刊上，发表了大概60多篇论文嘛，然后有30多项专利参与到了一些这种团标，国标国际标准的职称专家组的工作对，然后这个就是我今天主要介绍的内容，然后其实因为我呃。

如果大家对这个我们这边的研究方向，因为我了解可能今天来的有很多，也有一些学生或者有些老师，如果有一些优秀的学生啊，老师也愿意推荐到我们这边，因为我这边可能后面会有一些读博的名额。

也欢迎大家来跟我邮件的交流啊。

2024北京智源大会-生成模型 - P1：论坛背景与嘉宾介绍：李崇轩 - 智源社区 - BV1DS411w7hz

各位同仁，各位老师，各位同学，大家下午好，我是这个呃人民大学李崇轩，然后非常非常高兴，这个受到了这个组委会的信任，然后组织这个呃，生成模型的这样一个专题论坛啊，然后也特别感谢这个啊。

大家能够就是啊离主会场还有点距离来过来，我们座无虚席啊，非常感谢大家，然后我在去年呢，也是和这个清华大学陈建飞副教授，我们一起组织了这个论坛，过去了啊，一年啊，我们生成模型的发展其实还是很快啊。

非常非常快，然后呃我们可以看到，就是在很多很多的方面有这个啊，呃我们在很多的方面有一些这个好的进展啊，比如说大家很关心，最近很火的这个视频的生成模型啊，包括这个呃我们这个图像和语言的一些概率。

建模的框架上也出现了一些新的变化啊，大家开始有了一些非常非常不一样的，这种很前沿的这种探索呃，呃在这个方面呢，我们可能会很关心一个问题，就是说呃在网络结构上。

我们可能认为transformer是或者它的变种啊，是一个好的这样一个选择，然后大家对于这种可扩展性啊，或者规模扩展也有一个比较强的这种信赖，那么在这个呃概率建模框架上，反而还有一些争执啊。

就是说我们在语言上，大家可能更相信自回归模型啊，在这个啊视觉上，可能大家倾向于啊用diffusion model，但今天呢我们呃非常荣幸邀请到了这个四位，国内生成模型领域的一线的专家。

我们一起再来讨论一下这个话题啊，然后我们邀请到了中国人民大学卢志武教授，他将跟大家分享这个视频生成的最新进展，然后我们还邀请到了江毅研究员呃，汇报这个呃视觉自回归生成的新框架VAR，然后我们还有这个呃。

微软亚洲研究院谷舒扬博士啊，分享他对于现有的一些视觉生成模型的，一些呃思考，还有现有框架的一些这种缺陷的这种反思啊，然后最后呢我们有幸邀请到这个啊，上海交通大学邓志杰教授。

分享这个如何从一种类扩散模型啊，或者一致性模型的这种启发，去对大语言模型进行微调，并且加速它的推理，然后最后我们圆桌论坛呢，一起讨论这个多模态啊，在这种原生多模态非常非常呃呃火，然后即将有突破的前夕。

讨论，在这种情况下，我们应该或者是怎么样去得到一个统一的这种，概率建模框架这样一个问题好，我们就这个短暂的一个介绍哈，谢谢大家，然后下面就是我们的这个啊报告环节，我们第一个报告邀请到了这个中国人民大学。

卢志武教授啊，他是这个2005年毕业于北京大学，数学科学信息学院呃，获理学硕士啊，然后2011年毕业于香港长城大学计算机系，获学呃，博士学位，研究方向是机器学习与计算机视觉。

它设计了首个中文通用多模态预训练模型文栏，然后发表于多模态呃，首篇就是发表多模态领域首篇nature子刊论文，然后并且早于open i，发布了类SA的这种视频生成的底座模型啊，VDT好。

我们欢迎这个卢老师来分享。

2024北京智源大会-生成模型 - P2：视频生成前沿进展：卢志武 - 智源社区 - BV1DS411w7hz

感谢李老师的介绍，也也非非常荣幸来这儿做一个报告的分享，我今天主要介绍一下我在视频生产上的，对自己的一些探索吧，或者一些思考哦，哦这个好这个好一点嗯，这是我今天报告的分四部分吧。

先讲一下视频生成为什么这么难啊是吧，它目前大家是有哪几种想法，是怎么去研究过他的，然后按照我我总结的有两种方法或者思路吧，分别介绍一下最新的进展，最后对未来一年是吧，他应该怎么去发展做一个预测。

下面我先介绍第一部分吧，视频生成相对于呃图像生成肯定困难很多，呃这个原因也是很显而易见的，因为什么呀，视频我们可以看成是什么呀，是多帧的是吧，图像生成它要考虑一个时间维度呃，所以从这个角度的话。

肯定视频生成比图像生成难得多，是他就说他最容易犯的，就是最容易出现的一个问题是什么呀，视频生成内容一致性没有保证啊，这个一致性又可以体现在很多方面啊，就是比如说他故事连不连贯。

或者里面的一个人他是不是同，就是一直是那个人的ID，或者那个人虽然ID是一样的，但是他的动作可能不连贯，也有可能嗯，这个是我用saver video defasion啊，这应该是目前比较好的开源模型。

生成的两个例子啊，大家可以看到这两个例子里面呃，比如说那个就右边那个男的是吧，他脚应该是一会三只脚，一会两只脚，这个肯定是有问题的，左边这个小女孩的脚也也是一会儿，有一会儿是没有的。

呃第二个我视频生成面临挑战肯定是什么呀，它消耗了资源实在太高了，嗯去深链资源肯定是消耗消耗特别高，呃就算说我们说推理的话，它其实自然也是相对很高，就比如说我们生成一张图片。

现在可以做到一秒之内就生成出来，比如说5+2乘五元二，是不是，但是如果你生成一个，比如说720P的一个高清的视频的话，门槛级到高清的视频，你生成比如说几秒，比如五秒不多吧，五秒乘以比如说24是吧。

乘以24，100多100多帧，是不是你要一下子把100多帧生产出来，一个是说时间长，另外一个主要是他耗的显存太多了，很多时候甚至你都装不下啊，所以我们很多时候为什么不能生成那么长，其实就是因为什么呀。

我们要保证它的连续性，所以一定要是吧，最好是一起就把一个视频一下子生成出来，但是你一下子生成出来的话，它占的显存又太多了，所以是一个矛盾的问题，第三个视频生成我觉得最难的就是什么呀。

它就是做可控生成方面的，是就是图像的可控生成，已经研究的特别透彻了，是不是特别是在control net的加持之下，我觉得已经几乎可以商用了呃，但是视频生成我觉得应该困难很多呃，原因也是显而易见的。

因为视频里面有很多额外的一些因素要考虑，比如说我们都知道视频有镜头的概念，就是我们的镜头从各个不同的角度去拍的话，这个画面是完全不一样的，然后还有什么呀，就是里面视频里面人物的角角色的动作。

是不是他从他做不同动作，这个人完全是不一样的，呃总之吧就是视频要做到的可控生成，考虑到额外的因素特别多，所以它也变得很困难，是不是很困难，呃当然了呃就说食品生产本身都没做好。

这个时候考虑可控生成是不是太遥远了，我觉得也不是啊，我后面会举个例子，其实也可以研究这个问题的，好我刚才讲了一下视频生成，我总结的三个主要的挑战啊，嗯虽然它很困难，但是我们作为学术协助穿的嘛。

肯定是一般的，是越困难我们就越要上，是不是越要上嗯，所以也是有特别多的研究者是去研究这个问题，嗯我个人的观点啊，我认为什么呢，就说把这把所有的这种研究啊，大概可以分两类啊，第一类是什么呀。

基于SD就是stable defusion呃，当一个底座嗯，用逐帧生成的思想来做，然后在生产的过程中间，后面再去考虑它的连续性的问题，还有一个就是说比较彻底了，我把整个视频当做一个整体，就是一起生成。

不是逐帧生成出来的，我是吧，我一把一个视频当做一个3D的表示，它一下子出来，这样他就是最大的好处就是什么呀，它生成的内容肯定连续性是没有问题的，但是他的好坏处就是什么呀，哦它没有一个预训练。

是不是没有一个预训练，你所有的训练都得从头开始，这样肯定对我们是吧，要求特别高啊，你的三力要求特别高是吧，然后第一个方式的比较有代表的新新脑啊，就是皮卡呀，Runway。

然后还有阿里腾讯的一些开源的模型，甚至slayer defection，这一家公司开源的视频的模型，是不是这个呃，这个至少有三个是开源是可以用的，还有基于第二个第二种方式。

我把它叫做时空patch或者整个视频啊，整个视频一起生成出来，我就这种方式的话，有比较比较有名的SORA，还有申诉的we do，还有我们自己的一个呃VDTR嗯，我我做这个报告的时候，可能是一个月之前啊。

一个月之前我尽量的已经把最新的包包进去，但是视频是发展实在太快了，比如说过去一周他一下子出来四五个，所以我我也没法加进来，感觉是吧，反正比如说那你下一周可能又出来了，没办法是吧，但是但是万变不离其宗吧。

就是他们的套路肯定是，要么是在前面这个方式里面，要么就在后面这个方式里面啊，好吧嗯，然后后面这个方式的话啊，也有两种啊，一种是就是结合DEFUSION加transformer的优点。

就是所谓的DIT的这种架构，还有一种是纯什么呀，transformer就是自回归的架构，呃，目前来就是目前就说发展的早的，或者是呃就是体现的效果好的，还是DIT架构啊，我觉得是吧。

然后就完全transformer自回归的架构嗯，就是就是目前就是我觉得不是那么多吧，虽然有一些，但是呃也不好说他以后能成主流吧，就是只是有个苗头啊，但是还没有证明他自己。

所以我主要还是都是介绍基于DIT架构的。

好我们先看第一个范式呃，基于SD逐帧生成它的一些最新的进展，我们看一下诶，第一个就是皮卡，皮卡当在去年是吧，我我不记得是不是去年也是曾经挺火的，他也融了，好像最近也融了一轮啊，就说明投资人还是认可他的。

呃因为它是个必然模型，它的技术报告都是很简洁，没有没有透露它的模型细节啊，我们就把它他做的一个纹身3D的一个加速器，我们列在这啊，呃大概的思想就是什么呀，嗯他跟纹身3D啊，3D模型的这样一个模型。

它设计了一个加速的办法，它把它就是在这个生产过程中间，引入了一个要滑滑动窗，然后滑动窗里面的计算是可以用多张显卡，并行计并行计算的，然后设计了一个阈值呃，就说怎么看这个滑动窗。

可以进到下一个iteration里面，这个阈值尽量的节省是吧，计算量呃，那回到视频生成本身啊，我们觉得就说我们推测啊，反正他自己大概也是这么默认的，它应该是基于一个预训练的SD模型啊。

然后加上额外的时间围上的建模，所以我们就觉得他应该还是基于逐帧，基于SD逐帧生成是吧，然后后面再补上时间维的建模，右边是它的一个效果，第二个比较好的模型就是run away的金兔GTO。

实际上他的技术细节也没有公开，我们这列的是他的金one的技术细节，jin one是呃，他的技术细节公开了呃，它本质上是一个视频编辑的模型，我们可以看到是不是是一个视频输入进来，然后我们可以输入一个图像。

或者输入一个一段文字去对它进行修改，它整体的架构还是一个DEFASION的架构，stable defusion的架构啊，只是他额外加了一个什么呀，我我的视频生成就是输入进来以后，我们会提取它的深度信息。

深度信息有我们觉得什么相当于是一个3D的，3D的信息吧，哎一这样我们就保证说我编辑以后的这个视频，跟原视频尽量的在深度信息是保持一致的好，因为什么呀，金兔的技术细节没公开。

我们就呃追究一下jm one的技术细节啊，这是里面它最重要的两个时间，为建模的一个改动啊，呃一个是什么呀，就是时空的这种就是就是残差模块吧，还有一个是attention的模块呃。

它的改动其实思想也特别简单，就是在传统的就是2D的，就是2D的转机后面跟紧接着一个什么呀，就是一维的时间的转机，红色的部分啊，那我看一下，这个地方这个就是时间为的，就是啊就是这个地方就是这个地方。

就是每个二维的转机，后面跟着一个一维的时间时间的转机，然后attention是什么呀，你是就是这是什么呀，这是视觉二维的attention，然后后面跟一个什么呀，时间维度的上的一维的attention。

这样他就是什么呀，我本来是一个SLIBDEFTION，只能生成图片的，但是我加上时间维度以后，它就可以对时间进行建模，这样就可以生成视频了，刚才两是两个必必然模型啊，是主要是去年提出来的嗯。

然后剩下我介绍三个开源模型，一个是阿里的这个模型啊，我觉得阿里还是很有诚意啊，他它不仅仅视频生成的模型，也开源了它那个多模态大模型啊，比如千万VL也开源了，我觉得这个是对整个领域的发展。

还是很大的促进作用，至少钱文为二，我知道很多人是在用的，然后呃阿里这个模视频生成模型，它其实本质上是一个图文生成视频的模型呃，它把整个视频生成分成两阶段，第一阶段是是一个什么呀，我们给一张图片。

它经过clip模型，经过一个detail的in encoder，然后一个general的encoder，反正就是各种encoder吧，尽量的把这张输入的图片的信息提取出来。

然后丢到我们的save deftion里面，当条件，然后生成什么呀，生成一个448×256就是分辨率，然后32帧的视频出来，但是这个是个低分辨率的，是不是，所以他加了第二阶段是个高分辨率的。

把刚才生成视频，当的是输入输入到我spring ption里面来，然后同时再加一段文本当条件是吧，继续把它的分辨率提升上来，比如到720P了，是不是这样就变成一个高清的一个视频了，然后他的论文里面说了。

它的底座是什么呀，是stable devotion，实实际上是SD2。1嗯。

这是他论文给的一个几个例子啊，通过他的例子，我觉得它的效果应该是，比前面两个模型要差一点，大家可以对着看一下，然后这就是腾讯的这个这个开源的，开源的模型啊，我觉得也应该对这个领域的发展也是很重要的。

呃它本质上是基于他们，他们前面有一个叫纹身视频，叫做video crafter这样一个模型，把它改造成一个图文声视频的模型，就是就是上上半截就是他的纹身，纹身视频的模型呃。

下面这个加的就是把图像能加进去，是不是图像多一个条件输进去，最后把它改造成一个图文声视频的模型，他的论文也说了，他的底座也是stable difference，2。1嗯，这是他在论文里给的一些例子啊。

至少在这个例子上，他说我感觉他应该是比呃皮卡呀，比jm two，比runway的要好啊，不不就是跟比阿里的那个模型也要好一些，好最后我们重点介绍一下。

就是stable defusion这一家公司提出的视频的模型，它把它叫做stable video defection，我们后面简称SVD啊，呃这个模型，他是有论文的，他是有论文的。

我我主要是讲他为什么呃，这个模型可以说是开软里面涂生视频，最好的模型啊，呃最好的开源模型呃，比腾讯那个也要好一些，我觉得呃它的原因主要有两点，一点是什么呀，我们都知道这种基于stable。

default的模型是什么呀，它其实都有一个什么一个VAE，就是所谓的就是压缩的一个模型啊，它是有个encoder decoder呃，压缩完了在引空间里面，我们是用SBDEFUSION做生成嘛。

所以呃SVD为了保证，为了保证尽可能的什么呀，把时间信息考虑到，所以他把VIE里面的一，就是decoder部分重新训练了，然后在这个训练的过程中间，把时间的因素已经考虑进去了。

这样它生成的视频的连续性会好一些，这是一个改动啊，另外一个改动它也跟runway一样，它也加了时间的模块和是吧，时间的模块一个是什么呀，那个残差的模块转机，一个就是attention模块。

它都把时间维加上去了，但是它跟run way的差别是什么呀，它是把整个模型从头训练的，从头从开始开头训练，但是其他的几个模型只是动了，它就说新加那一部分，就是刚才就是时间维上的那一点东西。

但是前面的东西都没动，所以从这个角度，我觉得它的效果肯定是会好一些，额这是我们用他的模型生成的两个例子啊，看他的人像的细节，然后他的动作我觉得都还可以，连续性也没问题呃，这是他的论文。

你给的一些评测的结果，他甚至比呃是通过人评价的啊，是比金兔和皮卡都要好，好，这是把我们第一种方式的最新进展都介绍完了。

我们现在介绍呃，第二种方式，我是觉得就是把它叫做时空patch生成也好，或者叫整个视频整体生成也好吧，嗯反正大家明白什么意思就行了，好，那这个里面最有代表性的工作，或者是大家为什么这么关注视频生成。

肯定是要归功于OpenAI，是他当时在1月份的1月份还是3月份，我不记得了，提出了那个SA模型呃，SA模型它里面很重要的几部啊，我们简单的介绍一下，他第一步就是把一整个视频啊。

就是因为我们要整个视频生成，所以他要把整个视频表示成什么呀，时空的patch要做压缩，所以他专门训练了一个V口VIE网络，把视频压缩到一个什么呀，低维度的就是这个里面啊，低维度的一个空间里面。

然后在这个低温的空间，把视频把它分解成3D的这种patch，那就是每一个小块，我们可以把它看成一个token了，所以就可以把它丢到transformer里面，是不是。

我们只要把这个视频表示成token序列的话，那当然可以把它喂到什么呀。

transformer里面去，第二个就是什么呀，它的架构到底是什么，它宏观上他他自己说的啊，他首先他肯定是一个cos模型，他可以接受输入带噪声的patch或者加上条件啊。

然后训练模型以后去预测干净的patch，就把它重构出来，他说最重要的是它采用了什么DIT的架构，就是defsion transformer的架构，这种模型其实也不是说就是什么呀，最近才出来的。

其实在前面嗯，当然李老师他们也做了一个类似的工作，后面也马上会讲呃，我觉得这个架构其实大家都想到了，我觉得是，然后这个架构他说在很多方面验，就验证了它的扩展性，这个事情也是很重要的。

嗯然后这儿给了三个例子啊，就是一个就是他说就是最基础的计算量，中间是一个四倍的计算量，然后右边是一个32乘的计算量，呃这个大概说的是什么意思呢，就是其实就是说的什么呀，这种大模型的可扩展性。

或者是我们所谓的什么呀，词skin la嗯，词根练度只是说他这是体现的角度不一样啊，嗯我们知道嘛，solar这个模型里面它肯定有很多模型上的设计，是不是你采用不同的设计，你到底依据是什么。

然后open还通过它呃，它的实验证明我的设计只有一一种做法，我只要什么呀，我这个模型的架构的设计，让他的训练的代价变高，或者计算量增大的话，他这种的效果就会好，所以我们可以看到随着它模型的架构的改动。

它号的计算量是吧，乘以四倍，乘以32倍，然后他的越来越清晰，然后这个狗的动作越来越连续，第二个工作就是申诉的维度，这个背后肯定是有，我觉得李老师是吧，应该是起到很重要的作用。

呃他我觉得应该是按李老师自己的说法，应该是比那个DID还早是吧，应该是嗯我给你宣传一下啊，就是这个工作这个工作呃，他思想我也讲一下，我讲的不对，你可以纠正嗯，他的思想就是什么呀。

我们都知道saber defasion，它背后很有很重要的一个模型叫you let，是不是，但是优菈里是一个转接的模式，模型，就是李老师他们想了，说能不能改成一个transformer的模型。

所以他们就说能不能设计一个UVIT，是不是let就是转机嘛是吧，let it它们u let Lt是一个CN的模型，他说能不能改成一个v it的模型，就是我们知道视觉表示里面很重要的两个模型，一个是CN。

一个是VIT是vision transformer嘛，呃最后李老师他们做了实验证明嗯，说类似优奈里的设计，他们说发现时间不以及就是就这个地方，时间部以及context就是文本输入啊。

这些这种东西如果当做token丢进来的话，这个效果会很好，同时类似unit有一些常，就是是我们知道嗯，深度学习里面很重要的一个模型叫RESNET，何凯明他们做的，它里面最重要的一个思想就是跳转连接。

是不是呃，就是说他们就会发现李老师他们证明，如果很合理的设计这个长的跳转连接的话，这个整体的效果也会很好，然后申诉他们基于这样一个UVT的模型，最后是在很大的一个数据集上。

生了一个叫ui defer的模型，然后后面我觉得应该是它基于这个unit defer模型，继续把它扩展到视频上去训练，最后都躲到vv do模型吧。

我觉得应该是这个思路啊，这是他们公开的，前面我记得是上一个月还是是吧，他们给的一些例子啊，我觉得效果还是挺不错的，好最后介绍一下我们自己的工作吧，嗯我们这个工作就说首首先我声明一下。

我们我我因为我是高校的老师嘛，嗯我们我们能做的啊，也很有的时候很很无奈的一个事情啊，就是类似前面所有这种做法，其实我们2022年底我们就想到了，所以我们就去我们就去做论文嘛。

因为高校老师三里都是特别有限啊，这是一定要理解啊，我们的情况就是这样，我们现其实完全想到类似的做法，所以我们就去做，但是我们因为算力有限嘛，只能在一些学术设计上去验证它，这是我们当时探索的一个过程啊。

嗯我们探索完了以后，把这整个工作，也就是把它放到一个很有名的，叫阿卡夫的网站上面，所以我们2023年5月份就放到网上去了，呃严格的来说，我们这个工作应该是比SA早很久了，是不是早很久呃。

回到我们的工作本身，他嗯我们当时可SA没出来啊，我们就想到了两个重要的事情，一个是什么呀，我们说能不能就说视频生成也是视觉生成嘛，当时比较主流的还是基于扩散模型来做，但是我们说能不能说结合扩散模型跟。

transfer模型的优点来做这个事情，所以我们说将transformer的技术，应用到基于cos的视频生成里面，第二个就是什么呀，我们提出了统一的时空掩码进行建模，这样保证它把视频生成里面。

所有的情况都能覆盖到，但这是举了很多例子啊，然后我们这个工作也很信任啊，就发表在我们这个所谓的，我们这个领会的顶会啊，叫埃克尼尔呃，呃如果再晚一点，我觉得就发不了是吧，三运气好一点，要是再晚。

比如说如果阿克里尔再中不了，那就那就完蛋了，那可能就是吧，就只能放在阿cf上了。

这是我们模型的一些细节啊，跟SARA类似，也做了视频的压缩，只是我们的压缩的模型，因为呃要考虑三力有限嘛，做了一些简化，然后中间的这个架构跟SA是一模一样的，然后里面的呃就是transformer模块。

跟SORA有一点点差异啊，呃就是什么呀，我们是把时空的attention是分开的，这个软音也是很简单，这样做的话，我们消耗消耗的散力会小很多，没有别的原因啊，我们其实知道放在一起肯定更好啊。

所以我们跟缩上的差异，一个就是在是就是什么呀，呃注意力机制的处理上，我们采用了通常呢把它分离的方法，这个时候很多是在显存三力有限下的一个，trade off呃，但是SORA是将时空合并。

是不是他直接用3D的注意力去做这个事情，所以它的效果肯定是要好一些吧。

当然耗到三里也会大，嗯另外一个我觉得这个倒不是本质的区别，我们当时因为也是3D有限，我们只考虑了图像生成视频，没有考虑文本，因为文本肯定是要需要的数据量更大，更不容易出效果，没有别的原因。

就是这一点点原因，因为呃图声视频跟纹身视频比，我觉得软体上没有什么差异，但是纹身视频它的需要的数据量要更大，才能出效果啊，呃我们当时就说在2023年，把那个论文放到网上的时候。

我们那个论文里面其实也有这些例子了，并且我们专门为这个论文做了一个网站，这些例子当时就放在那个网站上，你们可以去查得到，我们有一个gm github上的一个网站，呃，里面这些例子其实都放到里面去了啊。

并不是说后面索尔出来以后，我再补这个实验啊，没没有的，是当时就有的嗯，所以我们当时其实已经发现了类似这种什么呀，就说就用时空patch去生成视频，它其实真的是可以对简单的物理规律进行建模。

这里面其实包含很多种不同的什么呀，物理上的一些运动的模拟哈，它其实都不是线性的运动啊，是加速运动嗯。

那我刚才说了，我们因为是高校的团队嘛，其实手头的范例其实特别有限啊，那视频生成又是特别消耗算力的一个事情，有个工作，所以我们我们结合我们的实际情况是吧，做了一个折中，我们可以在一个全域上把它做好。

是不是全域上做的要做到什么呀，能能就是能to c其实特别难哦，to c的用户能接受是特别难的，所以我们在我们的模型上面继续加了一些东西，比如说我加了一些人脸的控制，可以保证它生产过程中间人脸不要动。

然后还加了一些人的骨架的控制，是保证他的动作生成比较自然，然后这些细节我们就不讲了，太邪术了。

大概就是加了这些人脸的控制，然后人的骨架的控制，最后我们生成了这样一个效果，是不是至少我们看他眨眼应该是比死背，就是stable s v t吧，或者是腾讯这个模型啊，我觉得是。

目前这两个是开软里面最好的两个模型啊，我们还是比它明显的要好一些的，我们这所有的条件都是一致啊，我跟我们跟就是爱什科技做了对比，跟那皮卡也做了对比，跟ram也做了对比，你们可以看到我们的效果是明显。

比他们要好一些的，嗯当然这个也不是特别公平啊，因为毕竟我们是专门针对全域优化过的是吧，但是也能看出一些问题吧。

这个就是我们继续优化以后，把它稍微做了一点后期处理啊，嗯这样我们尝试着把这些视频卖给普通的用户，呃，这两个视频应该是卖掉了，就是我们拿到这儿了，当然大家不要泄露出去啊，因为可能那个人要告我的话有问题。

呵呵对，呃我我主要是想证明什么呀，我们其实有的时候呃，虽然我们每个人都是可以一堆的抱怨啊，比如说算力有限啊，或者各种数据不够啊，呃你可以扯一堆理由啊，但是如果你坚定的选一个东西啊，其实可以做出来了。

也可以把这个事情打穿的，是至少我现在证明我我是吧，VDT我们我觉得我我们想到的比solo早多了，是不是，但是因为三点原因，我做不到它生成一分钟的视频，是不是我做不到。

但是我可以在这个人线视频生成上面写成，视频生成上，我可以做到效果很好，做到普通的用户都能接受，甚至他愿意付钱买这个视频，那这个就是很难啊，那不是solo那个模型就能解决的。

是不是那个还就是SORA虽然已经很惊艳了，但是离普通的用户愿意为他付钱，这个差了10万8000里是不，所以这个后面还有很大的gap，但是我们在有限的3D情况下，我把这个打穿了，其实还是很难哦。

最后给了一个长一点的例子嗯，这个视频是再早一点，刚才那两个是更新一点的，可以看到里面比如说是我呃，扇子遮脸啊，她都是可以把它恢复出来，甚至刚好最后那个女生，她背后的那个影子，她是可以生成出来呃。

他的人在动，影子也在动，就说明这些物理规律都是学到了，最后我就简单的嗯总结一下吧，就是其实跟我们刚才讲的三个挑战是对应的，那就是说未来一年我们视频生成呃，值不值得做啊，我刚才还跟李老师讨论。

他说他不想做了，是不是嗯嗯不管了，就是写书上总得说说说抛一些问题出来，大家还有得做吗，那一个肯定是什么呀，视频加速这个肯定要做嘛，嗯你不能说消耗那么多战力，或者要等一个小时，这个不太行啊是吧。

那太久了没法商用，当然我觉得这个事情实际上是最好解决的，嗯总能把他推理加速，至少把推理加速是可以的，第二个就是更长的视频能不能生成，是不是呃，虽然SA已经生成了一分钟的，那但是能不能2分钟啊。

能不能生成，是不是生成更长的视频，能不能生成，我觉得可能呃不能光靠数模型本身，可能后期有一些处理，第三个就是我觉得特别有就是普通人能做的，就是视频的可控生成呃，这个其实有的时候消耗了3年可能没有那么大。

我觉得在座的很多老师都有可能做这个方向，好呃，李老师我要做就介绍到这儿吧。

问问题啊，对有一个简短的QA环节，好感谢卢老师的这个精彩的报告，对这个视频生成模型，做了一个特别长的一个梳理，特别详细，同时呢也给我们有很多的启发，第一个是在学术上，我们怎么样有远见，做的很很靠前。

第二个事情就是说在比如说我们应用上，如果通用我没有那么大算力，怎么样去在垂域中找到一些新的机会，然后我们有大概一两个问题的时间，大家有问题的话，我们可以跟啊，卢老师有一个QA的环节啊。

好大家直接可以举手啊，有问题的话可以举手，好，哎老师你好，就是视频生成虽然非常火，但感觉从高校的学生角度来说，好像没有那么多资源去撬动了，然后对呀，然后就想就是沿着这条路去做一些工作。

或者做一些小的补丁的话，感觉有什么样的方向可以，值得建议高校学生去尝试呢，这个确实很难，就是说比如说你这个时候做出来，他们肯定会说你要不要跟SARA比一下，你要不要跟那个快手的可怜比下是吧。

你这怎么比得过呀，这个这确实很难哦，但是我觉得还是可以沿着这些，就是假设以后面可可能会有一些比较开，强的开源模型出来，你基于那些开源模型能不能做一些后续的，比如说刚才的一些可控生成呀，一些加速啊。

或者一些变速，把让它变成生成更长的视频啊，这个其实不需要那么多的三零，当然还有一些别的问题啊，我可能没想到的肯定有哦，好的好的。

2024北京智源大会-生成模型 - P3：Visual Autoregressive Modeling Scalable Image Generation via Next-Scale Predicti - 智源社区 - BV1DS411w7hz

嗯非常感谢李老师邀请我来做这次分享，对呃非常荣幸对本次分享的话，给大家带带来我们最新发表的工作微距，Autograss modeling，Scalub，Image generation。

Will next scale prediction，这工作呢是我们今年4月份发表的，一个新的工作，是一个全新的啊，基于一个语言模型的一个图像生成的框架，对本次的分享的话，分分为五个section。

第一个section的话是我们介绍啊深度生成模型，包括debution model，包括呃language model，对第二个的话是呃，我们借鉴来自于language model的这些成功。

然后吸啊吸取一些啊language model1些成功经验啊，来帮助我们做视觉生成做得更好，包括一些经典的一些方法，Toganization。

next token prediction和scanning row，对第三个section的话，我会介绍就是经典的image organization，包括就是VQV和VAE，包括VAE。

我们来探讨离离散和连续的这个token，之间的一个关系，对对第四个section，我们会正式介绍我们VR的工作，Wage order gressive model。

Next scale prediction，最后的话是会呃，沿着我们这个呃VR或这个框架来探讨，t two i和t to v和unified multimodity，model之间的关系。

对首先我会开展第一个section的介绍，首先的话就是现在的话主流的一些生存模型，包括啊视觉生成模型，还包括早些年2020年之前的干，包括现在大家都非常非常关注VAE或者VQ，V a e。

就是刚刚罗老师介绍的一些，就是啊时空patch或者一些时空的special，Temporal token，对，第三个的话是呃是是以flow base model，最后的话是呃从2021年开始。

open AI提出来的一个diffusion bs，gun开始大火的defusion model，包括呃呃jasson home的一个呃DTPM，或者宋元老师的score based model。

就是这个diffusion model对，然后呃diffusion呃，Diffusion based mo，呃，model的话就是嗯我们可以看到这个呃landscape。

就是包括前些年大火的gun，现在的话大家更多的关注到fusion model，然后啊包括后面我们能看到一些auto grass models，包括energy base models，包括VAE对。

然后diffusion model的话大家都应该比较清楚了，我这块就不会再去赘述了，包括就是这里面的一些有名的工作，包括啊DPPM，包括宋扬老师的a score based model。

包括那个佳明的佳明老师的那个呃，DTIM的一些加速方法对，然后我们重点会围绕着a AR model或者是language model，来介绍我们都做的一系列的一些呃工，就是我们我们探讨的一系列些方法。

和一些借从language model借鉴的一些insight。

首先我们来说一下呃，像GBT或者a m model是怎么训的，第一个的话就是我们一般来说，AM的话是需要一个organization，包括BPE或者是类似word piece。

第二的话就是我们基于这个organization做next token，Prediction，第三个的话就是我们会去啊，基于这种pretrain model去做一些嗯。

就是instruction tony，最后的话会有些q human feedback来做一个RUHF对，然后呃，首先的话就是我们我们我们会从刚刚的一些language，mode1些经验的话。

我们可以看到就TOGANIZATION啊，next token prediction和scaling law，有了SCLAW之后，我们我们结合这个呃这个字。

next token prediction之间，多数方法可以去把model scaling up，包括scaling up，Model size，包括scaling up computation对。

然后我们可以看到就是说language mode，最重要的一部分就TOGANIZATION，包括BPE，包括word peace，它主要的目的呢，就是说我们把与人类的一些语言离散。

因为人类的语言是一些离散化的一些信息，它我包括我们写的字，我们说的话都是离散的，我们可以把这些离散的这语言分子之后，把它映射到一些token i d，有了token i d之后，我可以就可以通过一个呃。

就是总之监督的next token prediction，然后基于这crossing topy和和最大自然优化，去优化这整个model，然后我再把这个整个models getting up起来。

包括我们用更多的一些算力，对最后一点就是我刚刚说的就是BPE的，都可能ZATION或者word peace，这种其实都是语义空间上的，那跟视觉教算视觉不一样，计算机视觉的一些VQVAE或者VAE。

它更多的是一些视算机，居然计算机视觉在底层的一些嗯嗯一些信息，low level的一些信息，但是NLP里面的这些DOGANIZATION，更多是包含些语义信息，对所以包括我们所有的视频生成或图像生成。

包括未来的一些多模态，其实我们都更多的希望是视觉和语义，更多的是做一些衔接，所以这也是计算机视觉目前没有出现，出没有出涌现出这种具有涌现能力的。

这样的大模型的一个组一个因素对，然后我们我们回到language model这一块，然后他PRETRAINING的话是更多的是通过next token，Prediction，是从大规模的这种呃呃文与呃。

文本的数据里面去学习知识，这是培训阶段，从而的话他培训阶段之后，他可以学到大量的这种语义知识，因为我们已经把这些文本，token映射到token i d了，对，然后呃并且做跟ID之间是有一些呃。

呃分布之间的关系，对第二点就是通过不同PRETRAINING，它可以做到in contest learning啊，有了in contest learning之后呢。

我们就可以transform到一些open task上，比如做一些FUSHORT，或者是做一些嗯相关的一些nonoa task呃，Generalization，这也是跟视觉非常不同的一个一个一个地方。

因为所有的我们是我们的自然语言，处理语言里面的一些任务，全部可以通过语言来描述，通过语言来表述，但计算机视觉这不是不是这样对，因为计算机视觉有些离散的任务，有些连续的任务。

离散的任务包括一些呃detection，包括一些嗯就是checking，或者是一些持续的一些离散的任务，对那连续任务就包括一些segmentation，或者是一些呃就是一些呃flow相关的一些任务。

对那有了这一点差异呢，那就来自来源于就呃就有了另外一个区，极大的区别，就是呃语言这边可以通过一些unified的呃，呃方方式，因为它语言都可以呃，可以生成，就可以用来做生成，也可以用来做理解。

有了这个语言的桥梁之后，就可以unify的生成和理解，但就像视觉做不到对，然后基于这几几点优势，那就有了这个LM的一些scaling up和scale road。

这一些嗯这些现象对或对，然后总结一下的话，就是说，为什么计算机视觉没有出现相关的一些工作，那是主要第刚刚总结下刚刚原因，第一个就是语言是一些人类一些已经孕育了几，通过几千年的一些规律孕育呃。

就总结出来的一些规律，然后它具有高度的一些语义和一些信息，密度比较高，但计算机视觉的话是则没有，这样就计算机视觉里面它具有更多的一些context，语言的话是一维的前后关系的context。

那计算机视觉上包括一些二维的，包括spatial temporal，还有三维的或者四维的，然后另外专业数据有更多的一些模态信息，包括啊我们自已知的视频图像的pixel，包括点云或者包括红外。

然后呃NOP里面就是语言这边的话，可以更多的通过一个呃这种cos的PRETRAINING方式，学习到语义，但计算机视觉的话目前还没有啊，被探讨的是这呃极致，因为计算机视觉的很多啊语义啊。

很多信息可能在底层而言没有语义，因此基于这些呃极大的不同，然后所以language model能够通过这样的一个范式，能够做到一个呃，就是skating up到一个非常不错的效果对。

但是计算机数学这边生成这边更多的是啊，比如说我们这已知的梯度，I t to v，或者是一些你unified的一些深理解的任务，都没有统一做到一个呃。

在token nether space上做到统一生成和理解对，有了这些之后，我们就不禁在想，就是如何能够去借助计算机视觉的一些，特有因素或特有的一些本质去学习。

ALM这边language model这边的一些特呃先进经验，包括AUTOGANIZATION，或者是做一些semantic semantic压缩，包括我们去做一个呃。

基于这种COSTAL的来做一个PRETRA呃，就scanning up的PRETRAINING啊，包括就是嗯呃基于token nether space的一个呃，有呃深层和理解的统一对。

然后首先第一TOKIZATION是最重要的，那我也会介绍，就是图像里面的token anization应该怎么做，首先图像领域啊，就是离散和连续的这个呃，就TOGANIZATION到底是哪个效果好。

呃目前来看的话是呃通过DEFUSION条路线来看，更多的是连续的效果会更好一些，但是这个离散的最近又出现了非常多的新工作。

对但这些都绕不开一个工作，就是VAE，VAE的话是2014年提出来的，i clear的一个在艾克利上呃发表的一个工作啊，值得一提的是，他也是拿了今年的嗯。

i clear的test of time的一个最佳奖项啊，就是奖项就是对，然后VAE的思想就很简单，其实就在引空间上加入了kl散度约束呃，kl散度约束，然后使得他能够学习。

就使得他的从AE对一个没有随机性的，这样的东西变成了VAE可以去采样，有具有随机性的这样的呃，这样的一个嗯生成模型对，然后呃有了这个VIE之后呢。

就有衍生出来了啊，另外一个比较有名的工作，他就说是stable呃，就是stable diffusion的前身就是呃latent呃，Diffusion model，Latent。

diffusion model呢，就是在呃VAE的一个这样的一个呃，latin space上进行diffusion，然后它其实是借助了强大的这样的一个VA呃，连续的VA的表示，然后做的非常好。

对那U嗯可以看到就是diffusion的话，目前所有的工作包括latent diffusion，就呃就包括DITDEVISION，Transformer，全部是用到了这种啊，V a e。

就尤其是离散到连续的VIE上面。

进行一些啊diffusion的一些呃一些模型的训练，对，那我回到了我们刚刚开始说到的，就是呃我们希望是通过language model来做，那language model。

典型的就是现在的一个AAR的language model，就是auto grass language model。

然后呃这一块的话就是比就是open AI，2020年有个工作叫做叫做image g b t，或者叫IGBT，它是在一个像素空间上做那个嗯，做AAR的回归的训练对，然后他的做法就直接是在像素空间上。

基于啊进行一个像素的聚类，然后然后直接是基于g p t style，进行自回归的训练，然后以及或者是呃呃或者是基于呃bert style的进，进行mask language modeling。

那它不仅做了生成，也做了一些下游任务的一些linear evaluation，对他当时更多是做成了这样的一个，PRETRAINING的范式，并没有考虑更多的生成效果，对这是第一点。

第二点的话就是他当时嗯因为在2020年，其实当时的显卡的算力的呃限制，还有就是info open i infa和ta的限制，所以它并没有在大规模的数据集上进行PRETRAIN。

而更多是在一些image net，或者是一些呃比较小的数据集上，比如说C法上面进行验证，所以它的计算量嗯，所以他的话当时因为计算量的问题，所以它只能生成一些相对低清的一些图片。

比如说64×64的这样的一个图片，第三点的话就是呃，在当时还没有先驱者进行一个模型scanning up，包括在视觉上进行scale up的这样的一个验证。

也就没有验证scanning law能够验证呃，就是推动这个后续的发展，对虽然那个OpenAI是呃推出了GPT系列工作，但在IGPT上面它并没有follow up这个工作，也导致这个工作出来之后。

其实嗯嗯在领域内虽然有一定的影响力，但是并没有相关的一些呃，更好的一些工作或者改进对，然后回到我们刚刚说的TOGANIZATION，那它的TOGANIZATION，其实就在像素空间上进行聚类。

其实并没有太多的语义对，然后有了这样的一个嗯想法之后，其实TOGANIZATION最主要的一点，其实就是要把这个尤其是language model tokanization。

其实就是要把那个呃连续空间的一些特征，就啊映射到一个token i d space上，那很自然的想法就是VQVIE，那VQVAE呢，就是将输入数据应收到一个离散的code book。

那这些code book呢就是可以是可以去更新的哦，等等于啊对哦，这样的话就是VQVAE呢，我在那个呃latin space做了contact之后呢，可以得到一个具体啊具体的code book i d。

有了这样的一个code book i d之后呢，我相当于我一个图像就可以编码成，不同的一个啊一个一系列的code book，就像那那这个过程呢就和language model这块呃。

这块的BPE或者word piece基本是等价了，但是有呃近乎等价，我为什么说近乎呢，因为它可能语义上可能还差点意思对，有了这样的一个呃organization之后。

那我们就有了language model的一个啊优化的一个可能性，因为我们可以把图像从呃连续的空间上去去，映射到一个离散的一个code book上。

那我们就可以通过一个cross centrobloss，以及去大市场去优化它对。

所以我们这块就回到刚刚的landscape，我们可以看到，其实在呃前前面的一些呃，比较受关注的一些diffusion或者干前面啊，大家说的比较关注，但是在后面一个远处地方。

其实有auto regression models也渐渐受到大家关注，对，那这块就要介绍一下一个嗯一个比较有名的工，一个比较有名的工作对，然后这个工作呢就是VQ干。

VQ干呢是2021年的CVPR的oral，对这工作极大的影响力嗯，首先它是第一个基于image organization加auto regressive，transformer来生成图像的一个工作。

当然他没有做t two i是做class condition生成，然后它基于这个框架呢，它就能够生成一个非常高清的，比如720×1080，或者是呃1080×1920这样的一个图像，并且它可以做，就是啊。

这个这个模型可以做下游任务的一系列的，ZUH呃，就是呃implanting out painting，或者是一些呃就是嗯就是super鲁，是入选相关的一些呃呃一些一些下游任务验证。

那具体做法其实比较简单，就是说呃他其实做了一些功呃，我们可能认为表工程上的一些优化，首先第一点就是之前的就是嗯VQVAE，更多就是它它是在这个呃，卷ROR这部分用的是一个PSCN啊。

这部分的话就是VQ干呢。

就把它换成了一个选form嘛，g p t two的架构对，那第二呃，第二点呢，就是说他的discriminator加入了一个干LOS，然后同时啊就是perception loss。

替换成了一个重建落实对，那首先那这样的话，其实第一它改善了一个嗯，就是WEQ干这个化改善了一个呃，就是VQEVIE生成画质，因为VQVAE生成画质部分，有部分的明显的糊的现象对。

所以改呃加入了这个呃甘落实之后呢，它其实呃它的生存画质会有明显提升，第二点呢，就是它的又从pixel c n换成了这种AR，transformer这种架构。

从而的话就基于这些优化改进了encoder decoder，同时改进了这个generative的这个transformer，使得它生成有非非常大的一个提啊提升，但值得一提的是，它其实呃。

vo can并不是一个long range的这个a r model，它更多是一个slide window的这样的一个呃，基于slid window attention去生成，基于当时算力的一些因素。

所以他更没有去做这种long range的，AR的序列生成，就是现语言模型这块其实大家都应该提呃，可以关注一些开源的语言模型，都可以做到非常长的context length，但是其实受限于当时的环境。

wq gun它只能做到一个slide window里面生成，那这就有个约束，使得它生成图像其实不能够很好的CONSISTEN，对哦，并且它能很难去呃，就是比如说左上角能够去和右下角去进行一个。

一系列的一些优化，不行哦，对，然后当时的话是在一些学术，benchmark上做了一些验证，包括class condition的这种啊。

image net benchmark可以看到就是呃EMNET上的FD的话，它其实达呃得到了一个明显的一个提升，几乎接近于一个啊，比较早期的一个diffusion的best model，对啊。

包括如果他加了一些呃reject sampling之后，他在FID可以达到一个6。59，这样的一个效果，对，已经快超越了一些呃瓦尼拉的devision model，那另外一个工作呢就是一个呃呃估呃。

蒂夫麦的一个工作，对这是来自DIF麦的，当时研究员就是余家辉老师的一个工作，那这个工作呢其实就是说哦，我我看到了语言模型的一个scanning up的效果，那我是不是可以直接scale v q gun。

这个这种框架，那显很显然是可以的，对它框架也比较简单，就是说呃就是基于一个呃image统IZATION，vi it的维修gun，加上一个auto regressive transformer。

这个工作呢，其实呃就是很就是典型的有点像open AI的风格，就不停的堆算力，堆模型，Size，堆数据，然后我我模型架构很简单，就是这个呃TOGANIZATION加AR这个路线。

那这跟language model几乎一模一样了，对在这工作是在2022年的呃，上半年提出来的，在这个呃ch呃ChatGPT呃，受大家关注之前。

在当时那个年代有人去scaling这个t to ADD model，或者数学生成model是非常难得的，所以这工作，我认为是一个非常具有里程碑式的工作，对他他也是第一个把t to i上。

scaling到20B的这样的一个model，并且是把t to i做了非常work的一个工作，当时呢他就是也是呃超前的思想，他用了一个MOE的model，去做到这个20B的这样的一个呃。

VIT或者是一个a r transformer的架构，然后他用的也是MOE的这样model，对那随着他文文章中做了一些APPLATION，随着model size变大，那它效果会越来越好。

并且可以做到一些text rendering的效果，所以我我认为这个工作，可是在当时的是思想非常超前，对它具备了，现在我们能看到一些lanlanguage model，一些非常多的一些优势，包括MOE。

包括一些scaling up，在2022年的上半年的当时对。

然后有了我有了我们刚刚说的就是啊，TOGANIZATION呃，包括视觉的VQVAE，包括一些language model，Scaling up，包括一些相关的工作之后，我们就在想那这个事情对视呃。

视觉这块一定要follow这个AR这条路线吗，啊其实AR这条这个东呃，这个东西对视觉来说适用吗，其实我们也在内部不停的去探讨或者思考，这样的一个想法，就有了我们这样的一个工作。

微距auto prograss，Model，Next scale prediction，对语言模型像那个g p t la或palm，他是BPE之后经过next token predic个选对。

然后像party这种，它简简单的就是一个呃，就是呃v q v i e to nezation之后利用光啊，也是跟原模型一样，自上而下，自左到右的这样光栅顺序。

但language model是用自回归的方法来预测next token，那是因为语言有先后顺序时候区分，因为语言是一个一维的context，但视觉其实并不是这样，因为视觉我们看东西它是一个整体的。

或者是局呃，整体到局部的这样一个过程，所以我们就在想呃，传统的图像自回归使用一种不符合人类直觉，但是呃呃符合一些计算机处理的顺序，自上而下逐行扫描这光栅顺序来预测图像，token这个真的合理吗。

就是这个地方可能要打个问号对，那我们就在想呃，呃就像party这种，就是我们刚刚说的一个language model的AR全AR，auto regressive这样的一个生成的框架。

那其实我们人看东西一般都是我们从远看东西，会看到一个呃整体的东西，然后慢慢走近，我们会看到整体的这个物体，或者是一个图像的，整体的一个整体到一个局部的这样细节，逐类似逐步放大的过程。

这是比较符合人类直觉的这样一个过程。

同样的人类在感知图像或者绘画时，往往往往都是先概览全局，再深入细节，这种由粗到细，由整体把握，整体到局部金条的思路啊，思路想的话是非常自然的，有了这样的一个想法之后，那我们就在想，能不能我们在呃。

就是我能不能我们同时借鉴language mode优势，for ganization加AR的方式，去融入计算机视觉的一些诶优一些特特质，包括我们刚刚说的从整体到局部的这个思路，那我们逐步放大这种思想。

那就有了我们这个V9，auto grave model里这样的一个想法的初步，他就是说呃我们可以去逐步的去看这个图图啊，图从慢慢的把图像看整体逐步放大这样子呃。

放大这样的一个过程对，然后我我接下来会介绍，具体来说我们是怎么做的，对，首先的话就是呃我我刚刚说了，其实呃我我框架的话，其实我我像这个AI的框架，其实主要是两个组成，一个是DOGANIZATION。

第二个的话是呃，第二个是它的一个ARHANSFORMER，那自然的我们也是一样的，那stage one的话，就是我们需要有一个matter scale的一个image，Organization。

为什么要MARGISCALE呢，因为我们是从一个整体到局部的，所以这个图和NAZATION，必然是它把握一个单尺度到多尺度上的，一个整体的一个呃，有一个一个描述对。

然后第二个stage呢就是说我们会有一个呃，就是g b t style的，像auto grave啊，这样做model来生机啊。

就是来生成这样的一个mari scale image organization，或者mari scale的这样的v q tokens，然后我们去逐步生成这样高清的这种token。

然后最后通过一个organization decoder去还原出来，对那那具体来说的话就是说我们现在有两个station，那第一个station呢就是说我们会有一个呃，我们需要对图像进行一个多尺度的。

这样的一个图呃，呃to ganization，那就是说我们对图像我们先把它一个啊，就是需要转化成一个多尺度的这样的一个，离散的token map，那比比如说它是一个啊多个。

比如说呃就是呃从大概7_{8个尺度上，举个例子对，然后他有7}8个尺度上分别做出GANIZATION，那这样的话它有个多次do的token map，然后这是第一步，那第一步离散编码。

第二步的话就是我通过一些呃，就是code book转化成连续的这样一个feature map，然后统一插值到嗯，就最大分辨率上去求和，然后求和后求和后的fish map呢。

通过一些呃就是organization的一些decoder，去重建图片，并且通过重建呃感知和对抗这三个loss，就我刚刚说的一个reconstruction loss。

perception loss和那个gloss来混合训练，训练，这样的一个mari scale的一个一个VQVA啊，V q v i e，那有了第一步之后，那我们就是在想，如何在视觉空间上去自回归的生成。

那很简单，我们一般第一步呢是通过一个起始token，去测出第11的token map，如左上呃，呃就是啊这部分一样，就是我们首先得到一个11的token map，随后每一步呢。

VR呢都会基于历史的所有token map，去预测下一个更大尺度的token map，这种cost to refine的思想，对，那有了to conanization之后呢。

训练阶段就可以使用标标准的一些，交叉熵的损失呃，呃损失loss来监督这些token map的概率预测而产，对啊，这样的话我们就可以看到逐步流程，就是我先生成一个呃，第一个token11生成一个呃。

22的这样的一或者44的token map，然后再生成99的这样的一个token map，注意的是它是一个每个scale上，是一个并行生成的。

但是在scale上是它是一个COSTAL的attention，对那测试阶段的时候，我就可以通过采样得到token map结，结合一些VQVAE的decoder，进行连续化的这种呃连续化这种差值求和。

再通过decode最后生成完整的一个图像，当然里面有很多细节，包括我们借鉴了一个呃就呃rescue呃，Transformer，就呃就是嗯r q transformer，或者RQVAE的思路，对。

包括我们呃借鉴了那个呃就是一啊，借鉴了一些就是嗯DIT的一些架构的，一上的一些一些经验，对，我们可以看我们在标准的benchmark上的一个结果。

首先我们可以看到就是标准的class condition，image net benchmark上，我们测试了不同的model size，结果随着不同的model size。

结果SK呃scaling之后，我们的FID是逐步稳步的下降的，并且我们的这个FID是达到了历呃，达到了SA比比之前的所有的diffusion base model呃。

mask prediction based model呃，AR的呃全呃就是呃AR的选form为based model，都是达到了更好的FID，并且我们呃就是几乎快接近VDATION的FID，这是第一。

第二的话，我们在标准的英internet，512×512的这样的一个呃卡，class condition generation上达到了也不错的一个效果，对。

也会也比之前的master git或者啊DIT的这种呃，affect达到更优，值得一提的是，我们的VIR的框架嗯，就是呃会比传统的这个晚就晚依赖的这种呃，这AR框架在FID上几乎提升了啊，一个数量级。

对这第一点就是我们达到了SOA的performance，在immnet benchmark上对，第二点我们比啊solar的呃，solar的base model会更好，对，第三的话就是呃我们会呃。

我们是一个非常非常快速，因为我们step比较少，所以我们实测的话在1024×1024上，我们我们如果优化的够好的话，可以到呃，一到两秒生成10241024这样的model对。

然后我们也和solar或者stable diffusion的呃，这个贝斯mod d i t做了对比，可以看右上角，在我们的一个奔驰Mark上的一个FID，包括我们呃左上角的话和一个呃。

就是它的一个呃不同的model之间的一个呃，就是FID和，FID和速度，速度的一个对比的一个一个一个表，我们可以看到经过scanning up之后，VR可以达到一个FID。

当然最新的结果我们会更呃更好一些，对他毕竟理论上的一个FID的下限，要要1。78，显著优于DIT当时的效果啊就是2。1对，第二就是我们的速度更快，VR的话只需要不到0。3秒。

就可以生成一个256×256的图像，速度的话是当时的一个呃呃，瓦INA的DIT的45倍，在512上，更是DIT的一个呃一个数量级的一个速度，第三的话是我们有更好的scanning的一个能力啊。

如左如左图所示，DIT在大模型增长到3B7B之后，出现饱和现象，我无法靠近FID下线啊，对所以呃然后我们做了一个VR上，做了一个嗯scanning up的实验，包括它scanning到一个20亿的参数。

性能不断的提升，对哦另外一点就是我们有更高效的数据利用，包括我刚提的VR的话，需要350个epoch就能超进，就能超过DIT1400个epoch效果对。

然后我们也验证了AM上的一些scanning law，对我们验证我们在验证集上的错误率呃，就是验证了token的错误率和crossing topy啊，ROSS随着啊啊。

就是我们scarf模型的一个size，和这个计算量之后，可以得到可预测的下降，这可预测是指我们呈现密率关系或者log，收放后的线性关系，线性关系的话就是把线性相关系数达到啊，就非常高，对咳啊，同样的。

我们去做了一个是刚刚是一个定量量的分析，我们也做了一些定性的分析，我们可以看到啊，左上角或右呃，右边这个图可以看到，随着我们不停的scaling up呃，呃比如说从左到右是scaling up。

Training computer，从上往下是scaling up，这个呃model size我们可以看到就是我们的呃不呃，从横轴呃往右竖着往下的话，我们的model s我们的生存能力会得到逐步的提升。

当然右下角是最好的典型case，就可以看到这个脑电波图对我们不停的去呃，训更久的model啊，包括skating up model size，这个效果会达到呃肉眼可见的提升，对啊。

最后我们这边也做了一些呃zero shot generalization，当然这是一个初步的实验，我们可以在呃一些class condition的啊，上训好的一个VR的全ANSFORM嘛。

在不通过任何的微调的基础上，去泛化到一些生存的任务上，包括一些implanting or painting，和一些class condition editing，这是一些初步的一些实验对。

然后我我总结一下，就是说我们使用了一个多尺度自回归的范式，和基于这个next scale prediction的这样呃，构建了一个全新的生成框架，为视觉的自回归算法提供了一种新的思路。

对第二的话就是VR模型的skin law和zero shot，zero shot转ALIZATION实验验，证，来，来，就是来学习大语言模型所具有的一些优秀特质，对第三点的话。

是我们视觉自回归模型的一个性能突破啊，使用这种典型的GBT风格的次回归的呃，呃就是方法在图像呃生成中，首次超过了这种强大的这种debution model，包括DIT，最后就是因为呃就我们开源了。

就是啊啊就是这个VR的所有的代码，包括v q to ganization和这个呃，呃就是auto aggressive model的这种训练，就来推动这个事啊，就是离呃，离散空间上表示的这种。

视觉智慧规或智慧规范式的这种学习的进步，因为我们知道，就现在VAE或者VQVAE的这种社区啊，其实做的不是很好对，所以我们希望推动这个离散的空间，这个表示的这样的一个呃社区的优化。

可以看到我下面给了个示意图，我们一张图从cost to refine的时候，申请的时候逐步变得高清哦，这是一个在离散空间上去做微觉，就呃visual to gressive。

也就视觉智回归的这样的一个demo对，然后从一开始一个token，到后面的一个1616的token对，然后我们也对比了，就是一个VR和AR和diffusion，以及master get方法的一些比较。

可以看到就是说AR本质上是这种next token，Predict，prediction的话，学习数据内部的某种分布或秩序，那文本它天生是从从左到右的这种因果顺序，从而达到了数据和算法上的一致性。

催生了AIM的这样的一个极大的成功，但是图像或者图片并不难，并并不这样，图像自上而下逐行扫描的顺序，其实并非图像的这种最自呃最自然的顺序，所所以我们感知啊，图就是我们看图像或者看绘画呃。

我们绘画的时候是按照这种由粗到细，由低频到高频的逻辑顺序，这是比较合理的，因此VR观测到了更好的一个呃，一个性能和更合理的生育速度，更完备的这个scanning law对，然后我们也OAR发。

克服了一些AR图像生成一些泛化问题，比如说根据图像的下半部分，来补全的一个上半部分，因为他在训练的时候没有根据嗯，没有没有没有这样的setting对，然后我们也和diffusion model做了对比。

可以看到VR的noisy的方方式更加直观，可解释，因为它是一个模糊到清晰，低频，低频到高频的这样一个过程，第二就是diffusion呃，你diffusion的话就是可以做更多的一些粉呃。

就是呃就是呃distribution的一个呃拟合对，那VR的话它的学习会比diffusion会更加高效，因为它只需要大概17的epoch对，然后和LM类似啊，VR的话是一次向前同时训练所有的事件铺。

但是diffusion的话是每次训练一个time time time step对，所以的话就是说呃VR的话，同和呃和DEVISION都是这种呃多部REFINN的机制，然后修复过往时间不的错误。

但是AR的话生成之后他没有办法ref对，在这样的一个框架下，可以看到就是呃，VR和AR和diffusion和must get it，然后我们来看一下master get的区别。

而VR的这种从cost to refine这种呃方式，have的schedule更加直观和解释，通过小尺度的大尺度，然后得但是must get it是使用贪心的算法思想。

然后VR和diffusion的话都允许这种MARI呃，呃就是mari staff的refine，来修复过往时间步的错误，但must get it是不难对，然后VR和musket都啊有些类似的啊。

就是像就是它的一个速度是是很相近的，但是VR的话更加接近language model，会啊对未来的一个LANGU呃，就是language model的系统一会走走向了更近的一步。

同样的就是我们把我们的一个demo呃呃也开源了，包括model和呃呃checkpoint也开源，到目前为止，大概现在已经有3700个呃，github star对，可以看到就在我们开源之后之后。

以呃呃一个月其实就已经啊涨了啊，就是就是呃GITHUB上涨的非常多，对这块是一个二维码，大家可以关注扫描就是对，然后另外就是我呃VR开源之后，得到了非常就是呃，就是领域内的很多专家的一些关注。

他们会给我们发邮件，或者是啊通过呃各种方式联系到我们，希望去关注我们的嗯，去VR的下一步对，那后面的话我也会介绍，就是我们VR的话，就是说现在也在也在follow。

这个最新的这个t to i的model，并且我们希望把model size sc进到更大。

对，然后最后一个section的话，我介绍一个我们未来可能会做的一些呃，一些工作，包括text to image，包括text to，可能text video包括一些啊，就是我们要走向。

因为基于图NOZATION走向了未呃，未来统一的这样的mari modity model，对，然后我我们我们从现在的一个呃，呃就是视觉生成到一个多模态的，这样的一个智能来看的话。

就是呃语言模型目前已经能够去做深层和理解，但是视觉这块其实看可以看到，其实它已经分分的比较远了，包括就是嗯就是啊WI距understanding和VIDEGENERATION。

现在都是不同的model来做，对，现在微卷understanding的话，更多的是一些基于language model的语言模型啊，多模态语言模型。

我VIDEGENERATIONAL更多是通过diffusion model。

这里也列了一些代表性的一些工作，包括就是啊像上面是典型的一些语言模型，lama呀，或者GBT系列或者全区的呃，比较早期的卷曲的序列对，然后呃可以看到就是但是视嗯嗯视觉这块呢。

其实现在有一些出现了一些统一的工作呃，相走向统一的工作，像email或者是next e p t，它它是把diffusion model和language model呃，连接在一起来做的对。

然后包括呃就是呃左边的话就是一些啊，多模态的一些理解类的一些工作，包括g p four v或者larva对，比较早期的话是flamingo对，然后我们在想。

就是说有了这样的一个统一的TOGANIZATION之后，那我们其其实走向统一是一个必然的趋势，我们在理呃，呃在一个离散的空间上可以做去COCHIN对。

包括这个next token prep prediction，或者是呃嗯next scale prediction，可以通过通过ANIZATION的方式呃，就是呃就是就走向统一对。

然后我们可以看到就是最新的GPFO，它是可以做到类一模代的模态的模呃，就是类的呃MODITY的这种输入和另1MODITY的输出，可以看到它生成图像已经非常丝滑了，大家推测它可能是第一个或者是任意模态的。

Tonization，可能是离散空间上的一些表示，从而的话他能够做到一个啊统一的这样的，一个统ALIZATION上呃，一个多模态的生成对，这是我们能看到的一个呃。

一个疑似的这样的一个证据对，那另外一个呃，就是说最近的那个meta发布的一个TRAMON，对哦，他就是第一呃，应该是我们能看到的第一个在一个PRETRAIN阶段。

它不再是在language mode做next token prediction，而是对视觉和language mode分别做了token，来谁选之后，分别做这个next token position。

这个next token的话，包括图像token或者文本token去COCH，那它训出来的这种语言模型啊，就或者动态模型不仅具有语言模型能力，还具有生成模型的能力，方法非常简单。

就是比较就有点就是呃就重剑无锋的这种感觉，对可以看到右右边这个demo，它其实能在对话中生成图像，也能理解图像，从也能做到自呃自然呃语言的生成和理解对，基于这些，我们就在想。

就是说既然我们哦有了就是刚开始说的，就是有了TOIZATION之后，这个TOKIZATION可呃如果是离散的，那么它就能够language model cochin，然后join the train。

然后去达到一个更高的天花板，当然前提是呃我们算力是非常非常足够的，因为CHAMBON这个实验它其实呃第一个实验的话，大概3B还是7B的model，大概需要用呃，大概需要用1000块呃。

呃HH100对，然后最大的model的话用了4000块H100对啊，具体时长时长是没有啊，没有透露对，然后所以我们可以看到未来多多模态模型嗯，或者这种统一的模型走向这种离散的，TONIZATION的呃。

这种呃这种PRETRAINING是一种，我感觉是一种必然的一种啊一种趋势，它在未来也许能达到一个像纯生成上，理解上能达到最最优的，同时能在深层上能够比肩，diffusion这种离散的啊。

diffusion这种连续的这种表示对，这是我个人的一些看法对，然后呃我的分享就到这了，对谢谢大家，然后对好啊，我们感谢这个呃姜毅老师非常非常精彩的报告，我们还是留一点点QA的啊，好的。

好谢谢谢您的分享，就是我有一个稍微偏技术细节一点的问题，就是您刚刚说那个呃那个VR是呃，每个scale都是每一个skill是那个并行去预测的，但是transformer里面呃。

像gt这种一般都是预测下一个token，就是我不太清楚这个并行去输出啊，多个token这个是怎么做到的啊，其实这个就是类似class token，你去直接去预测它，并不是说next token。

Prnext token，PREDIC个选去做的，就是像BERT这种就是呃多个token并行的事物，它们之间可以相互看到，并没有存在着上下文的这种前后关系，对。

也是说在输出的时候是加了类似于query token，或者mask token这种对你可以这么理解对，但在时间上它是一个cos的，对哦行行好，谢谢好，那我们还有一个问题的时间，嗯老师你好。

我之前我有个问题，就是说VAR，那它相比于LDM它一个显著的区别，就是他把那个图像建模成了一系列那个嗯，不同尺寸的这个token之间的联合分布，而LDM是在空间图上的，它那个token之间的联合分布。

那就是在这样嗯不同尺度情况下，就是说传，比如说control net的那种谷歌图的引导控制生成，我们在这种不同尺度下的嗯，引导的话就有有这方面的探讨吗，呃嘶呃其实是有在VR出来之后。

有个有有有一个follow up的工作，呃是是是有的，我我我是我发现了那个有一些基于这个VR，做一些control net，或者是做一些editing相关的一些工作，呃相呃会后的话我可以发你看一下对。

但不是我们所做的，好的呃，我我们会有中场休息吗，没有是吧啊哈没有，我们要不就就继续吧啊我们就继续吧，好我们再次感谢呃姜毅老师精彩的报告，呃，我我们现在时间嗯，那好最后一个问题。

最后一个问题真的最后一个问题，老师我想问一下，就是因为您刚才我看刚刚听您讲那个VR，我感觉非常非常的那个呃，就是特别特别的感觉有价值，因为他这是在那个次回归式建模上呃，感觉是大概是击败的fusion。

感觉特别是像DIT这种模型，感觉还是特别特别有前景，然后老师我想问一下，就是你后面有没有考虑在这个视频生成方面，去进一步的去探索你这个VR的这个架构，对呃是这样，就是我觉得呃就是我觉得你说的非就是是呃。

是我们正在呃下一步可能要做的一个方向对，因为长视频生成是大家目前比较关注一个问题，就是呃呃就是目前长视频的话，那可能token序列会很长，也没有办法再塞到一个。

就是即使你可能用sequence Pdd的方式，用几千块卡去去做，但是可能有些有些场景下，你可能需要需要生成，有几个小时或者更更长视频，这种情况下，你就可以通过一些AR或者是呃这种方式来做。

会更加或者VR这种方式来做，或language model方式来做，会更加make sense，对嗯嗯嗯嗯嗯好。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/803316.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

P12-AI-in-Healthcare---爱可可-爱生活---BV1jo4y1d7R6