2023最大技术潮:大模型冲击下的智能汽车

作者 |德新

编辑 |王博

0be7182827bebea81197a8e2b930faa4.jpeg

过去这年最大的技术潮,非大模型莫属。

2023年初,由ChatGPT掀起的浪花,迅速地演变成了席卷全球的AI科技浪潮。汽车行业在其中也不可避免。各大车企纷纷投入与大模型相关的布局。

  • 长城官宣成立了AI Lab,到2023年9月AI Lab已经有超过400人规模,这支团队由长城智能化副总裁吴会肖带队,并由AI Lab负责人杨继峰领衔。长城的AI Lab又称智能空间实验室。很明显长城的大模型发力的首站会是智能座舱空间。
  • 吉利在汽车研究院下也成立了类似的机构,AI智能研究部。吉利汽车集团CEO淦家阅在这年中期透露,吉利已经具备全栈自研的大模型技术。吉利自研大模型最早上车的车型,可能是马上要上市的银河E8。
  • 理想则在2023年6月份公布了大模型MindGPT,其原有的座舱人工智能助手理想同学将基于大模型打造新一代的多模态人机交互技术体系。MindGPT所展示的功能,在理想最近更新的OTA 5.0上刚刚落地兑现。

尽管由于车端算力的限制,千亿级参数规模的大模型还未被搬上车,但「BEV + Transformer」的框架在这年中几乎统一了所有厂商的智驾感知系统。无论在智能驾驶还是智能座舱上,更大规模、更为通用的模型正在替代此前多个专用小模型的格局。

「AI大模型不是普通的技术和创新,而是技术范式级的创新。」北大光华管理学院组织与战略管理系副教授王铁民在最近的一次分享中这样总结。

什么叫「范式级的创新」?科学哲学家托马斯·库恩早在1962年给了一个定义,是指「那些公认的科学成就,在一段时间里为实践共同体提供典型的问题和解答」。

简单来说,在未来相当长一段时间内,AI大模型将是很多技术问题的答案。

一、大模型上车,首先从座舱语音开始

关于大模型上车给车端带来什么,在过去一年中有很多讨论与实践。

49c27a39337c87efc7c96a57118d8a98.jpeg

腾讯智慧出行副总裁钟学丹,在近期腾讯与北大光华联合举办的「AI+出行」产业沙龙上,这样总结AI赋能下的汽车新智能:

  • 第一,它重新定义了汽车的人机交互方式;
  • 第二,明年或者在未来一段时间内,无论是高速还是城区的自动驾驶,将涌现越来越多的端到端的技术;
  • 第三,舱驾一体的趋势将加快落地;
  • 第四,汽车将变成开放的平台,将接入更多的服务和体验内容,来帮助用户解决实际的问题。

236aae321004532ba0cc49d42bc5ca97.jpeg

座舱领域,尤其是语音交互,可能是过去这年用户感知变化最为明显的领域。

钟学丹认为,当前结合大模型,语音正在发生新的变化。交互方式正从规则模式是转变为更自然的方式;交互场景,从过去单一任务的交互,转变为基于多任务的应用;座舱也正从单一语音交互向多模态交互转变。

iPhone开启了消费电子的触控交互时代,目前绝大部分消费电子的交互都是以触控为主,汽车也延续了这样的交互方式。但差别在于无论是手机、iPad还是电脑,都属于大部分时间是一个人使用的私人设备,汽车是比较少见的一对多的设备。所以,汽车当前以触控为主、语音为辅的交互方式未必是最佳方案。

理想汽车智能空间副总裁勾晓菲认为,大模型的出现让语言的理解能力迈上了一个新的高度。因此,从智能空间的角度,理想希望推动未来车内的主要交互形态,从触控为主、对话为辅,逐步向以对话为主、触控为辅转变。

因为对话式的交互,用户是完全开放式的输入,所以下个阶段行业面临的很大挑战是,座舱一端的输出也要变成开放式的——即所有的UI都会变成生成式的,UI的布局要根据用户的语言逻辑自动生成,高度匹配用户的语义。

与此同时,今天座舱应用提供的能力都是基于各个公司的垂直领域相互独立的。比如用户要去吃望京的美食,需要跨美团和地图两个应用。未来不同的科技企业都会有属于自己的Agent,它代表了各自公司的通用能力和私域能力,这些Agent可能会像人与人一样组建成社会网络。在数字世界里,Agent组成的社会网络,通过这种全新的接口形式把各家的能力联通起来。

二、大模型驱动的下一代自动驾驶

理想汽车有一组内部数据,60%的出行场景下,只有驾驶员一个人在车内。所以如果不能通过自动驾驶把驾驶员解放出来,智能座舱是无法发挥价值的。

与高度个性化的座舱服务不同,自动驾驶是极度标准化的功能。勾晓菲甚至认为,「自动驾驶一旦实现,是没有什么想象空间的,但座舱的人机交互背后有强大的生态和非常多的服务,背后有无限的想象空间。」

自动驾驶目前所处的阶段,无论从技术研发还是市场占有率上,都在高速增长。

由于城区自动驾驶功能的快速推进,「BEV + Transformer + 占用网络 + 无图化」是过去这年头部车企的主力研发方向。「BEV 上车」,以具备鸟瞰视角(Bird's Eye View)的大模型实现了多摄像头的融合感知,从而大幅提高了智驾感知的数据驱动比例。

在上一年的CVPR 2023上,还提出了UniAD的论文工作,将感知、决策、规控等模块整合到一个端到端的网络。以一个深度神经网络为基础,以提升最终的驾驶体验为目标进行端到端的优化,可以极大地提升智驾系统的开发效率。

特斯拉FSD的下一个大版本,V12也将引入端到端的网络。

钟学丹认为,过去业界在开发自动驾驶系统时,做的是感知与规划分离,这种分离的方式是不符合用户的驾驶行为和体验的。而如何实现端到端的自动驾驶全链路的模型,更多关注到最终达成更好驾驶体验的目标,是更重要的解决路径。

除了对自动驾驶端到端技术架构的影响,大模型也在帮助提升针对训练需要的海量数据标注。

在Mind GPT发布之后,李想就曾经表示,理想内部一年要做大概1000万帧的自动驾驶图像的人工标定,外包的价格大概6元到8元钱一张,一年成本接近一亿元。当使用大模型进行自动化标定,过去需要用一年完成的工作基本上3个小时就能搞定,效率提升千倍。

从车端到云端,大模型正全面推动自动驾驶的体验进化。

三、掘金大模型的挑战

除了智能驾驶、智能座舱这两大最常见的智能化领域,汽车从生产、制造、营销、服务的全链条,也可能被大模型改造。

腾讯智慧出行副总裁钟学丹提出了一些案例,比如在设计研发领域,腾讯云AI代码助手的能力已经可以帮助开发团队完成编码的编制、测试以及质量提升

通过AIGC生成的数字化营销内容,可以帮助销售团队更好地理解用户。比如在卖车的过程中,每个用户对车的需求和想法都不一样,如何为TA创造独特的内容,如何让内容的表述更好地切中潜在车主的需求,将对销售转化有很大帮助。

长城汽车AI Lab的负责人杨继峰也告诉我们,内部已经开始使用AI长做在做造型设计,并且其使用AI的作品与人工设计的作品拿来做图灵测试,目前已经很难辨认出来是否是由AI设计的。

0692afca6027f75d84f1b24a3160ae1d.jpeg

钟学丹也提到,大模型要在全产业链条上落地,目前有三大挑战,模型挑战、数据挑战以及算力挑战

算力挑战最容易理解,当前高算力的GPU对全行业而言都是稀缺资源。

HiEV获悉一家互联网巨头在年初向英伟达下了10亿美元的GPU订单,但随着对高算力计算平台的出口限制,GPU越发稀缺,尤其在去年9/10月之后,不少企业的供应链团队都在加班加点解决算力的缺口问题。

而数据挑战,源于对数据合规与数据安全的要求,尤其在自动驾驶领域,车辆感知的数据处理不当直接影响地理信息安全,而用户车内的数据则涉及隐私安全。

目前虽然通用大模型正上演「百模大战」,但对于垂直行业应用而言,其准确率仍达不到应用要求,大模型如何针对行业应用开发调教,以及对应行业训练数据的质量提升,仍任重道远。

互联网巨头们是这波「百模大战」最积极的参与方和推动者,无论从模型训练、算力建设还是数据挖掘上,他们都有丰厚的储备。

通用大模型可以帮助行业开发者快速建立行业大模型的基础。以腾讯为例,腾讯的混元大模型有超千亿级的参数规模,预训练语料超过2万亿Token。目前在腾讯云上,已经有超过300个应用接入混元大模型,用在广告、营销、游戏、社交等场景。

腾讯也对外提供大模型的一站式商店——MaaS平台(模型即服务),帮助企业快速打造专有的模型应用。在底层设施上,提供大规模训练集群和高性能计算网络,带来业界最高3.2Tbps带宽,算力性能提升3倍,为大模型训练提供智算能力支撑。在面向大模型的特殊数据场景上,向量数据库可以帮助系统在数据访问效率带来10倍提升。

不少人将2023年称为大模型元年,大模型的技术盛宴才刚刚开始,而汽车作为当前最大的消费电子单品,可能会成为从中技术获益最大的一支。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/318654.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年测试岗最新自动化测试面试题整理,干货满满

一、接口测试 1、接口测试用例的编写要点有哪些?(问法二:接口测试用例设计需要考虑哪些方面?问法三:接口测试中有哪些要注意的测试点?) 1) 考虑输入参数和输出参数的合法性&#x…

了解并使用django-rest-framework-jwt

一 JWT认证 在用户注册或登录后,我们想记录用户的登录状态,或者为用户创建身份认证的凭证。我们不再使用Session认证机制,而使用Json Web Token(本质就是token)认证机制。 Json web token (JWT), 是为了在网络应用环…

本地套接字通信

本地套接字(Unix域套接字)是用于在同一台机器上的进程之间进行通信的一种方式。它不涉及网络协议,而是直接在文件系统中创建一个套接字文件,进程可以通过该文件进行通信。 本地套接字的作用:本地的进程间通信 有关系的…

交换机01_以太网

1、交换机工作原理 交换机是数据链路层的设备,数据链路层传输的是数据帧,所以封装的是MAC头部(主要有源MAC地址和目的MAC地址) 2、数据链路层的功能: 建立逻辑连接,进行物理地址寻址,差错校验…

odoo17 | 用户界面的基本交互

前言 现在我们已经创建了我们的新模型及其 相应的访问权限,是时候了 与用户界面交互。 在本章结束时,我们将创建几个菜单以访问默认列表 和窗体视图。 数据文件 (XML) Odoo在很大程度上是数据驱动的,因此模块定义的…

C++面向对象语法总结(一)

一、类 C中可以使用struct、class两个关键字来定义一个类struct和class的区别 struct的默认成员权限是publicclass的默认成员权限是private实际开发中,用class表示类的比较多,因为涉及到封装的思想 在函数中创建的对象,都是在栈空间&#xf…

【动态规划】LeetCode-10. 正则表达式匹配

10. 正则表达式匹配。 给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 ‘.’ 和 ‘*’ 的正则表达式匹配。 ‘.’ 匹配任意单个字符‘*’ 匹配零个或多个前面的那一个元素 所谓匹配,是要涵盖 整个 字符串 s的,而不是部分字符串。 …

MySQL概述

M y S Q L 概述 \huge{MySQL概述} MySQL概述 MySQL学习笔记 引入 什么是数据库? D \color{red}D Data B \color{red}B Base(DB),存储和管理数据的仓库。 使用的各种电子产品的网页,页面中的数据都是动态的&#xf…

嵌入式系统(二)单片机基础 | 单片机特点 内部结构 最小系统 电源 晶振 复位

上一篇文章我们介绍了嵌入式系统 嵌入式系统(Embedded System)是一种特定用途的计算机系统,它通常嵌入在更大的产品或系统中,用于控制、监测或执行特定的任务。这些系统通常由硬件和软件组成,旨在满足特定的需求&…

使用SpringBoot AOP记录操作日志和异常日志

使用SpringBoot AOP记录操作日志和异常日志 平时我们在做项目时经常需要对一些重要功能操作记录日志,方便以后跟踪是谁在操作此功能;我们在操作某些功 能时也有可能会发生异常,但是每次发生异常要定位原因我们都要到服务器去查询日志才能找…

【LeetCode每日一题】1599. 经营摩天轮的最大利润(模拟)—2024新年快乐!

2024-1-1 文章目录 [1599. 经营摩天轮的最大利润](https://leetcode.cn/problems/maximum-profit-of-operating-a-centennial-wheel/)思路: 1599. 经营摩天轮的最大利润 思路: 1.对摩天轮的运转情况进行模拟, 2.遍历数组,分别计…

springcloud alibaba整合sentinel并结合dashboard控制面板设置规则

目录 一、springcloud alibaba整合sentinel二、采用代码方式设置流控规则三、结合dashboard控制面板设置规则3.1、准备工作3.2、设置全局异常处理3.3、编写测试接口3.4、结合dashboard控制面板设置规则3.4.1、流控规则设置并测试——QPS3.4.2、流控规则设置并测试——线程数3.4…