当前汽车行业内流行着一种新的提法:“AI定义汽车”。同时,不少人认为,现在汽车行业正迎来从“软件定义汽车”到“AI定义汽车”的新拐点。那么这个拐点的标志就是AI大模型上车。目前,自动驾驶和智能座舱是AI在汽车领域应用的两大主要场景。
从一定角度上来说,智能汽车的下半场竞争,便是AI与智能座舱以及智能驾驶的融合之战,看谁能够率先完成深度融合,大幅提升功能体验,谁就有可能率先拿到进入决赛的“入场券”。
在此次的北京车展上,很多车企也都提到了他们正在应用大模型。不过,目前所谓AI大模型上车,其实大模型并没有在车端运行,还是通过云端的大模型来给车端赋能。在智能座舱领域,车载语音助手和多模态交互是应用比较多的两个领域:
主机厂
1、ink data-widget="link" data-label="蔚来" data-link="https://auto.qq.com/h5/select.html/?qnShowType=1#/vehicle?brand_id=266&source=article_underline_word" data-machine="pseudo_tag_insert_word">蔚来 ink> —— NOMI-GPT
2024年4月12日,蔚来 NOMI GPT 端云多模态大模型正式上线,并同步对搭载Banyan·榕智能系统(比如,ET5、ET7、ES7等)的车型陆续开启推送。
NOMI GPT是蔚来为NOMI量身打造的端云多模态大模型,包括自研的端云融合架构、多模态感知、认知中枢、情感引擎、记忆能力和NOMI GPT Agents等。
序号
NOMI GPT技术架构
作用
1
端云融合架构
使得NOMI GPT能够高效地在车端和云端之间进行数据交互和计算,确保了信息的实时性和准确性。
2
多模态感知
可以通过图像、音频、车身传感器等多种感知方式,实现对车内外环境的全方位感知,为用户提供更加个性化、智能化的沟通和交互服务。
3
认知中枢
负责处理和分析用户输入的信息,理解用户的意图和需求,从而做出恰当的响应。
4
情感引擎
是实现拟人交互的关键,通过与用户的长期沟通与陪伴,NOMI能够记忆、学习,实现有个性的成长,能够识别用户的情感状态,根据用户的情绪变化调整交互方式,使得车辆更加贴近用户的情感需求,实现和用户情感的共鸣和传递。
另外,情感引擎的引入,甚至可以让NOMI拥有了独特的人设,包括性格、三观、梦想等。
5
记忆能力
NOMI拥有短期记忆和长期记忆的能力,短期记忆使得NOMI能够记住用户最近在聊的话题以及之前提到的人和物,而长期记忆则让NOMI能够记住用户和家人朋友,以及用户的习惯和偏好,为用户提供更加个性化的服务。
6
NOMI GPT Agents
包括NIO Agents, User Agents, 三方Agents;能够灵活调用第三方API,扩展车辆功能边界,丰富用户服务选择,实现蔚来产品、服务、社区的全域贯通。
其中,认知中枢、情感引擎和端侧多模态感知是NOMI升级后的的三大核心技术架构,配合数十亿级的参数模型、毫秒级的响应速度,赋予了NOMI在感知、认知、决策等方面强大的复杂逻辑推理能力,进而具备了能与用户进行开放式问答的交互能力。
目前,NOMI GPT可以让用户体验到:大模型百科、无限趣聊、魔法氛围、趣玩表情、用车问答以及AI场景生成在内的多项全新交互体验。
2、ink data-widget="link" data-label="小鹏" data-link="https://auto.qq.com/h5/select.html/?qnShowType=1#/vehicle?brand_id=297&source=article_underline_word" data-machine="pseudo_tag_insert_word">小鹏 ink> —— AI天玑系统
在2024北京车展上,小鹏举办“九冠王 AI定义再进化”主题发布会,宣布AI天玑系统全球首发,将于5月20日将全量推送覆盖小鹏 X9、G6 、G9 、四款车型所有的Pro和Max版本。
大模型应用
简单说明
AI天玑系统
AI智驾
感知大模型
2K纯视觉占用网络大模型量产上车,用超过200万个高精度网格重构世界,能清晰识别动、静态障碍物的每一个细节。
规控大模型
引入基于神经网络的规划控制大模型XPlanner,具备长时序、多对象、强推理的特点。
AI座舱
生活助理—— AI小P
能通过个性化组合100多项座舱功能,为用户提供贴心管家式服务,实现精准预测、顺畅沟通及准确执行用户需求。
人机共驾 ——AI保镖
通过升级SR感知能力,能够将场景感知范围扩大至1.8个标准足球场大小,可精准识别50+个目标物。通过哨兵模式,可做到24小时在线记录,提前预警潜在风险。
出行助理 —— AI司机
通过AI代驾和AI泊车,为用户提供更便捷的智能出行体验。其中,AI代驾功能基于强大的自主学习能力,能够在用户手动驾驶时精准记忆行驶路径。仅需一次学习,系统便可生成定制化的驾驶路线,为用户提供覆盖全程的智能辅助驾驶体验,每个用户最多可选择10条路线,每条路线最长100km。
小鹏汽车AI天玑系统
3、理想 —— Mind GPT
2024年3月28日,宣布,Mind GPT已通过国家《生成式人工智能服务管理暂行办法》备案并上线。理想汽车成为首个通过该备案的自研大模型的汽车厂商。
为Mind GPT 的首搭车型。理想汽车从0到1构建了Mind GPT的原始基座模型。该模型拥有规模庞大的高质量、多样化训练数据,总量超过3万亿Token。
Mind GPT属于多模态认知大模型,采用自研TaskFormer神经网络架构,基于用车、娱乐和出行等场景使用SFT、RLHF等技术进行训练,让Mind GPT 除了具备强大的语言理解、知识问答和文本生成能力外,还具备非常强的逻辑推理、记忆网络和用户语言界面生成能力。
Mind GPT根据理想汽车的重点应用场景,量身定制了覆盖111个领域、超1000种以上的专属能力。在 Mind GPT 的加持下,让用户拥有了用车助手、娱乐助手、出行助手与百科老师。
理想汽车全自研多模态认知大模型
大模型应用
简单说明
能力支撑
Mind GPT
用车助手
有关车辆操作、状态查询或故障诊断的任何问题,都可以由理想同学提供专业解答。
娱乐助手
日常使用时,理想同学则是了解最新资讯的娱乐助手,随时联网查询时事新闻、明星动态、热门影视和歌曲,并直接调用车端相关应用播放回答中所提及提到的影视和音乐。
出行助手
当家庭出游时,理想同学化身为出行助手,为家人提供出游灵感,规划行程,在新增的美团应用中搜寻吃喝玩乐好去处,其推荐地点和路线还可以直接进行导航。
百科老师
Mind GPT 的知识储备涵盖自然科学和历史文化全领域,并随着时间飞速成长。从孩子们的十万个为什么,到大人们好奇的不同事物,它都可以为你解读,它甚至可以帮你来指导孩子的作文、回答数学题。
4.ink data-widget="link" data-label="广汽" data-link="https://auto.qq.com/h5/select.html/?qnShowType=1#/vehicle?brand_id=356&source=article_underline_word" data-machine="pseudo_tag_insert_word">广汽 ink> —— 广汽AI大模型平台
2023年8月8日,广汽正式推出AI大模型平台,依托该平台打造的首个量产大模型座舱将率先搭载在上。
广汽AI大模型平台包括数据层、AI中台层、模型层和应用层四大部分。
最底层的数据层是以海量的用车和研发数据集为基础。其中,用车数据包括汽车感知数据、驾驶行为数据、多模态座舱数据等。首先,将底层的将结构化数据汇聚到AI中台层(比如,模型底层能力库、主流训练框架、识别调度系统、并行推理系统等);其次,再通过中台训练形成多种特定场景模型,包括视觉大模型、NLP大模型、多模态大模型、专用大模型等。最后,平台可以根据最上层应用的需要,灵活调用多个模型,从而获得最优的推理结果,让应用服务精准、高效运行。
广汽AI大模型平台框架
基于广汽星灵电子电气架构的原子化服务能力,广汽AI大模型平台与车端能力和云端生态深度融合,让AI大模型平台成为全场景应用的入口,重塑智能汽车场景交互范式。目前,广汽AI大模型平台的主要场景应用有:语音交互、用车体验和AI超级大脑。
大模型应用
简单说明
广汽AI大模型平台
语音交互
运用车端本地推理能力和云端混合模型技术,实现精准的上下文语义理解。基于环境和情绪状态感知,AI大模型平台能更好地理解用户意图,实现更深层次的个性化和“类人”的交互。
用车体验
基于该AI大模型平台将赋能移动出行体验,覆盖全场景用车服务,更深一层为用户解决旅途中的难题。
AI超级大脑
广汽AI大模型平台还具备强大内容生成与计算能力,让智能座舱成为解决复杂问题的超级大脑。
广汽AI大模型平台在其它领域的赋能:广汽AI大模型平台的应用不仅可以应用到座舱,也可以赋能智能驾驶,它将进一步提高智能驾驶的感知能力,提升智能驾驶的安全性和可靠性。另外,大模型平台还可以应用到正向研发领域,将促进软件开发、虚拟验证、仿真测试等环节的效率,加快智能汽车迭代升级。在数字化领域,大模型将提升多模态数据的挖掘能力和效率,结合海量数据和大量案例,为智能汽车提供智能诊断、健康预测的能力,建立全生命周期健康专家系统。
科技公司
1、华为 - 千悟引擎大模型
2024年4月24日,华为举办了华为智能汽车解决方案发布会,发布新品牌“华为乾崑”,该品牌定位智能汽车解决方案品牌,带来乾崑智驾、乾崑车控、乾崑车云、鸿蒙座舱四个方面的十大新品。
其中,新一代鸿蒙座舱搭载了千悟引擎大模型。该模型以华为云盘古大模型、MindSpore异思计算框架和昇腾AI基础硬件平台等核心技术为基础底座。同时,联合鸿蒙视觉和晓译语音能力,打造有情感、会思考的语音助手,给用户提供深度个性化服务。
千悟引擎技术架构
比如,用户可以通过千悟识人技术、小艺语音助手精准识别家庭成员并让它提供个性化服务。看懂手势、复制声纹、识别车内信息标识,实现真正的无感交互。
千悟引擎技术架构
简单说明
千悟引擎大模型
鸿蒙视觉感知功能
小艺语音能力
车载传感
华为智能汽车解决方案BU CEO 靳玉志在近期的发布会上对外表示,接下来将有7家车企的10个品牌会采用乾崑解决方案。包括东风旗下/,旗下/,广汽旗下,旗下/享界,赛力斯旗下,旗下智界以及旗下的新品牌。
2、百度 —— 文心一言
2024年3月25日,汽车在北京举办汽车AI技术大会——AI DAY 2024。在智驾方面,发布了百度Apollo自动驾驶视觉大模型VTA(Vision Takes All),大幅升级包括动静态检测、时序跟踪、实时建图、场景理解等能力。
作为极越纯视觉智驾方案的重要组成部分,OCC(占用网络)感知模型对障碍物的感知范围和精度大幅提升。新增的OCC 3D地图彩蛋令用户通过车机屏幕可以清晰看到汽车机器人眼中的世界。
自动驾驶视觉大模型VTA
2024年4月22日,百度Apollo发布了全新升级文心一言赋能的智舱大模型2.0。
智能座舱大模型2.0
智舱大模型 2.0 采用全新MoE架构,可支持本地化部署,并配套专属开发工具链,支持车企高效定制品牌特色,基于智能座舱体验打造差异化竞争力。
大模型应用
相比智舱大模型1.0,升级的地方
智舱大模型2.0
体验升级
除了理解复杂命令,AI 语音助手还能理解用户的言外之意。
架构升级
响应速度提升 300% 、调用成本下降 200%、并且实现了用户数据最少上云。
开放升级
提供专有数据训练、专属场景开发、专属资源接入,助力 OEM 构建品牌专属的大模型和特色应用。
应用案例:极越的SIMO实现了与百度文心一言的双向融合,带来更加自然、流畅和更富逻辑思考的人机交互体验。在V1.4.0版本中,SIMO可以化身为全能管家,新增基于大模型的主动推荐和用车知识自由问答,能够支持音乐推荐、视频信息问答、景点推荐等功能。极越CEO夏一平曾例举了一个形象的例子,当用户在车上和朋友聊到某个电视剧情,但想不起其中细节时,可通过询问SIMO,迅速找到该剧情并播放相应剧集。
据了解,目前包括极越、、、红旗、岚图、东风启辰、凯迪拉克等主机厂都已经宣布接入基于文心大模型的生成式对话产品文心一言,正式开启AI大模型在智能座舱领域应用的“快车道”。
3、商汤科技 —— “日日新 Sensenova”大模型
2024年4月23日,商汤科技发布全新升级的“日日新SenseNova 5.0”大模型,全面对标 GPT-4 Turbo,主流客观评测上达到或超越 GPT-4 Turbo,具备更强的知识、数学、推理及代码能力。
5.0版本大模型能力提升主要得益三个方面:
在本届北京车展上,商汤绝影首次向公众展示了面向量产的真·端到端自动驾驶解决方案UniAD(Unified Autonomous Driving)的道路测试表现,同时还带来了以多模态场景大脑为核心的AI大模型座舱产品矩阵以及全新座舱3D交互演示。
随着城区成为智驾落地的主战场,场景计算的复杂度呈指数级增长。大量的人力资源投入也只是增加有限的规则,无法应对数量无限的复杂场景和长尾路况(corner case)。基于规则的智驾方案的天花板已开始显现。端到端技术的出现开辟了一条全新的道路,开始推动自动驾驶范式从铺设大量人力转变为持续算力投入和高质量数据输入。因此,行业需要真正的端到端自动驾驶方案。
虽然业内不少公司号称自己在做“端到端”智驾方案,不过大部分端到端方案采用的是更容易落地的由感知和决策两个模型组成的 “两段式”架构,两个模型之间依然存在信息传递过滤或丢失的问题。而UniAD将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,实现感知决策一体化的真·端到端自动驾驶。
UniAD真·端到端:感知决策一体化的通用模型
UniAD道路测试表现:在无高精地图条件下,仅依靠视觉感知的实际道路测试成果。无论是复杂城市道路还是无中线的乡村道路上,车辆能高效准确地完成包括大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作,做到“像人一样开车”。
自动驾驶大模型Drive AGI:可感知、可交互、可信赖
在端到端系统基础上,商汤绝影还在本次车展期间前瞻介绍了新一代自动驾驶大模型DriveAGI,推动自动驾驶从数据驱动向认知驱动的跃迁。
在智能座舱领域,商汤绝影积极推进AI大模型赋能智能座舱,打造“座舱大脑”,即基于大语言模型的能力去控制座舱里面的各种软硬件,为用户提供更多主动式、个性化的产品和服务。
以智能座舱大脑为核心的架构
基于多模态大模型、大语言模型、文生图模型等能力组合,商汤绝影构建了以多模态场景大脑为核心的一系列全景感知、主动关怀且富有创造力的大模型座舱产品。
比如,基于「商量」大语言模型:加持AI说明书、多元SenseChat,「秒画」文生图模型赋能的产品“神笔”等等,商汤绝影正推进量产落地一系列主动关怀且富有创造力的大模型座舱产品和功能,打造有温度、更贴心的AI座舱。
应用案例:智能车舱中应用了商汤大模型技术,基于商汤端云大模型解决方案,中的“小爱同学”为车主提供智能化交互体验。
4、科大讯飞 —— 星火大模型
2023年5月,科大讯飞发布了“讯飞星火”认知大模型1.0版本。截止到目前,科大讯飞对星火大模型已经进行了四次迭代升级。2024年1月30日,科大讯飞发布了首个基于全国产化算力平台训练的讯飞星火V3.5版本。