智保未来:国泰产险的 AI 网关革新之旅

在数智化转型的大潮中,国泰产险以其前瞻性的视角,全面拥抱大模型技术,在外呼、客服、内容生成等多个业务场景中实现了大模型的深度应用。

引言

在数字化转型的浪潮中,国泰产险以其前瞻性的视角,全面拥抱大模型技术,在外呼、客服、内容生成等多个业务场景中实现了大模型的深度应用。通过引入阿里云云原生 API 网关,国泰产险不仅简化了大模型的接入复杂性,还有效提升了数据安全性和成本管控能力,成为保险行业数智化转型的典范。

背景

国泰财产保险有限责任公司(简称“国泰产险”)于 2008 年 8 月 28 日在上海创立。公司注册资本 26.3 亿元,在中国东南沿海和中西部地区多个省市设有分支机构,业务范围涵盖短期健康保险、意外伤害保险、财产损失保险、责任保险等非寿险业务的各个领域。国泰产险秉持“客户第一”发展理念,全面拥抱数字化浪潮,开启“科技保险”新篇章,服务于广大家庭和小微企业个性化的保障需求,守护每一家的幸福。一直以来,国泰产险努力打造以客户为中心的科技保险品牌。公司已连续多年蝉联“卓越保险公司”、“最佳服务保险公司”、“数字化转型优秀案例”、“普惠金融优秀案例” 等荣誉称号,以细分市场的价值创新获得高质量发展和市场竞争优势。

国泰产险融合数字经济与保险产业链打造全域数据价值交付体系——“数智双驱动系统”。系统以“小前台+大中台”为战略框架思维,基于数字化运营和技术共建等机制,构建起一体化保险经营管理平台。助力国泰产险从产品开发,到理赔体验都变得简单易得,让服务更高效、保障更全面。

随着数智化转型全面推进,国泰各业务应用积极拥抱大模型,在外呼、客服、内容生成等场景均在进行大模型的接入使用。针对不同场景,国泰选择了不同的大模型及接入方式,既有自建的基础模型、又有调用外部厂商的大模型 API,如:通义系列模型、清华智谱等。

核心挑战

国泰产险在数智化转型过程中面临五大挑战:多模型统一接入、多租与认证鉴权、内容安全、成本管控、审计与风控。

  • 多模型统一接入: 在国泰的业务中,针对不用的业务场景,使用了不同的大模型,不同接入方式中请求与响应的数据结构都具有差异,在使用时需要对不同接入方式进行适配,成本极高;
  • 多租与认证鉴权: 不同的大模型供应商均需要通过 apikey 作为访问凭证,在对外提供服务时,需要控制不同用户访问大模型的权限,自建认证鉴权人力成本较高;
  • 内容安全: 大模型返回内容具有安全风险,可能出现不合规的内容,依赖可靠的检测服务对大模型的输入输出进行检测,以保证对话的内容安全;
  • 成本管控: 由于大模型的调用基于 token 进行计费,因此对 token 用量的统计与观测是十分重要的,通过 token 用量的统计能够对成本进行感知与控制;
  • 审计与风控: 在出现一些异常情况时,比如 token 消耗过多、对话内容有风险等,需要有内部审计的手段对请求、调用方进行定位以进行风险管控。

解决方案

针对国泰产险以上业务痛点,阿里云云原生 API 网关均有成熟的解决方案:

1)多模型统一接入: 云原生 API 网关支持使用统一的协议对接多种 LLM,共支持 15 家 LLM 提供商,基本涵盖多数主流大模型厂商,通过云原生 API 网关进行统一接入后,用户无需关心不同大模型请求与响应的数据结构的差异。除了协议的统一,云原生 API 网关还提供了 apikey 的管理功能,除了对大模型 apikey 的管理之外,还支持对百炼、coze 等应用平台的 apikey 进行管理,通过云原生 API 网关进行统一接入后,请求无需在 header 中携带大模型的 apikey。

2)多租与认证鉴权: 云原生 API 网关提供了包括 jwt、hmac、apikey 等多种认证鉴权方式,通过云原生 API 网关进行对接多种 LLM 后,能够屏蔽不同大模型 apikey 的差异,基于云原生 API 网关提供的认证鉴权功能,可以在不同大模型上构建一层统一的认证鉴权机制,实现对外多租,对不同消费者进行管理。

3)内容安全: 云原生 API 网关提供了对阿里云内容安全(绿网)的快速接入,能够对经过网关的请求/响应内容进行安全检测,阿里云内容安全通过了中国信息通信研究院的评估,达到功能要求、风控技术、性能要求、产品自身安全功能要求等四类指标的能力要求,能够为 LLM 对话内容提供安全保证。

4)成本管控: 与传统 API 基于调用次数计费不同,在 AI 场景下通常基于请求的 token 使用量进行计费,因此对于请求 token 用量的统计与观测成为刚需,云原生 API 网关提供了完善的 AI 可观测体系,提供了 metric、log、trace 三个维度的观测功能,基于 AI 可观测功能,用户能够统计每个请求的 token 用量、每个模型的 token 用量、每个消费者的 token 用量等不同维度的 token 用量统计,从而对成本进行感知与管控。

5)审计与风控: 云原生 API 网关提供了详细的跟踪机制提供审计与风控功能,例如当对话内容有风险时,可以定位到是哪一个请求、哪一个消费者以及哪些关键词触发了风险检测,基于审计结果,用户可以及时对风险进行处理,例如对消费者进行 token 限流、吊销访问权限等操作。

技术优势

与其他网关相比,云原生 API 网关主要有以下技术优势:高性能、高可用、易扩展以及高可观测。

AI 场景下,经过网关的流量有以下三大特征,是区别于其他业务流量的,分别是:

  • 长连接: 由 AI 场景常见的 Websocket 和 SSE 协议决定,长连接的比例很高,要求网关更新配置操作对长连接无影响,不影响业务。
  • 高延时: LLM 推理的响应延时比普通应用要高出很多,使得 AI 应用面向恶意攻击很脆弱,容易被构造慢请求进行并发攻击,攻击者的成本低,但服务端的开销很高。
  • 大带宽: 结合 LLM 上下文来回传输,以及高延时的特性,AI 场景对带宽的消耗远超普通应用。如果网关没有实现较好的流式处理能力和内存回收机制,容易导致内存快速上涨。

应对AI流量,阿里云云原生 API 网关基于 envoy 内核,有着天然的优势,分别是:

  • 长连接无损的热更新: 不同于 Nginx 变更配置需要 Reload,导致连接断开,Higress 基于 Envoy 实现了连接无损的真正热更新。
  • 安全网关能力: 基于 Higress 的安全网关能力可以提供 IP/Cookie 等多维度的 CC 防护能力,面向 AI 场景,除了QPS,还支持面向 Token 吞吐的限流防护。
  • 高效的流式传输: Higress 支持完全流式转发,并且数据面是基于 C++ 编写的 Envoy,在大带宽场景下,所需的内存占用极低。内存虽然相比 GPU 很廉价,但内存控制不当导致 OOM,导致业务宕机,损失不可估量。

在云原生 API 网关自身的可用性方面,云原生 API 网关通过多可用区容灾、弹性扩缩、故障自愈等,免去了自建基础设施的可用性问题,提供了 99.95% 的 SLA 保障率。

在 AI 生态方面与扩展性方面,通过 Wasm 插件机制,云原生 API 网关在插件市场中提供了多达 15 种 AI 相关插件,覆盖了大模型代理、敏感数据检测、内容安全审计、自定义统计、Token 限流等场景,实现了各种 LLM 的接入以及阿里云内容安全、redis、向量检索服务等云服务的集成,通过灵活组合这些插件,既能满足我们在大模型场景下的基本需求又能根据不同细分业务场景设置不同的管控策略,并且插件市场还支持上传自定义插件,网关的可扩展性大大提高。

在可观测性方面,阿里云原生 API 网关实现了与云监控、日志服务的集成,提供了开箱即用的多维度看板,能够支持业务监控和故障定位,用户可以借助云监控/日志服务的查询分析能力,按需自定义看板和告警。

Token 与请求次数统计

结语

通过阿里云云原生 API 网关在国泰落地,目前国泰所有访问大模型的流量均通过阿里云云原生 API 网关进行代理,在日均消耗近亿 Token 的同时,做到了对每个请求都进行敏感信息过滤,不论是输入大模型的内容还是由大模型产生的内容都进行了全面审计,大大降低使用大模型的数据安全风险。通过网关的 AI 插件,国泰产险做到了每个 Token 都知道是谁在用,用在哪个场景,给后续分析和成本管控提供了坚实的数据支撑。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/850980.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

转载:【AI系统】计算之比特位宽

在前面的深度学习计算模式里面我们提到了模型的量化操作,通过建立一种有效的数据映射关系,使得模型以较小的精度损失获得更好的模型执行效率的收益。模型量化的具体操作就是将高比特的数据转换为低比特位宽表示。本文我们将 在前面的深度学习计算模式里面我们提到了模型的量化…

转载:【AI系统】AI芯片驱动智能革命

在整个 AI 系统的构建中,AI 算法、AI 框架、AI 编译器、AI 推理引擎等都是软件层面的概念,而 AI 芯片则是物理存在的实体,AI 芯片是所有内容的重要基础。 本系列文章将会通过对典型的 AI 模型结构的设计演进进行分析,来理解 AI 算法的计算体系如何影响 AI 芯片的设计指标,…

【AI系统】AI芯片驱动智能革命

在整个 AI 系统的构建中,AI 算法、AI 框架、AI 编译器、AI 推理引擎等都是软件层面的概念,而 AI 芯片则是物理存在的实体,AI 芯片是所有内容的重要基础。 本系列文章将会通过对典型的 AI 模型结构的设计演进进行分析,来理解 AI 算法的计算体系如何影响 AI 芯片的设计指标,…

通义灵码,让梦想照进现实更快一点

2024 年起,通义灵码已先后与北京、上海、西安、南京等城市十余所高校联合举办高校训练营、路演&巡展、AI 通识课等,帮助数十万名同学打开“AI 时代下的开发者成长指南”。 接下来,通义灵码还将与阿里云云工开物计划一起,向超过 100 所高校师生分享通义灵码背后的技术解…

转载:4【AI系统】AI系统概述与设计目标

AI 系统全栈架构 通过对 AI 的发展、以及模型算法、硬件与数据的趋势介绍,我们已经了解了 AI 系统的重要性。本文将介 AI 系统的设计目标、组成和生态,让读者形成 AI 系统的知识体系,为后续展开每篇文章的内容做好铺垫。 AI 系统设计本身需要各个环节通盘考量,无论是系统性…

chrome扩展插件

调用本地WPS 问题:

转载:【AI系统】为什么需要 AI 编译器

本文将通过探讨 AI 编译器的黄金年代以及传统编译器与 AI 编译器的区别等角度,来介绍为什么需要 AI 编译器。 AI 编译器黄金年代 图灵奖获得者 David Patterson 在 2019 年 5 月发表了一个名为“计算机架构新的黄金年代”的演讲,他通过回顾自 20 世纪 60 年代以来的计算机架构…

转载:【AI系统】LLVM 后端代码生成

上一篇文章主要讲了 LLVM 的前端和优化层,前端主要对高级语言做一些词法的分析,把高级语言的特性转变为 token,再交给语法分析对代码的物理布局进行判别,之后交给语义分析对代码的的逻辑进行检查。优化层则是对代码进行优化,比如常量折叠、死代码消除、循环展开、内存分配…

转载:【AI系统】CUDA 编程模式

前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析,结合英伟达 CUDA 实现对 SIMD 和 SIMT 进行了对比,本文将以英伟达 GPU 为例,讲解 GPU 的编程模型。 GPU 编程模型 CUDA 英伟达公司于 2007 年发布了 CUDA,支持编程人员利用更为通用的方式对 GPU 进行编程,更好地发挥…

转载:【AI系统】AI 芯片的思考

为了满足数据中心算力需求,谷歌在 2014 年开始研发基于特定领域架构(Domain-specific Architecture,DSA)的 TPU(Tensor Processing Unit),专门为深度学习任务设计的定制硬件加速器,加速谷歌的机器学习工作负载,特别是训练和推理大模型。 David Patterson(大卫帕特森)…

NRF52810超低功耗SOC蓝牙芯片支持ANT和2.4 GHz私有协议NRF52832低成本方案64Marm

nRF52810 系统级芯片(SoC) 是 nRF52 系列的基准成员,是NRF52832的低成本方案。它满足了将高级低功耗蓝牙 功能和协议并发性引入应用的挑战,其价位使得向应用添加低功耗蓝牙连接极具吸引力。它是不太复杂的应用的理想选择,也是大型应用中的低功耗蓝牙 连接处理器的理想选择…

转载:【AI系统】谷歌 TPU 历史发展

在本文中,我们将深入探讨谷歌的 Tensor Processing Unit(TPU)的发展历程及其在深度学习和 AI 领域的应用。TPU 是谷歌为加速机器学习任务而设计的专用集成电路(ASIC),自首次推出以来,TPU 经历了多次迭代升级,包括 TPU v1、v2、v3 和 v4,以及 Edge TPU 和谷歌 Tensor 等…