引言:
近日,阿里云可观测产品家族正式发布云监控 2.0,隶属产品日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 迎来重磅升级。借助全新升级的一站式全景接入、统一观测图谱以及 AI 增强的跨域智能洞察能力。同时,为了帮助企业与开发者更从容地面对 AI 创新,阿里云正式发布开箱即用的 AI-native 应用全栈可观测方案。此外,阿里云推出可观测中文社区等系列新举措,让开发者能够更好地享受可观测技术的普及与应用。
随着 AI-native 时代来临,企业可观测性(Observability)需求愈发旺盛与丰富,在服务万家企业过程中,阿里云看到以下几个核心可观测诉求:
首先,Cloud-native、AI-native 应用不断演进,数据处理方式与技术架构发生天翻地覆的变化,这导致应用生成的日志、指标和链路等可观测数据,数据规模指数级增长且结构复杂度剧增。如何高效地收集、存储、分析并从中提取有价值的信息,成为可观测性的首要挑战。
其次,应用部署所需的基础设施愈发多元,其中包括云服务、边缘计算、混合云环境等,异构环境集成与管理增加了可观测性的难度。企业需要跨平台、跨语言的可观测性方案来观测与管理这些分散的应用。
再次,用户体验、应用性能、资源管理成为行业竞争力的焦点,如何实现数据的实时处理和分析,以及基于 AI 的智能预警与根因分析,提前发现并解决问题,成为企业积极探索的核心场景,实时性与智能化的可观测诊断能力成为刚需。
最后,维护高水准的可观测性体系往往伴随一定 IT 成本,在保证运维效率与质量的同时,如何合理控制成本,也是运维团队需要面对的问题。
基于以上挑战,阿里云可观测家族带来众多产品升级,旨在帮助企业在 AI-native 时代以更智能、更高效、更低成本的方式构建全栈可观测体系,为业务稳定性与安全性保驾护航。
应用实时监控服务 ARMS - 端到端全链路应用可观测再进化
面对越来越复杂的应用架构,越来越严格的用户体验要求,运维团队期望有更高价值的端到端全链路可观测解决方案,从而带来直接的业务价值提升。围绕「应用可观测」这一核心业务挑战,应用实时监控服务 ARMS 从四个方面进行全面升级:
(1)覆盖更丰富的应用开发语言与应用形态
在终端应用可观测方面,ARMS 用户体验监控(RUM)实现主流终端类型的 99% 覆盖,包括移动端 APP、小程序,PC 端应用、Web 站点等。在服务端应用可观测方面,ARMS 应用监控(APM)持续深耕 Java 应用场景之外,本次正式发布自研 Golang Agent 与 Python Agent,在数据采集丰富度、数据分析能力等方面,远超行业相关开源项目及工具。
(2)更具业务价值的端到端全链路打通
长久以来,用户终端、网关、服务端的全链路打通一直是故障定位过程中的难题。本次 ARMS 产品能力升级,RUM 终端应用支持全链路追踪能力,并打通常见 Ingress 网关,包括应用型负载均衡 ALB、MSE 云原生网关和 Nginx Ingress。实现从终端到网关,再到服务端的全链路追踪能力。同时,调用链全面拥抱 OpenTelemetry 生态,遵循标准的开源协议和数据格式,方便企业进行集成与二次开发。
(3)更加高效的数据链接
随着可观测数据类型愈发丰富、应用场景愈发复杂,实现跨观测对象的数据关联成为挖掘更多数据价值的关键。ARMS 在实现指标(Metric)、链路(Trace)和日志(Log)关联查询分析的同时,这次以应用为中心,向上链接用户体验、向下链接基础设施的完整数据图谱,真正做到“只要有链接就能关联查询对应的可观测数据。”
(4)AI 加持提效故障定位与根因分析
AIOps 成为今年众多企业积极探索的应用领域,ARMS 将原有的单应用异常巡检和根因定位全面升级,范围扩大到所有关联应用,做到将一定周期内所有关联的相同根因的告警进行收敛,并实时计算出告警对象及关联关系,即时提供全局维度影响面分析与最原始的根因报告。此外,ARMS 提供 Copilot 形态,通过生成式 AI 来帮助运维工程师自助分析问题根因的细节性信息,并提供问题修复、优化建议。
云监控助力构建云产品统一观测与洞察
随着越来越多的企业“上云”,可观测成为企业高效使用和管理云资源的重要手段。阿里云云产品可观测能力进一步升级,帮助企业解决建设云产品可观测能力上面临的数据孤岛、难以关联分析、灵活性与实时性不足、缺乏专家经验等挑战。具体来讲阿里云云产品可观测能力升级包括:
(1)一站式接入云产品指标、日志、事件、链路等可观测数据
过往,云产品可观测数据分散在不同产品中,数据接入、分析、告警需要在不同产品中切换配置,底层存储也没有打通。今年云监控推出统一接入中心,实现云产品日志、指标、事件、链路的一键接入,大幅提升云产品可观测数据的接入效率。针对于云上弹性伸缩出来的核心工作负载,无需手动进行接入配置,基于统一接入中心的自动服务发现能力能够实现快速的可观测时间接入。
(2)基于统一存储与观测图谱,实现云产品与可观测数据的纵横关联分析
在日常运维中,对可观测数据进行关联分析是异常分析场景下进行根因定位的重要手段。“数据没有放到一起”、“观测对象语义模型不同统一”、“观测对象的关系没有自动建立”是工程师进行关联分析的三大阻碍。云监控在云产品接入后会将数据统一存储在阿里云可观测数据平台日志服务 SLS 中,基于定义好的观测图谱统一观测对象的语义模型,并基于云服务部署和调用关系自动构建云产品直接的关系,实现更高效的关联分析,从而更快定位根因。
(3)更多的云产品垂直洞察能力与更全面的可观测分析能力
CloudLens 作为阿里云推出的面向云产品的高阶可观测分析能力,结合阿里云专家经验从可用性、性能、容量、成本、访问分析等多场景、多维度提供丰富的云产品观洞察与异常检测能力。今年 CloudLens 进一步升级,与弹性计算深度集成并即将发布 CloudLens For ECS 和 CloudLens For ACK,同时面向智算场景推出了 CloudLens For AI Infra。除了推出更多的云产品 CloudLens 能力,在 CloudLens 能力本身,我们也从整合了更多更实时的可观测数据帮助用户更深入对云产品进行洞察。
(4)灵活的数据探索能力满足更深入的分析洞察需求
开箱即用的观测能力虽然能够快速对云产品进行洞察,但缺乏一定灵活性,更多用户希望基于底层数据进行自定义与探索来实现符合自身业务特点的观测能力建设,针对于这一点,云监控内置观测分析和告警大盘的底层数据源于用户拥有完全读写权限的日志服务 SLS 存储实现,用户可以基于这些数据进行进一步加工分析,来满足自定义可观测需求。
(5)基于阿里云托管 Prometheus 实现多云统一监控
针对于多云或混合云场景,阿里云提供的托管 Prometheus 服务,完全兼容开源 Prometheus 协议和查询语法,帮助客户构建开放和稳定的多云统一监控系统。云监控与容器服务深度合作,基于 ACK One 舰队快速纳管其他第三方云厂商或 IDC 中心的 Kubernetes 容器集群,并提供基于 Prometheus 的统一容器监控能力。另外,云监控 CMS 将基于 CMN 的能力将线下设备可观测数据统一写入 Prometheus,提高对线下设备的可观测能力。
(6)领域知识加通义大模型结合的可观测 Copilot 帮助用户“用好云”
专家经验的缺失是企业对云产品进行深入可观测的重要挑战之一,随着大模型应用的进一步发展,结合大模型能力使我们在帮助用户解决专家经验缺失的挑战上有了些的解法。云监控进一步升级 Copilot 能力,通过多次 Agent 能力结合实时可观测数据、统一的观测图谱和工单和文档等领域知识,对 Prompt 增强,利用阿里云通义大模型能力辅助用户进行根因定位、智能巡检、辅助分析等多种观测场景,提升运维效率和减少根因定位时间。
打造卓越性能、高效成本、极致稳定的可观测数据平台日志服务 SLS
随着 OpenTelemetry 成为可观测数据事实标准,越来越多厂商支持兼容,推动了数据格式、采集、存储与处理的统一,同时 eBPF 等新技术的应用不断丰富可观测数据类型并增加数据量级,并在 AI 的帮助下,可观测数据分析逐渐向智能化演进。对此,日志服务 SLS 在数据可靠性增强,数据分析性能提高,压降使用成本以及智能化等方面进行了积极探索:
(1)扫描查询分析性能提升 10 倍
针对弱结构化和低频查询场景,SLS 推出扫描查询分析能力,作为 Schema on read 计算模式,通过硬扫实现数据查询分析。经过优化的数据模型和算子下推,扫描性能提升 10 倍,达到 1 GB/s 以上,显著提升查询体验。该功能与索引查询结合,针对高频字段建立索引,以减少扫描数据量和计算成本。
(2)高性能跨 Store 关联查询分析
随着全球经济发展,多地域、全球化成为企业新的业务形态。对此,SLS 推出具备高性能跨 Store 关联查询分析能力的 StoreView。用户无需迁移数据,即可实现不同 Region 和 Project 间的千亿数据关联查询,并创建统一视图进行数据可视化与分析。
(3)全面强化全链路数据处理能力
数据加工作为日志管理的重要组成部分 SLS 全面强化全链路数据处理能力。在数据写入端推出数据写入处理器,可基于用户配置的规则实现数据过滤和规整,有效节省存储空间并降低成本。其次,数据加工性能全面升级,处理性能提升至 TB 级每分钟,采用统一的管道式 SPL 语法,简化使用工作量并降低单 GB 处理成本 60%。最后,针对大数据场景,SLS 的规则消费功能在数据读出前进行数据规整,以满足下游处理引擎对数据 schema 要求,从而节约数据读出量。
(4)更丝滑的开源 Elasticsearch 兼容迁移
SLS 推出 Elasticsearch 兼容方案,解决长期使用开源 Elasticsearch 用户在迁移过程中的仪表盘与配置迁移困难问题。支持 ES DSL 查询语法,用户无需改造,即可将 SLS 作为数据存储计算层,并使用 Kibana / Grafana 进行数据可视化。根据已迁移用户反馈,相较于自建 ES,综合成本降幅可达 30% 以上。结合 SLS 扫描计算模式,进一步降低迁移后的费用。
(5)通义大模型加持多模态数据融合,实现高效智能洞察
基于通义大模型(Qwen 2),SLS 打造适用于日志与指标数据的基础模型,并解决多模态数据融合问题。借助 Umodel 系统将可观测对象之间的关联关系具象化,简化实体观测数据的获取,降低理解门槛。结合场景化垂直模型和数据关联关系,SLS 推出 NL2QL、安全分析、根因分析等智能洞察能力,进一步提升用户在日常运维过程中的工作效率和体验。
持续的开源贡献与投入,让可观测技术普惠至每个开发者
(1)积极参与国际行业标准建设,展现中国开发者风采
在 2019 年,随着 OpenTelemetry 项目成立,越来越多海内外知名企业参与到其建设中,OTel 迅速演变成为可观测数据采集事实标准。秉着“取之于社区,反哺社区”的开源精神,为了满足更多企业需求,阿里云推出 OTel 托管服务,发布 OpenTelemetry Java / Python 探针阿里云发行版的同时,积极探索 Java、Go 、Python 语言应用可观测场景最佳实践,并向社区提交了诸多贡献提案,如 Go 语言编译时注入探针,Java Agent 针对 GraalVM 支持等特性。回顾过往 6 个月,阿里云在 OTel 社区贡献度在亚太地区排名第一。
(2)iLogtail 全面升级为 LoongCollector
在参与国际行业标准建设的同时,阿里云为了帮助开发者构建统一的数据采集层,并助力打造各种上层的可观测数据应用场景,决定将轻量、高性能、高可靠的可观测数据采集器 iLogtail 进行开源。经过十年的技术积累及两年的开源建设,iLogtail 已拥有千万级安装规模,这其中包括同程旅游、滴滴出行、小红书、石墨文档等各行业标杆企业。在众多企业的共同推进下,LoongCollector 展现出蓬勃的开源生命力,持续进行功能演进与生态发展。本次云栖大会,iLogtail 焕新升级为 LoongCollector,将会全面解读 LoongCollector 发展路线图。LoongCollector 作为专为大规模分布式应用设计的可观测性数据采集 Agent 与端到端 Pipeline 解决方案,旨在以高度稳定性和效率赋能可观测领域。
(3)正式发布可观测中文社区
为了进一步帮助开发者更好的学习与掌握丰富与广泛的可观测开源项目,阿里云正式发布可观测中文社区,实现可观测相关的知识共享。可观测中文社区作为一个以“运维可观测”为核心的开放、包容、分享的技术社区,旨在聚集运维专家、开发者和爱好者,共同探讨、学习和分享可观测最佳实践与最新技术,与众多技术社区合作互助,共同探讨交叉领域的技术挑战,推动可观测领域的创新与进步。
更多企业以更低成本与门槛,构建高效便捷、安全稳定的可观测体系
目前,阿里云可观测产品家族在全球 80 余个可用区为百万企业级用户提供高效便捷、安全稳定的可观测服务,其中不乏米哈游、新东方、畅捷通、哈啰出行等行业领军企业,真正做到为千行百业的业务稳定性与安全性保驾护航。
中国茶饮连锁品牌茶百道技术总监马晓超表示“在与开源方案成本持平的前提下,应用实时监控服务 ARMS 丰富且全面的全栈观测与告警能力,使茶百道快速建立运维观测与响应能力,故障恢复效率提升 50% 以上,故障恢复耗时缩短 50%, 真正做到用可观测为业务迅猛发展保驾护航。”
智能终端产品和移动互联服务提供商传音控股运维负责人表示“借助 Prometheus、Grafana 等可观测产品,传音控股建立全新可观测技术能力后,不仅提升问题诊断效率,还大幅提升用户体验。在此基础上,结合其他云原生新技术方案,业务上线效率提高 60%, 对高效业务创新起到至关重要的作用。”
智能化、数字化、数据驱动的智能出行科技公司极氪表示“基于阿里可观测产品推行的应急响应机制与 ChatOps 协同机制,极数 BI 业务整体告警事件接手率达到 100%,告警平均恢复耗时缩短 50%+。”
“以阿里云可观测产品家族为代表的云原生可观测工具,正引领着 AI-native 可观测加速迈向智能化。企业用户可以像‘搭积木’一样轻松、灵活地构建可观测体系,更高效地管理与观测 IT 资源与服务,为 AI 创新夯实技术底座。”阿里云云原生应用平台负责人丁宇表示。