eBPF内核技术在滴滴云原生的落地实践

将滴滴技术设为“星标⭐️

第一时间收到文章更新

导读

eBPF是Linux内核革命性技术,能够安全高效地扩展内核能力,应用广泛,尤其是在云原生可观测性领域的应用已经成为行业热点。在滴滴云原生环境中,eBPF技术进行了业务实践和内源共建,HuaTuo eBPF 平台快速落地并取得初步收益,目前已经支持云原生关键组件,诸如服务访问关系拓扑、容器安全、宿主机安全、网络诊断、根因定位等业务,HuaTuo也是滴滴开源委员会的精品孵化项目。希望本文为业界开发者提供一种如何将eBPF 技术快速应用到云原生场景的落地方式,共同提升云原生系统深度可观测性。

本文分为:

1.BPF 技术的前世

2.BPF 技术的今生

3.滴滴生产环境的业务痛点

  • 流量回放测试

  • 服务访问拓扑

  • 容器安全

  • 内核根因定位

4.滴滴HuaTuo eBPF 平台实践

  • 平台建设

  • 平台组成

  • 平台使用

5.滴滴业务落地实践

  • 内核根因定位背景

  • 内核根因定位思路

  • 内核根因定位平台

6.未来规划展望

1

BPF 技术的前世

Berkeley Packet Filter BPF 伯克利报文过滤器,最初构想提出于 1993 年,Steven McCanne 和 Van Jacobson 的论文《The BSD packet filter: a new architecture for user-level packet capture》。其目标提供一种新的高效过滤网络报文的方法。最初BPF 只附着在Linux 内核网络套接字上,当套接字绑定BPF字节码后,每接收一次报文都会执行该字节。内核根据BPF字节码返回值决定是否允许网络报文通过。

fa928b25c66972e92fc91ebe26fdc671.png

从指令集角度,BPF 起初的架构比较简单,只有一个32位宽度累加器A,一个32位宽度寄存器X,以及16x32bit 数组内存空间。但BPF 实现了加载、存储、跳转、运算四类指令。BPF 起初还没有即时编译器JIT,所有这些指令完全在内核小巧的虚拟机中运行,即便如此性能已经完全碾压其他报文过滤器。

b25c79951c04e35e766014300478bf23.png

BPF使用起来也比较方便,我们可以通过tcpdump、libpcap或者bpf_asm 生成BPF字节码,通过setsockopt SO_ATTACH_FILTER加载到内核。如下所示实现ICMP报文过滤,只需要根据L2/L3报文头漂移量判断协议号是否符合条件。

518e943b9ca3de7a694d1cb33744ce69.png

BPF 最先在sk_filter 落地使用,后续在netfilter、seccomp、team 驱动等网络子系统都有应用,但应用方向依旧在网络报文处理。

4099f155619baa034f1e916e3115eaff.png

2

BPF 技术的今生

BPF 最核心的思想实现了内核可编程,即在不改动源码,重新编译内核的情况下,实现高效扩展内核能力。2013 年,Alexei Starovoitov 对 BPF 进行改造,增加新特性,改善其性能。BPF 的进一步发展,为内核带来了巨大的改变,使内核具备了更加强大、可编程的动态变化的能力。这种能力在各种需要定制化的应用场景中,将发挥巨大的价值,既可以用于扩展功能,也可以用于优化性能。新版本被命名为 eBPF (“extended BPF”),以前的 BPF 变成 cBPF(“classic” BPF),后续篇章中BPF特指该项技术。

首先指令集角度,eBPF 是一种精简指令集,支持R0-R9 10个64bit 通用寄存器。其中R0寄存器用于内核函数的返回值,R1-R5寄存器用于内核函数的参数传递,这和x86_64、aarch64 类似。eBPF 支持两种指令集编码格式,64位宽度的基础编码,128位宽度的宽指令编码(该指令编码在基础编码之后附加64位立即数实现)。此外,eBPF 也丰富了四类指令集。

96f000472657c872d1e5d8277390f08c.png

e6d3fda137933e72350e50ca232ca915.png

Just In Time,  JIT 编译器,BPF 指令会被内核的 JIT 编译器动态编译为物理机原生指令,实现运行效率的“零”损耗。该特性在cBPF 时期由Eric Dumazet 实现,只支持x86-64架构。eBPF 根据自身指令特点再次扩展该编译器,eBPF 指令不仅仅可以JIT 成物理机CPU原生指令,同时可以翻译成一些设备如某些智能网卡的特定指令。这样诸如智能网卡的设备可以通过eBPF的方式实现可编程。

除了对指令层面丰富和扩展,eBPF 也增加了基于键值对的数据存储机制,可用于实现内核用户态的数据存储和交换。eBPF 新增比较丰富的BPF Helper函数,这使 BPF 程序可以访问内核功能,扩展BPF 能力,同时保持 BPF 程序和内核的安全隔离。 

随着BPF 功能增强,该技术不再局限于在内核网络子系统,也逐步应用于动态追踪、事件检测、性能分析优化、IO 子系统、进程调度、文件子系统等等。应用场景也从具体的点扩展到面:可观测性、Tracing、安全、性能分析和根因分析等等。同时也涌现出大批优秀的开源项目如Bcc、Cilium、bpftrace、Falco、Katran、Pixie。

79bab159193164eb22222bdf8eec3bbd.png

3

滴滴生产环境的业务痛点

在数据中心有很多基础服务,这些服务在稳定性、生产效能、可扩展性、安全等发挥着重要作用,这些基础设施在实际落地时都面临着不同程度的挑战。

流量回放测试

云原生的规模越来越大,承载的业务种类,业务流量和规模也都在急剧地扩大,软件测试也面临极大的挑战,包括测试环境搭建和测试用例的编写和维护等。流量回放测试是一种全新的测试方法。通过在线下测试环境进行回放,实现回归测试,流量回放能够完整的复现线上复杂的业务访问场景,极大地提高项目迭代效率、加速业务回归测试进度,保证业务研发质量提升。项目面临的挑战:

  • 业务编程语言繁多,基础库种类版本繁多。

  • 业务网络模型不统一(php单进程处理,golang协程处理,其他编程语言多线程/进程)。

  • 对特定业务定制化,难以提升覆盖度,并且成本较高。

  • 业务有感,在稳定性上较难保障。 

服务访问拓扑

随着微服务架构的兴起,服务数量日渐增多,服务之间的依赖关系变得越来越复杂。服务链路的可观测性对业务稳定性保障有很重要的意义。它能够清晰地展示服务接口之间的访问关系,以及诸如性能、延迟、超时等业务指标。线上出现问题的时候,依据服务拓扑关系能够快速地定位问题节点。项目面临的挑战:

  • 业务种类量大,人工梳理成本高易出错。

  • 通过推广特定SDK依靠 metric 以及日志中服务调用关系进行串联的方式推动难度大,在生产环境中容易出现断链的情况。 

容器安全

在云原生的大势所趋下,越来越多的企业选择拥抱云原生,容器已经成为应用交付的标准,也是云原生时代计算资源和配套设施的交付单元。容器的使用日益普及,容器安全问题日益凸显。滴滴针对容器安全有一套完整的方案,其中一些核心的痛点就通过eBPF 技术解决。 

内核根因定位

滴滴云原生平台的容器部署密度、超卖比都较高,在共享内核容器虚拟化场景下容易出现资源不合理使用导致的问题。传统的内核指标偏向于基本、整体、粗粒度层面的统计检测,同时传统的定位工具资源消耗较多,性能影响较大。因此彻底确定内核根因,需要对内核子系统进行深度观测,以及实现常态化观测,解决事中事后出现的突发、超时、毛刺等棘手问题。

4

滴滴HuaTuo eBPF 平台实践

eBPF 技术能够很好的解决上述出现的语言依赖痛点,同时eBPF 和动态追踪技术结合对实现深度观测内核提供支撑。但实际落地过程中需要回答如下问题:

  • 在需求多的情况下,如何快速的满足这些需求,提升研发效能快速落地?

  • 目前行业中虽有落地案例,但规模相对较小,如何实现从点到面的落地,如何保证宿主机稳定性?

  • 如何统一观测和保障插桩点性能损耗,出现问题如何快速回退、降级、止损? 

平台建设

基于如上考虑我们研发了eBPF 平台,业务可以直接使用平台提供的通用能力,只需要关注自身逻辑实现即可。平台建设过程中重点围绕着提升研发效能,提供业务视角,保障稳定性和保障性能等维度。

  • 提升研发效能

早期用户需要关心如何解析BPF 字节码,如何加载到内核,创建KV Map 以及将特定的Section 代码附着到特定的运行节点。最后用户还需要关注如何从内核获取数据。平台重要的功能是将底层的技术细节屏蔽,类似的上述功能只需要调用bpfload和bpfmap 接口即可。

  • 提供业务视角

业务和平台,业务和业务之间的发布规律不同。最终我们采用BPF Obj字节码的方式将业务的逻辑和平台解耦,业务根据需求调用平台接口即可。同时平台需要考虑标准化,支持其他开源组件定义的SEC,这样就能够兼容已有的BPF字节码,直接在平台运行。

c3582e9342699a18e95381abff47399c.png

  • 保障稳定性

作为新的技术落地,需要重点关注宿主稳定性问题。稳定的保障主要从内核层,框架侧,以及和业务感知的方面建立。

19ee708a7137252eafca90048895d3d5.png

  • 保障性能

所有的BPF 代码都是运行在内核态,因此过多的耗时依然会对系统造成影响。事件驱动,共享内存,ringbuf 生产消费等方式在该平台都有应用。

e3c8fa5fb717859868477fb704938b5f.png

平台组成

  • BPF字节码管理

首先是解析ELF能力,包括SEC、Map、变量、结构体的定义。通过SEC能够清楚BPF Prog 类型以及可以自动加载的Hook 附着点等。通过Map的定义解析出其类型,大小,Key 类型,Value 类型等信息。

  • 高性能数据处理

平台支持业务类型较多,因此需要从各个维度考虑性能保障。首先在内核侧对probe hook点动态评测,提供熔断机制。在平台侧提供高性能数据通信,ringbuf 生产消费方式减低延迟。

  • 稳定性管理

平台设计初衷是解决线上问题保证业务稳定性,因此平台自身实现了事件熔断和自愈功能。当检测到宿主BPF 出现异常,平台会自动unload bpf从而避免当前BPF造成过高的负载。除了实现事件的熔断和自愈,同时限制平台使用的系统资源如cpu、mem。

  • 容器信息管理

实现该功能主要基于如下因素:1. 所有业务运行在容器,参数的传递,业务的识别都需要该信息。2. 内核cgroup信息需要和容器信息进行聚合。

平台使用

平台除了API 接口,还提供了命令行方式,这样非常态运行BPF OBJ或者调试OBJ 都可以在该平台运行。

代码示例如下:

5a0b4f6d28300da60fec00af3b4dd190.png

编译:

clang -O2 -g -target bpf -c $(NAME).bpf.c -o $(NAME).o

运行:平台自动解析BPF 定义的结构体并打印到stdout。

f7f109caa56aeb5b16e877a578ffa507.png

5

滴滴业务落地实践

在滴滴很多业务已经接入HuaTuo eBPF 平台,例如服务测试回归、容器安全、主机安全、服务访问拓扑、网络诊断,内核根因定位等等。下面主要以内核根因定位为例进行讲解。 

内核根因定位背景

现今,降本增效是广大互联网公司的主题,在滴滴容器部署密度,超卖比都较高,共享内核容器技术在这种情景下很难避免由于资源不合理使用影响到其他业务的情况。在发生故障时第一举措是止损,容器漂移,这样问题现场就丢失了,线下复现问题的难度大,人力机器的成本很高。此外,线上偶发的毛刺、耗时和超时等问题没有规律可循,综上原因常态观测是一个非常强的需求。

内核根因定位思路

根据可观测性三大支柱(如下图所示),首先我们建立起内核深度观测指标,这些指标更加细粒度,能够反映出内核各子系统健康状态。建立这些指标时会从不同的角度评测合理性、性能影响,最终实现常态观测。其次,事件驱动实现获取内核异常日志上下文,我们关心内核各子系统在异常路径,慢路径等出错状态收集。异常事件是解决内核问题根因的关键。随着底层基础能力的建立,我们可以将这些信息就行汇总、分析、最终给出分析报告。

cc99a487d0bf575d4c1b05b7a9b8ee23.png

内核根因定位平台

40f5957b6168f708aaf1d6c683b45c43.png

我们将内核根因定位平台分为四部分:

  • 内核数据采集。该部分主要实现内核核心指标采集,以及内核异常上下文的收集。

  • 内核数据聚合。该部分主要实现将内核观测数据和容器/Pod信息进行汇总并上传到存储设备。

  • 数据分析层。该部分主要将收集到的数据进行处理,对上提供分析服务。

  • 数据展示层。主要分析诊断中心、观测中心、日志中心、分析报告、以及报警中心等。

6

未来规划展望

eBPF内核技术在滴滴云原生场景进行了大规模多场景的落地实践,未来HuaTuo eBPF平台会服务更多的业务线。如今,我们正寻求合适的基金会进行项目孵化,一起和行业开发者共建、共享。最近几年,eBPF 技术虽然有比较大的发展,但在某些场景中的功能还不够完善,比如在性能上进行优化、CPU调度等在离线混部场景中深入探索等,期待后续与大家持续交流探讨。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/9541.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CesiumJS使用详细,在vue中使用Cesium.js(WebGIS中的Cesium地图可视化应用)

简述:Cesium是一种基于WebGL开源的虚拟地球技术,可以用于构建高性能、跨平台的三维地球应用程序,它支持多种数据格式和地图服务,可以实现地球表面的高精度渲染、地形分析、数据可视化等功能。Cesium还提供了丰富的API和插件&#…

青岛大学_王卓老师【数据结构与算法】Week04_05_双向链表的删除_学习笔记

本文是个人学习笔记,素材来自青岛大学王卓老师的教学视频。 一方面用于学习记录与分享,另一方面是想让更多的人看到这么好的《数据结构与算法》的学习视频。 如有侵权,请留言作删文处理。 课程视频链接: 数据结构与算法基础–…

2023年03月份青少年软件编程Python等级考试试卷三级真题(含答案)

2023-03 Python三级真题 分数:100 题数:38 测试时长:60min 一、单选题(共25题,共50分) 1.十进制数111转换成二进制数是?( )(2分) A.111 B.1111011 C.101111 D…

flask_测试数据平台

实现功能:Flask框架平台访问批量自动造测试数据 import osfrom flask import Flask, render_template, request, jsonify, url_for, redirect from werkzeug.urls import url_parsefrom HuiCai import InsertHuiCaiOrderapp Flask(__name__, template_folderE:/fl…

23西安电子科技大学通信工程学院811考研录取情况

01、通信工程学院各个方向 02、23通信工程学院一志愿考研录取情况总览、平均分 PS:通院23年院线相对于22年院线上涨5-15分,个别专业下降10分反应西电通院热度23年和22年基本一致。 PS:1、通院23年比较多的考生在本部学硕、专硕扎堆&#xff…

插值应用案例1

案例1 一阶线性插值 待加工零件外形根据工艺要求在一组数据(x,y)给定(如下表),用程控铣床加工时每一刀只能沿着x方向或y方向走非常小的一步,需要从已知数据得到加工步长很小的(x,y)的坐标。 下表中所给x,y数据位于机翼断面的下…

Addressable 资源管理全解二

接着上一篇文章我们继续讲… 下面是目录 : 一、使用Label为资源分包二、批量加载 Label 下的所有资源三、Content Update Restriction 内容更新方式1.Can Change Post Release(动态资源)2.Cannot Change Post Release(静态资源) 四、Advanced Options 下内容讲解 一…

回归预测 | MATLAB实现WOA-CNN鲸鱼算法优化卷积神经网络的数据多输入单输出回归预测

回归预测 | MATLAB实现WOA-CNN鲸鱼算法优化卷积神经网络的数据多输入单输出回归预测 目录 回归预测 | MATLAB实现WOA-CNN鲸鱼算法优化卷积神经网络的数据多输入单输出回归预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 回归预测 | MATLAB实现WOA-CNN鲸鱼算法优化卷积…

订单点击付款支付接口的实现(支付宝付款的实现)

订单点击付款支付接口的实现 前言一、DefaultAlipayClient是什么?二、支付宝付款代码的实现 前言 该付款功能只支持支付宝付款: 工作过程中遇到了一个我的订单中展示出来详细的订单信息,然后在待付款的订单信息里面实现付款的接口的问题&am…

k8s Label 2

在 k8s 中,我们会轻轻松松的部署几十上百个微服务,这些微服务的版本,副本数的不同进而会带出更多的 pod 这么多的 pod ,如何才能高效的将他们组织起来的,如果组织不好便会让管理微服务变得混乱不堪,杂乱无…

中文模型的奋起直追:MOSS、baichuan-7B和ChatGLM2-6B的部署与微调

第一部分 复旦MOSS MOSS是复旦大学邱锡鹏团队推出的一个支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数,在FP16精度下可在单张A100/A800或两张3090显卡运行,在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模…

vue页面中一个小列表中多选框的选中状态的两种设置方法

第一种方法:所有类型都是固定的、后台提供了选中状态的接口(页面进入时默认展示所有类型和类型的选中状态 思路: 1、列出所有类型同时与后台规定好每种类型的id与对应的名称 2、在mounted中执行获取后台给定的选中状态(包含1个或多个的id数组) 3、将得到的结构绑定到el-ch…