ArgoWorkflow教程(三)---使用 Artifacts 实现步骤间文件共享-编程知识

ArgoWorkflow教程(三)---使用 Artifacts 实现步骤间文件共享

news/2025/2/28 9:44:40/文章来源:https://www.cnblogs.com/KubeExplorer/p/18386454

上一篇我们分析了 Workflow、WorkflowTemplate、template 之间的关系。本篇主要分析如何在 argo-workflow 中使用 S3 存储 artifact 实现步骤之间的文件共享。

本文主要解决两个问题：

1）artifact-repository 如何配置
2）Workflow 中如何使用

1. artifact-repository 配置

ArgoWorkflow 对接 S3 实现持久化，依赖于 artifact-repository 配置。

有三种方式设置相关配置：

1）全局配置：在 workflow-controller deploy 中直接通过配置文件方式写入 S3 相关配置，指定全局使用的artifactRepository，该方式优先级最低，可以被后续两种方式替换。
2）命名空间默认配置：ArgoWorkflow 会在 Workflow 所在命名空间寻找当前命名空间的默认配置，该方式配置优先级第二，可以覆盖全局指定的配置。
- 规定：会在 Workflow 所在命名空间寻找名为 artifact-repositories 的 Configmap 作为配置。
3）Workflow 中指定配置：还可以在 Workflow 中显式指定使用哪个 artifact-repository，该方式优先级最高。

注意📢：不管什么方式指定 artifact-repository，其中存储 S3 AKSK 信息的 Secret 都必须同步到 Workflow 所在的命名空间才行。

优先级 InWorkflowConfig > Namespace > Global

全局配置

以 helm 方式部署的 ArgoWorkflow 的话默认就会以这种形式指定配置。

workflow-controller 的 deployment yaml 如下：

apiVersion: apps/v1
kind: Deployment
metadata:name: argo-workflow-argo-workflows-workflow-controllernamespace: argo-dev
spec:template:metadata:spec:containers:- args:- --configmap- argo-workflow-argo-workflows-workflow-controller-configmap- --executor-image- quay.io/argoproj/argoexec:v3.4.11- --loglevel- info- --gloglevel- "0"- --log-format- text

可以看到在启动命令中以 --configmap argo-workflow-argo-workflows-workflow-controller-configmap 方式指定了配置文件来源的 Configmap。

这个 Configmap 的内容如下：

apiVersion: v1
data:# ... 省略artifactRepository: |s3:endpoint: minio.default.svc:9000bucket: argoinsecure: trueaccessKeySecret:name: my-s3-secretkey: accessKeysecretKeySecret:name: my-s3-secretkey: secretKey
kind: ConfigMap
metadata:name: argo-workflows-workflow-controller-configmapnamespace: argo

包括了 S3 的 endpoint、bucket、aksk 等信息，借助这些信息 Workflow 就可以访问 S3 了。

命名空间默认配置

根据当前实现，ArgoWorkflow 会优先使用 Workflow 所在命名空间下的默认 artifactRepository 配置。

默认会使用名为 artifact-repositories 的 Configmap 作为当前命名空间下 Workflow 的 artifactRepository 配置，Configmap 中的内容大概长这样：

注意：Configmap 名必须是 artifact-repositories

apiVersion: v1
kind: ConfigMap
metadata:# If you want to use this config map by default, name it "artifact-repositories". Otherwise, you can provide a reference to a# different config map in `artifactRepositoryRef.configMap`.name: artifact-repositoriesannotations:# v3.0 and after - if you want to use a specific key, put that key into this annotation.workflows.argoproj.io/default-artifact-repository: my-artifact-repository
data:my-artifact-repository: |s3:bucket: lixd-argoendpoint: minio.argo-dev.svc:9000insecure: trueaccessKeySecret:name: my-s3-secretkey: accessKeysecretKeySecret:name: my-s3-secretkey: secretKey# 可以写多个 Repositorymy-artifact-repository2： ...

Data 中的每一个 Key 对应一个 Repository，然后使用 workflows.argoproj.io/default-artifact-repository annotation 来指定默认使用哪个 artifactRepository。

比如这里就指定了 my-artifact-repository 为默认 artifactRepository.

Workflow 中指定配置

除此之外，还可以直接在 Workflow 中指定具体要使用哪个 artifactRepository。

spec:artifactRepositoryRef:configMap: my-artifact-repository # default is "artifact-repositories"key: v2-s3-artifact-repository # default can be set by the `workflows.argoproj.io/default-artifact-repository` annotation in config map.

需要指定 Configmap 以及具体的 Key 来找到唯一的 artifactRepository。

只会在当前命名空间下找，因此需要确保这个 Configmap 存在。

或者直接把 S3 配置写到 Workflow 里(不推荐),就像这样：

  templates:- name: artifact-exampleinputs:artifacts:- name: my-input-artifactpath: /my-input-artifacts3:endpoint: s3.amazonaws.combucket: my-aws-bucket-namekey: path/in/bucket/my-input-artifact.tgzaccessKeySecret:name: my-aws-s3-credentialskey: accessKeysecretKeySecret:name: my-aws-s3-credentialskey: secretKeyoutputs:artifacts:- name: my-output-artifactpath: /my-output-artifacts3:endpoint: storage.googleapis.combucket: my-gcs-bucket-name# NOTE that, by default, all output artifacts are automatically tarred and# gzipped before saving. So as a best practice, .tgz or .tar.gz# should be incorporated into the key name so the resulting file# has an accurate file extension.key: path/in/bucket/my-output-artifact.tgzaccessKeySecret:name: my-gcs-s3-credentialskey: accessKeysecretKeySecret:name: my-gcs-s3-credentialskey: secretKeyregion: my-GCS-storage-bucket-regioncontainer:image: debian:latestcommand: [sh, -c]args: ["cp -r /my-input-artifact /my-output-artifact"]

只会在当前命名空间下找，因此需要确保这个 Configmap 存在。

小结

包括三种方式：

1）全局配置
2）命名空间默认配置
3）Workflow 中指定配置

注意📢：由于 S3 AKSK 以 Secret 方式存储，因此三种配置方式都需要将该 Secret 同步到 Workflow 所在命名空间，否则无法在 Pod 中使用，导致 Workflow 无法正常运行。

如果 ArgoWorkflow 能自动接管就好了,可以使用 https://github.com/mittwald/kubernetes-replicator 来自动同步

三种方式的区别：

全局配置全局只需要一个 Configmap 来指定 S3 信息即可，所有 Workflow 都使用该 S3 配置，简单，但是不够灵活。
命名空间默认配置：该方式可以为不同命名空间配置不同的 S3，但是需要在每个命名空间都创建一个 Configmap。
Workflow 中指定配置：这种方式最灵活，可以为不同 Workflow 指定不同 S3，但是需要创建很多 Configmap。

使用场景：

如果全局只有一个 S3 配置，那就使用全局配置方式，最简单。

如果租户间使用命名空间隔离，使用不同 S3,那使用命名空间默认配置方式就刚好

以上都不满足的时候，才建议使用 Workflow 中指定配置方式。

2. Workflow 中使用 artifact

key-only-artifacts

当 Workflow 中不显式指定 S3 配置信息时，argo 会按照前面的优先级自动寻找 artifact-repository 配置。

优先使用 Namespace 下的配置，没有则使用全局配置

一个完整的 Demo 如下：

apiVersion: argoproj.io/v1alpha1
kind: Workflow
metadata:generateName: artifact-passing-
spec:entrypoint: artifact-exampletemplates:- name: artifact-examplesteps:- - name: generate-artifacttemplate: whalesay- - name: consume-artifacttemplate: print-messagearguments:artifacts:# bind message to the hello-art artifact# generated by the generate-artifact step- name: messagefrom: "{{steps.generate-artifact.outputs.artifacts.hello-art}}"- name: whalesaycontainer:image: docker/whalesay:latestcommand: [sh, -c]args: ["cowsay hello world | tee /tmp/hello_world.txt"]outputs:artifacts:# generate hello-art artifact from /tmp/hello_world.txt# artifacts can be directories as well as files- name: hello-artpath: /tmp/hello_world.txt- name: print-messageinputs:artifacts:# unpack the message input artifact# and put it at /tmp/message- name: messagepath: /tmp/messagecontainer:image: alpine:latestcommand: [sh, -c]args: ["cat /tmp/message"]

第一个步骤，通过

第一个步骤，通过 tee 命令创建了一个文件并通过 outputs 进行输出,由于指定的是 artifacts，因此这个文件会被存储到 S3。

然后第二个步骤指定 inputs.artifacts 从 S3 读取名为 message 的 artifact 并存储到 /tmp/message 目录。

问题来了第二步中读取的 artifact 是从哪儿来的呢，就是 steps 中通过 arguments.artifacts 指定的，通过 name 进行关联。

整个逻辑和 parameter 基本一致

1）whalesay template 通过 outputs.artifacts 来申明当前 template 会输出一个 artifact。
2）print-message 中通过 inputs.artifacts 申明需要一个 artifact，并指定存储位置
3）steps 在使用该 template 时，通过 arguments.artifacts 来指定一个 artifact，这个 artifact 来源就是 1 中的 output，通过{{steps.generate-artifact.outputs.artifacts.$name}} 语法引用。

	artifact-passing-vzp2r-1469537892:boundaryID: artifact-passing-vzp2rdisplayName: generate-artifactfinishedAt: "2024-03-29T08:42:34Z"hostNodeName: lixd-argoid: artifact-passing-vzp2r-1469537892message: 'Error (exit code 1): You need to configure artifact storage. Moreinformation on how to do this can be found in the docs: https://argo-workflows.readthedocs.io/en/release-3.5/configure-artifact-repository/'name: artifact-passing-vzp2r[0].generate-artifact

artifact 压缩

默认情况下，所有的 artifact 会被打成 tar 包并 gzip 压缩，可以通过archive 字段来配置压缩情况：

默认行为：tar + gzip
可选关闭 tar+ gzip
或者配置 gzip 压缩等级

<... snipped ...>outputs:artifacts:# default behavior - tar+gzip default compression.- name: hello-art-1path: /tmp/hello_world.txt# disable archiving entirely - upload the file / directory as is.# this is useful when the container layout matches the desired target repository layout.   - name: hello-art-2path: /tmp/hello_world.txtarchive:none: {}# customize the compression behavior (disabling it here).# this is useful for files with varying compression benefits, # e.g. disabling compression for a cached build workspace and large binaries, # or increasing compression for "perfect" textual data - like a json/xml export of a large database.- name: hello-art-3path: /tmp/hello_world.txtarchive:tar:# no compression (also accepts the standard gzip 1 to 9 values)compressionLevel: 0
<... snipped ...>

Artifact 垃圾回收

所有 Artifact 都会上传到 S3，为了保证 S3 不被填满，垃圾清理是个问题。

好消息是，argo-workflow 3.4 开始，可以在 Workflow 中添加配置来实现自动删除不需要的 Artifacts。

当前提供两种回收策略，分别是：

OnWorkflowCompletion：工作流运行完成后就删除
OnWorkflowDeletion：工作流被删除时才删除

同时可以统一为 Workflow 中的所有 artifact 配置回收策略，也可以单独为每一个 artifact 配置回收策略。

Demo 如下：

apiVersion: argoproj.io/v1alpha1
kind: Workflow
metadata:generateName: artifact-gc-
spec:entrypoint: mainartifactGC:strategy: OnWorkflowDeletion  # default Strategy set here applies to all Artifacts by defaulttemplates:- name: maincontainer:image: argoproj/argosay:v2command:- sh- -cargs:- |echo "can throw this away" > /tmp/temporary-artifact.txtecho "keep this" > /tmp/keep-this.txtoutputs:artifacts:- name: temporary-artifactpath: /tmp/temporary-artifact.txts3:key: temporary-artifact.txt- name: keep-thispath: /tmp/keep-this.txts3:key: keep-this.txtartifactGC:strategy: Never   # optional override for an Artifact

核心部分如下：

spec:entrypoint: main# 为 Workflow 中的所有 artifact 统一配置artifactGC:strategy: OnWorkflowDeletion  # default Strategy set here applies to all Artifacts by default
# 单独指定 artifact 的回收策略outputs:artifacts:- name: temporary-artifactartifactGC:strategy: Never   # optional override for an Artifact

注意事项：为了避免相同工作流并发运行时，artifact 被误删除的问题，可以为不同工作流配置不同的 artifact repository。

forceFinalizerRemoval

argo-workflow 会启动一个 <wfName>-artgc-* 格式命名的 Pod 来执行垃圾回收工作，如果执行失败，整个 Workflow 也会被标记为失败。

同时由于finalizers 没有被删除掉

apiVersion: argoproj.io/v1alpha1
kind: Workflowfinalizers:- workflows.argoproj.io/artifact-gc

会导致这个 Workflow 无法删除，可以执行以下命令移除

kubectl patch workflow my-wf \--type json \--patch='[ { "op": "remove", "path": "/metadata/finalizers" } ]'

为了优化体验，argo-workflow 3.5 版本新增了 forceFinalizerRemoval 参数

spec:artifactGC:strategy: OnWorkflowDeletion forceFinalizerRemoval: true

只要forceFinalizerRemoval 设置为 true，即时 GC 失败也会移除 finalizers。

常用 Artifacts 扩展

除了 S3 Artifacts 之外，为了便于使用， argo-workflow 还内置了 git、http 方式来获取 artifact。

可以直接从指定 git 仓库 clone 代码，或者从指定 url 下载文件，就像这样：

apiVersion: argoproj.io/v1alpha1
kind: Workflow
metadata:generateName: hardwired-artifact-
spec:entrypoint: hardwired-artifacttemplates:- name: hardwired-artifactinputs:artifacts:# Check out the main branch of the argo repo and place it at /src# revision can be anything that git checkout accepts: branch, commit, tag, etc.- name: argo-sourcepath: /srcgit:repo: https://github.com/argoproj/argo-workflows.gitrevision: "main"# Download kubectl 1.8.0 and place it at /bin/kubectl- name: kubectlpath: /bin/kubectlmode: 0755http:url: https://storage.googleapis.com/kubernetes-release/release/v1.8.0/bin/linux/amd64/kubectl# Copy an s3 compatible artifact repository bucket (such as AWS, GCS and MinIO) and place it at /s3- name: objectspath: /s3s3:endpoint: storage.googleapis.combucket: my-bucket-namekey: path/in/bucketaccessKeySecret:name: my-s3-credentialskey: accessKeysecretKeySecret:name: my-s3-credentialskey: secretKeycontainer:image: debiancommand: [sh, -c]args: ["ls -l /src /bin/kubectl /s3"]

3. Demo

测试点：

1）创建到 Workflow 对应 Namespace 是否能正常使用
2）将S3 配置创建到 Argo 部署的 Namespace 是不是可以不需要进行同步了。

Configmap:

Name：argo-workflow-argo-workflows-workflow-controller-configmap
Namespace：argo-dev
Key：artifactRepository

Minio 准备

部署一个 local-path-storage csi，如果有别的 csi 也可以跳过这一步

kubectl apply -f https://raw.githubusercontent.com/rancher/local-path-provisioner/v0.0.24/deploy/local-path-storage.yaml

然后部署 minio

helm install minio oci://registry-1.docker.io/bitnamicharts/minio

    my-release-minio.default.svc.cluster.localexport ROOT_USER=$(kubectl get secret --namespace default my-release-minio -o jsonpath="{.data.root-user}" | base64 -d)export ROOT_PASSWORD=$(kubectl get secret --namespace default my-release-minio -o jsonpath="{.data.root-password}" | base64 -d)

配置 artifact-repository

cm.yaml 完整内容如下：

apiVersion: v1
kind: ConfigMap
metadata:name: artifact-repositoriesannotations:workflows.argoproj.io/default-artifact-repository: my-artifact-repository
data:my-artifact-repository: |s3:bucket: argoendpoint: minio.default.svc.cluster.local:9000insecure: trueaccessKeySecret:name: my-s3-secretkey: accessKeysecretKeySecret:name: my-s3-secretkey: secretKey

secret.yaml 完整内容如下：

apiVersion: v1
stringData:accessKey: adminsecretKey: minioadmin
kind: Secret
metadata:name: my-s3-secret
type: Opaque

创建 artifact repository 配置

kubectl apply -f cm.yaml
kubectl apply -f secret.yaml

Workflow 中使用artifact

两个步骤：

generate：生成一个文件，并通过 outputs.artifact 写入 S3
consume：使用 inputs.artifact 从 S3 读取文件并打印内容

workflow.yaml 完整内容如下：

apiVersion: argoproj.io/v1alpha1
kind: Workflow
metadata:generateName: key-only-artifacts-
spec:entrypoint: maintemplates:- name: maindag:tasks:- name: generatetemplate: generate- name: consumetemplate: consumedependencies:- generate- name: generatecontainer:image: argoproj/argosay:v2args: [ echo, hello, /mnt/file ]outputs:artifacts:- name: filepath: /mnt/files3:key: my-file- name: consumecontainer:image: argoproj/argosay:v2args: [cat, /tmp/file]inputs:artifacts:- name: filepath: /tmp/files3:key: my-file

创建 Workflow

kubectl create -f workflow.yaml

等待运行完成

[root@lixd-argo artiface]# kubectl get wf
NAME                                  STATUS      AGE     MESSAGE
key-only-artifacts-9r84h              Succeeded   2m30s

S3 查看文件

到 S3 中查看文件是否存在

可以看到，在 argo bucket 下有一个名为 my-file的文件存在，而且 context-type 是 application/gzip，这也验证了 argo 会对 artifact 执行 tar+gzip。

argo-artifact-s3

4. 小结

【ArgoWorkflow 系列】持续更新中，搜索公众号【探索云原生】订阅，阅读更多文章。

本文主要分析了 argo 中的 artifact 使用，包括如何配置 artifact-repository：

包括三种方式：

1）全局配置
2）命名空间默认配置
3）Workflow 中指定配置

以及如何在 Workflow 中使用 artifact 并通过一个 Demo 进行演示。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/789068.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

计算属性

错误处理、cuda模型、GPU架构杂谈

错误处理、cuda模型、GPU架构杂谈错误处理所有编程都需要对错误进行处理，早起的编码错误，编译器会帮搞定，内存错误也能观察出来，但是有些逻辑错误很难发现，甚至到了上线运行时才会被发现，而且有些厉害的bug复现会很难，不总出现，但是很致命，而且CUDA基本都是异步执行…

【日记】已经在开始幻想明年的年度计划了（498 字）

正文看来每次都是准备迎检的时候忙很多，但检查来的时候反倒还好一点。今天比昨天好上一些，没有那么忙了。感觉不去跳舞的 8 月，运动量下降了好多，膝盖经常响。只要半月板没事就好…… 前几天高配速的酸痛好像彻底消失了。今晚想去看看舞蹈室开门没有，如果没有的话就去买巧…

GPU的Fermi 架构与Kepler架构杂谈

Fermi 架构 Fermi架构是第一个完整的GPU架构，如图10-15所示。图10-15 Fermi架构是第一个完整的GPU架构 Fermi架构逻辑图，如图10-15所示，具体数据如下: 1）512个加速核心，CUDA核 2）每个CUDA核心都有一个全流水线的整数算数逻辑单元ALU，和一个浮点数运算单元FPU 3）CUDA核被…

CUDA编程结构、存储管理、线程管理杂谈

CUDA编程结构、存储管理、线程管理杂谈 CUDA编程结构一个异构环境，通常有多个CPU多个GPU，他们都通过PCIe总线相互通信，也是通过PCIe总线分隔开的。所以要区分一下两种设备的内存： 1）主机：CPU及其内存 2）设备：GPU及其内存这两个内存从硬件到软件都是隔离的（CUDA6.0 以…

Vue3实现excel文件预览和打印

预览excel 关于实现excel文档在线预览的做法，一种方式是通过讲文档里的数据处理成html，一种是将文档处理成图片进行预览。首先我们先讲一下实现html这种方式预览的。Excel预览用的是xlsx这个库。 xlsx xlsx是一个优秀的表格处理库，是一款适用于浏览器和nodejs的开源电子表格…

计算机电源管理

在计算机电源管理中，S1, S2, S3, S4 代表不同的电源状态或睡眠状态。了解这些状态，对计算机设备理解功耗及工作状态有很大帮助。最近公司开会，系统同事有讲S3状态功耗很低，我猜和电脑的睡眠、息屏有关。。。emmm，不懂就要学以下是这些状态的详细说明：S1 状态（低电量等…

使用SRS实现了音视频通话，以及共享桌面的功能

引言在三年前，写智能小车的时候，当时小车上有一个摄像头需要采集，实现推拉流的操作，技术选型当时第一版用的是nginx的rtmp的推拉流，服务器的配置环境是centos，2H4G3M的一个配置，nginx的rtmp的延迟是20秒，超慢，后来研究了SRS以及ZLMediaKit这两个开源的推拉流服务器，没…

算法-动态规划-完全背包

LeetCode算法刷题动态规划之完全背包0. 动态规划五部曲：确定dp数组（dp table）以及下标的含义确定递推公式 dp数组如何初始化确定遍历顺序举例推导dp数组1. 完全背包问题完全背包问题中，每个物品都有无数个，可以重复选择。二维dp数组int[][] dp = new int[n][totalWei…

$Clion\+OpenCV(C\+\+版)开发环境配置教程Win/Mac$