K8S部署分布式调度任务Airflow

开源 分布式
本文部署 Airflow 稳定版 2.1.4,Kubernetes使用1.20.x版本,PostgreSQL使用12.x,使用Helm Charts部署。

[[437218]]

一、部署要求

Apache Airflow 已通过以下测试:

注意: MySQL 5.x 版本不能或有运行多个调度程序的限制——请参阅调度程序文档。MariaDB 未经过测试/推荐。

注意: SQLite 用于 Airflow 测试。不要在生产中使用它。我们建议使用最新的 SQLite 稳定版本进行本地开发。

PS:本文部署 Airflow 稳定版 2.1.4,Kubernetes使用1.20.x版本,PostgreSQL使用12.x,使用Helm Charts部署。

二、生成Helm Charts配置

PS:使用 helm 3 版本部署

  1. # 创建kubernetes airflow 命名空间 
  2. $ kubectl create namespace airflow 
  3.  
  4. # 添加 airflow charts 仓库源 
  5. $ helm repo add apache-airflow https://airflow.apache.org 
  6.  
  7. # 更新 aiarflow 源 
  8. $ helm repo update 
  9.  
  10. # 查看 airflow charts 所有版本(这里选择部署charts 1.2.0,也就是airflow 2.1.4) 
  11. $ helm search repo apache-airflow/airflow -l 
  12.  
  13. NAME                    CHART VERSION   APP VERSION DESCRIPTION 
  14. apache-airflow/airflow  1.3.0           2.2.1       The official Helm chart to deploy Apache Airflo... 
  15. apache-airflow/airflow  1.2.0           2.1.4       The official Helm chart to deploy Apache Airflo... 
  16. apache-airflow/airflow  1.1.0           2.1.2       The official Helm chart to deploy Apache Airflo... 
  17. apache-airflow/airflow  1.0.0           2.0.2       Helm chart to deploy Apache Airflow, a platform... 
  18.  
  19. # 导出 airflow charts values.yaml 文件 
  20. $ helm show values apache-airflow/airflow --version 1.2.0 > airflow_1.2.4_values.yaml 

三、修改airflow配置

3.1 配置持续存储 StorageClass

PS: 使用阿里云NAS极速存储

  1. # 编辑 StorageClass 文件 
  2. $ vim alicloud-nas-airflow-test.yaml 
  3.  
  4. apiVersion: storage.k8s.io/v1 
  5. kind: StorageClass 
  6. metadata: 
  7.   name: alicloud-nas-airflow-test 
  8. mountOptions: 
  9.   - nolock,tcp,noresvport 
  10.   - vers=3 
  11. parameters: 
  12.   volumeAs: subpath 
  13.   server: "xxxxx.cn-beijing.extreme.nas.aliyuncs.com:/share/airflow/" 
  14. provisioner: nasplugin.csi.alibabacloud.com 
  15. reclaimPolicy: Retain 
  16.  
  17. # 应用到K8S中 
  18. $ kubectl apply -f alicloud-nas-airflow-test.yaml 

3.2 配置 airflow Dags 存储仓库 gitSshKey

  1. # 编辑 airflow-ssh-secret.yaml 文件,首先需要把shh公钥添加到git项目仓库中 
  2. $ vim airflow-ssh-secret.yaml 
  3.  
  4. apiVersion: v1 
  5. kind: Secret 
  6. metadata: 
  7.   name: airflow-ssh-secret 
  8.   namespace: airflow 
  9. data: 
  10.   # key needs to be gitSshKey 
  11.   gitSshKey: "ssh私钥,base64" 
  12.  
  13. # 应用到K8S中 
  14. $ kubectl apply -f airflow-ssh-secret.yaml 

3.3 Docker 部署 PostgreSQL 12

  1. # 创建 postgresql 存储目录 
  2. $ mkdir /data/postgresql_data 
  3.  
  4. # 创建启动文件 
  5. $ vim docker-compose.yaml 
  6.  
  7. version: "3" 
  8.  
  9. services: 
  10.   airflow-postgres: 
  11.     image: postgres:12 
  12.     restart: always 
  13.     container_name: airflow-postgres 
  14.     environment: 
  15.       TZ: Asia/Shanghai 
  16.       POSTGRES_USER: airflow 
  17.       POSTGRES_PASSWORD: Airflow123 
  18.     volumes: 
  19.       - /data/postgresql_data:/var/lib/postgresql/data 
  20.     ports: 
  21.       - "5432:5432" 
  22.  
  23. # 启动 postgresql docker 
  24. $ docker-compose up -d 

3.4 修改 airflow_1.2.4_values.yaml 配置

PS:本文 airflow_1.2.4_values.yaml 配置文件需要三个pvc,服务分别是 redis、worker(只部署1个worker,可以部署多个worker)、dags

因配置文件太长,不具体贴出,具体内容请参考下面链接:

https://github.com/yangpeng14/DevOps/blob/master/config_dir/airflow_1.2.4_values.yaml

四、部署 Airfolw

  1. # 第一次部署 Airflow 
  2. $ helm install airflow apache-airflow/airflow --namespace airflow --version 1.2.0 -f airflow_1.2.4_values.yaml 
  3.  
  4. # 以后如果要修改airflow配置,请使用下面命令 
  5. $ helm upgrade --install airflow apache-airflow/airflow --namespace airflow --version 1.2.0 -f airflow_1.2.4_values.yaml 

五、配置 Airflow Ingress Nginx 访问入口

  1. # 生成 ingress nginx 配置文件 
  2. $ vim airflow-ingress.yaml 
  3.  
  4. apiVersion: networking.k8s.io/v1 
  5. kind: Ingress 
  6. metadata: 
  7.   name: airflow 
  8.   namespace: airflow 
  9.   annotations: 
  10.     kubernetes.io/ingress.class: nginx 
  11.     nginx.ingress.kubernetes.io/ssl-redirect: "false" 
  12.     nginx.ingress.kubernetes.io/proxy-connect-timeout: "60" 
  13.     nginx.ingress.kubernetes.io/proxy-read-timeout: "60" 
  14.     nginx.ingress.kubernetes.io/proxy-send-timeout: "60" 
  15. spec: 
  16.   rules: 
  17.   - host: "airflow.example.com" 
  18.     http: 
  19.       paths: 
  20.       - path: / 
  21.         pathType: Prefix 
  22.         backend: 
  23.           service: 
  24.             name: airflow-webserver 
  25.             port: 
  26.               number: 8080 
  27.  
  28. # 应用到K8S中 
  29. $ kubectl apply -f airflow-ingress.yaml 

六、参考链接

1、https://github.com/apache/airflow/tree/2.1.4

2、https://airflow.apache.org/docs/helm-chart/1.2.0/index.html

 

责任编辑:姜华 来源: YP小站
相关推荐

2020-09-29 19:20:05

鸿蒙

2023-06-26 00:14:28

Openjob分布式任务

2023-05-08 16:38:46

任务调度分布式任务调度

2020-11-06 12:12:35

HarmonyOS

2022-06-13 07:43:21

分布式Spring

2022-06-20 15:32:55

Stage模型分布式开发

2022-01-05 19:34:18

AirflowCeleryMYSQL

2019-11-15 10:16:27

分布式任务框架

2021-11-10 16:10:18

鸿蒙HarmonyOS应用

2021-08-30 10:28:09

FlinkSpark on k8分布式

2023-09-06 08:12:04

k8s云原生

2021-08-16 09:55:41

鸿蒙HarmonyOS应用

2021-05-31 20:24:16

鸿蒙HarmonyOS应用

2022-01-27 08:27:23

Dubbo上下线设计

2022-04-22 13:32:01

K8s容器引擎架构

2021-07-09 05:49:53

分布式代码算法

2017-08-22 11:10:44

大数据分布式调度

2017-07-26 14:55:32

分布式技术架构

2022-01-27 08:44:58

调度系统开源

2022-08-19 18:03:12

Scheduler
点赞
收藏

51CTO技术栈公众号