python如何调度自动跑批

Python调度自动跑批的方式有多种，主要包括：使用cron定时任务、使用第三方库如APScheduler、以及结合Airflow进行复杂任务调度。在这里，我们将详细介绍如何使用APScheduler进行自动跑批。

APScheduler（Advanced Python Scheduler）是一个轻量级的任务调度库，支持多种调度方式，如固定时间间隔、日期、以及cron表达式。它可以与各种后端存储和执行器结合使用，非常灵活和强大。

一、APScheduler概述

APScheduler是一个Python库，提供了简洁易用的API来调度任务。它支持四种调度方式：

date：在特定时间点运行一次任务。
interval：按固定时间间隔运行任务。
cron：按CRON表达式运行任务。
timedelta：按时间差运行任务。

安装APScheduler

在开始使用APScheduler之前，需要先进行安装。可以通过pip进行安装：

pip install apscheduler

二、APScheduler基础用法

1、Date调度器

Date调度器用于在特定的时间点运行一次任务。例如，下面的代码将在指定的日期时间运行任务：

from datetime import datetime
from apscheduler.schedulers.blocking import BlockingScheduler
def my_job():
    print("Job executed!")
scheduler = BlockingScheduler()
scheduler.add_job(my_job, 'date', run_date=datetime(2023, 12, 25, 12, 0, 0))
scheduler.start()

2、Interval调度器

Interval调度器用于按固定时间间隔运行任务。例如，下面的代码每隔5秒运行一次任务：

from apscheduler.schedulers.blocking import BlockingScheduler
def my_job():
    print("Job executed!")
scheduler = BlockingScheduler()
scheduler.add_job(my_job, 'interval', seconds=5)
scheduler.start()

3、Cron调度器

Cron调度器用于按CRON表达式运行任务。例如，下面的代码每隔1分钟的第30秒运行一次任务：

from apscheduler.schedulers.blocking import BlockingScheduler
def my_job():
    print("Job executed!")
scheduler = BlockingScheduler()
scheduler.add_job(my_job, 'cron', second='30')
scheduler.start()

三、APScheduler高级用法

1、持久化任务存储

为了在程序重启后能够继续执行未完成的任务，APScheduler支持将任务存储到数据库中。以下是使用SQLite数据库进行任务存储的示例：

from apscheduler.schedulers.blocking import BlockingScheduler
from apscheduler.jobstores.sqlalchemy import SQLAlchemyJobStore
jobstores = {
    'default': SQLAlchemyJobStore(url='sqlite:///jobs.sqlite')
}
scheduler = BlockingScheduler(jobstores=jobstores)
def my_job():
    print("Job executed!")
scheduler.add_job(my_job, 'interval', seconds=5)
scheduler.start()

2、任务执行器

APScheduler支持多种任务执行器，如线程池执行器和进程池执行器。以下是使用线程池执行器的示例：

from apscheduler.schedulers.blocking import BlockingScheduler
from apscheduler.executors.pool import ThreadPoolExecutor
executors = {
    'default': ThreadPoolExecutor(20)
}
scheduler = BlockingScheduler(executors=executors)
def my_job():
    print("Job executed!")
scheduler.add_job(my_job, 'interval', seconds=5)
scheduler.start()

3、任务监听器

APScheduler支持任务监听器，可以在任务执行前后进行特定操作。以下是一个任务监听器的示例：

from apscheduler.schedulers.blocking import BlockingScheduler
from apscheduler.events import EVENT_JOB_EXECUTED, EVENT_JOB_ERROR
def my_job():
    print("Job executed!")
def job_listener(event):
    if event.exception:
        print(f'Job {event.job_id} failed')
    else:
        print(f'Job {event.job_id} executed successfully')
scheduler = BlockingScheduler()
scheduler.add_job(my_job, 'interval', seconds=5)
scheduler.add_listener(job_listener, EVENT_JOB_EXECUTED | EVENT_JOB_ERROR)
scheduler.start()

四、结合Airflow进行复杂任务调度

Apache Airflow是一个功能强大的任务调度和工作流管理平台。相比于APScheduler，它提供了更强大的功能和更友好的用户界面。Airflow的核心概念是DAG（有向无环图），它用来定义任务之间的依赖关系。

1、安装Airflow

首先，我们需要安装Airflow。可以通过pip进行安装：

pip install apache-airflow

2、定义DAG和任务

在Airflow中，任务和DAG是通过Python脚本定义的。以下是一个简单的DAG示例：

from airflow import DAG
from airflow.operators.python_operator import PythonOperator
from datetime import datetime
def my_task():
    print("Task executed!")
default_args = {
    'owner': 'airflow',
    'start_date': datetime(2023, 12, 1),
    'retries': 1,
}
dag = DAG('my_dag', default_args=default_args, schedule_interval='@daily')
task = PythonOperator(
    task_id='my_task',
    python_callable=my_task,
    dag=dag,
)