ジョブを作成
説明
Doris Jobは設定されたプランに従って実行されるタスクです。特定の時刻や指定された時間間隔で事前定義された操作をトリガーするために使用され、いくつかのタスクを自動的に実行するのに役立ちます。機能的には、オペレーティングシステムのスケジュールされたタスク(LinuxのcronやWindowsのスケジュールされたタスクなど)と似ています。
ジョブには2つのタイプがあります:ONE_TIMEとRECURRING。このうち、ONE_TIMEタイプのジョブは指定された時刻にトリガーされます。主に一回限りのタスクに使用される一方、RECURRINGタイプのジョブは指定された時間間隔内で周期的にトリガーされます。この方法は主に定期的なタスクに使用されます。
RECURRINGタイプのジョブは開始時刻と終了時刻、つまりSTARTS/ENDSを指定できます。開始時刻が指定されない場合、デフォルトの初回実行時刻は現在時刻+1スケジューリング周期となります。終了時刻が指定されている場合、タスクの実行が完了します。終了時刻に到達する(または超過する、または次の実行周期が終了時刻を超える)と、FINISHEDステートに更新され、この時点でタスクは生成されなくなります。
ジョブには4つのステート(RUNNING、STOPPED、PAUSED、FINISHED)があります。
初期ステートはRUNNINGです。RUNNINGステートのジョブは確立されたスケジューリング周期に従って実行のためのTASKを生成します。ジョブが完了し終了時刻に到達すると、ステートはFINISHEDに変更されます。
PAUSEDステートのジョブはRESUME操作を通じて再開でき、RUNNINGステートに変更されます。
STOPPEDステートのジョブはユーザーによってアクティブにトリガーされ、実行中のジョブはキャンセルされ、ジョブは削除されます。
FINISHEDステートのジョブは24時間システムに保持され、24時間後に削除されます。
JOBはジョブ情報のみを記述します。実行はTASKを生成します。TASKステータスはPENDING、RUNNING、SUCCEESS、FAILED、CANCELEDに分かれています。
PENDINGはトリガー時刻に到達したがリソースの実行を待機していることを意味します。リソースが割り当てられた後、ステータスはRUNNINGに変更されます。実行の成功/失敗はSUCCESS/FAILEDに変更されます。
CANCELEDはキャンセルステータスを意味します。TASKは最終ステータス、つまりSUCCESS/FAILEDを永続化します。他のステータスは操作中に確認できますが、再起動すると表示されません。
構文
CREATE
JOB
<job_name>
ON SCHEDULE <schedule>
[ COMMENT <string> ]
DO <sql_body>
ここで:
schedule:
{ AT <at_timestamp> | EVERY <interval> [STARTS <start_timestamp> ] [ENDS <end_timestamp> ] }
ここで:
interval:
quantity { WEEK | DAY | HOUR | MINUTE }
必須パラメータ
1. <job_name>
ジョブ名で、db内の一意のイベントを識別します。ジョブ名はグローバルに一意である必要があります。同じ名前のジョブが既に存在する場合、エラーが報告されます。システム内部使用のためinner_プレフィックスを予約しているため、ユーザーはinner_で始まる名前を作成することはできません。
2. <schedule>
ON SCHEDULE句は、ジョブのタイプ、トリガー時刻、および頻度を指定します。一回限りのジョブまたは定期的なジョブを指定できます。
3. <sql_body>
DO句は、ジョブがトリガーされたときに実行される操作、つまりSQL文を指定します。
オプションパラメータ
1. AT <at_timestamp>
形式:'YYYY-MM-DD HH:MM:SS'、一回限りのイベントに使用され、指定された日時タイムスタンプでイベントが一度だけ実行されることを指定し、実行が完了するとジョブステータスはFINISHEDに変更されます。
2. EVERY <interval>
定期的に繰り返される操作を示し、ジョブの実行頻度を指定します。キーワードの後に時間間隔を指定する必要があり、日、時間、分、秒、または週を指定できます。
3. STARTS <start_timestamp>
形式:'YYYY-MM-DD HH:MM:SS'、ジョブの開始時刻を指定するために使用されます。指定されない場合、現在時刻の次の時点から実行されます。開始時刻は現在時刻より大きくなければなりません。
4. ENDS <end_timestamp>
形式:'YYYY-MM-DD HH:MM:SS'、ジョブの終了時刻を指定するために使用されます。指定されない場合、永続的な実行を意味します。日付は現在時刻より大きくなければなりません。開始時刻が指定されている場合、つまりSTARTSが指定されている場合、終了時刻は開始時刻より大きくなければなりません。
アクセス制御要件
このSQLコマンドを実行するユーザーは、少なくとも以下の権限を持つ必要があります:
| Privilege | Object | Notes |
|---|---|---|
| ADMIN_PRIV | Database | 現在この操作を実行するにはADMIN権限のみをサポートしています |
使用上の注意
-
TASKは最新の100件のレコードのみを保持します。
-
現在INSERT internal table操作のみをサポートしており、将来的にはより多くの操作をサポートする予定です。
-
次にスケジュールされたタスク時刻が期限切れになったとき、つまりタスクの実行がスケジュールされる必要があるとき、現在のJOBにまだ実行中の履歴タスクがある場合、現在のタスクスケジューリングはスキップされます。したがって、適切な実行間隔を制御することが非常に重要です。
例
-
my_jobという名前のジョブを作成し、1分ごとに実行されます。実行される操作は、db2.tbl2のデータをdb1.tbl1にインポートすることです。
CREATE JOB my_job ON SCHEDULE EVERY 1 MINUTE DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2; -
db2.tbl2のデータをdb1.tbl1にインポートするために、2020-01-01 00:00:00に一度だけ実行される一回限りのジョブを作成します。
CREATE JOB my_job ON SCHEDULE AT '2020-01-01 00:00:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2; -
2020-01-01 00:00:00から実行を開始し、1日に1回実行する定期的なJobを作成します。実行される操作は、db2.tbl2のデータをdb1.tbl1にインポートすることです。
CREATE JOB my_job ON SCHEDULE EVERY 1 DAY STARTS '2020-01-01 00:00:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2 WHERE create_time >= days_add(now(),-1); -
2020-01-01 00:00:00に開始され、1日に1回実行される定期ジョブを作成する。操作はdb2.tbl2のデータをdb1.tbl1にインポートすることである。ジョブは2020-01-01 00:10:00に終了する。
CREATE JOB my_job ON SCHEDULE EVERY 1 DAY STARTS '2020-01-01 00:00:00' ENDS '2020-01-01 00:10:00' DO INSERT INTO db1.tbl1 SELECT * FROM db2.tbl2 create_time >= days_add(now(),-1);
ベストプラクティス
- 大量のジョブが同時にトリガーされることを避けるため、ジョブを適切に管理してください。これによりタスクの蓄積が発生し、システムの正常な動作に影響を与えます。
- タスク実行間隔は適切な範囲内に設定し、少なくともタスク実行時間より大きくする必要があります。
関連ドキュメント
CONFIG
fe.conf
-
job_dispatch_timer_job_thread_num、時間指定タスクの配信に使用されるスレッド数、デフォルト値は2です。定期実行タスクが大量にある場合は、このパラメータを増加させることができます。
-
job_dispatch_timer_job_queue_size、タスクが蓄積された際に時間指定タスクを格納するキューサイズ、デフォルト値は1024です。大量のタスクが同時にトリガーされる場合は、このパラメータを増加させることができます。そうでなければ、キューが満杯になり、送信されたタスクがブロック状態に入り、後続のタスクの送信が失敗する原因となります。
-
finished_job_cleanup_threshold_time_hour、完了したタスクをクリーンアップする時間しきい値、時間単位、デフォルト値は24時間です。
-
job_insert_task_consumer_thread_num = 10; Insertタスクの実行に使用されるスレッド数、値は0より大きくする必要があります。そうでなければデフォルト値は5です。