パラレリズムチューニング

概要

Dorisクエリは、MPP（Massively Parallel Processing）フレームワークで実行され、各クエリは複数のBE（Backend Executor）間で並列実行されます。同時に、単一のBE内では、クエリ実行効率を向上させるためにマルチスレッド並列アプローチが採用されています。現在、クエリ、DML（Data Manipulation Language）、およびDDL（Data Definition Language）を含むすべてのタイプのステートメントが並列実行をサポートしています。

単一のBE内での並列度の制御パラメータはparallel_pipeline_task_numで、これは実行時に単一のFragmentが使用するワーキングタスクの数を指します。実際の本番環境では、不適切な並列度設定によりパフォーマンスの問題が発生する場合があります。以下の例では、並列度の最適化のケースを示しています。

並列度チューニングの原則

parallel_pipeline_task_numを設定する目的は、マルチコアリソースを最大限活用し、クエリレイテンシを削減することです。ただし、マルチコア並列実行を可能にするために、通常、一部のデータshuffleオペレータと複数スレッド間の同期ロジックが導入され、これが不要なリソースの浪費につながることもあります。

Dorisのデフォルト値は0で、これはBEのCPUコア数の半分です。この値は、単一クエリと並行操作の両方のリソース利用率を考慮しており、通常、ユーザーが調整のために介入する必要はありません。パフォーマンスのボトルネックがある場合は、以下の例を参照して必要な調整を行ってください。Dorisは適応戦略を継続的に改善しており、通常は特定のシナリオやSQLレベルで必要な調整を行うことが推奨されます。

BEが16のCPUコアを持つと仮定します：

単一テーブルでの単純な操作（単一テーブルのポイントクエリ、少量のデータを取得するためのWHERE句スキャン、少量のデータのLIMIT、またはマテリアライズドビューのヒットなど）の場合、並列度を1に設定できます。

説明：単一テーブルでの単純な操作は1つのFragmentのみを含みます。このようなクエリのボトルネックは通常、データスキャンと処理にあります。データスキャンスレッドとクエリ実行スレッドは分離されており、データスキャンスレッドは適応的に並列スキャンを実行します。ここでは、ボトルネックはクエリスレッドではないため、並列度を直接1に設定できます。
2つのテーブルのJOINまたはアグリゲーションクエリを含むクエリで、データ量が大きく、CPU依存のクエリであることが確認されている場合、並列度を16に設定できます。

説明：2つのテーブルのJOINまたはアグリゲーションクエリは、データ計算集約的なクエリです。CPUが十分に利用されていない場合は、デフォルト値をベースに並列度を増やしてPipeline実行エンジンの並列機能を活用し、計算にCPUリソースを最大限活用することを検討してください。各PipelineTaskが割り当てられたCPUリソースを最大限活用できることは保証されません。したがって、並列度を適切に調整し、例えば16に設定して、CPUをより有効活用できます。ただし、並列度を無限に増やすべきではありません。48に設定しても実質的な利益をもたらさず、代わりにスレッドスケジューリングオーバーヘッドとフレームワークスケジューリングオーバーヘッドが増加します。
ストレステストシナリオで、ストレステスト内の複数のクエリがCPUを最大限活用できる場合、並列度を1に設定できます。

説明：ストレステストシナリオでは、十分なクエリタスクがあります。過度の並列度もスレッドスケジューリングオーバーヘッドとフレームワークスケジューリングオーバーヘッドをもたらします。この場合、1に設定することがより合理的です。
複雑なクエリの場合、Profileとマシンの負荷に基づいて並列度を柔軟に調整する必要があります。ここでは、デフォルト値を使用することが推奨されます。適切でない場合は、4-2-1の段階的調整を試すことができ、クエリパフォーマンスとマシンの負荷を観察する必要があります。

並列度チューニングの方法

Dorisでは、ユーザーがクエリの並列度を手動で指定して、クエリ実行時の並列実行効率を調整できます。

SQLレベルでの調整

SQL HINTを使用して、単一のSQLステートメントの並列度を指定します。これにより、異なるSQLステートメントの並列度を柔軟に制御して、最適な実行結果を達成できます。

select /*+SET_VAR("parallel_pipeline_task_num=8")*/ * from nation, lineitem where lineitem.l_suppkey = nation.n_nationkey
select /*+SET_VAR("parallel_pipeline_task_num=8,runtime_filter_mode=global")*/ * from nation, lineitem where lineitem.l_suppkey = nation.n_nationkey

セッションレベルの調整

セッション変数を通じてセッションレベルでの並列度を調整します。セッション内のすべてのクエリ文は、指定された並列度で実行されます。単一行のSQLクエリでもこの並列度が使用されるため、パフォーマンスの低下を招く可能性があることにご注意ください。

set parallel_pipeline_task_num = 8;

グローバル調整

グローバル調整が必要な場合、通常はCPU使用率の調整を伴い、並列性をグローバルに設定できます。

set global parallel_pipeline_task_num = 8;

Tablets と並列性

バージョン 2.1 以降、Doris は tablets 数からの並列性の分離をサポートしています。

以前のバージョンでは、並列性はクエリに関与する tablets 数を超えることができませんでした。例えば、クエリが 5 つの tablets に関与する場合、最大スキャン同時実行数は 5 のみでした。これにより、一部の大きな tablets が同時に読み取られることが妨げられる可能性がありました。

新しいバージョンでは、Doris はシャード内での同時読み取りをサポートしています。この機能は自動的に有効化され、ユーザー設定は必要ありません。

この機能は Duplicate および Unique Key Merge-On-Write テーブルモデルのみをサポートしていることに注意してください。Aggregate および Unique Key Merge-On-Read モデルには適用されません。これら 2 つのモデルでは、クエリ並列性は依然として tablets 数によって制約されます。

Best Practice

Case 1: 高同時実行負荷シナリオでの高並列性による高 CPU 使用率

オンラインで高い CPU 使用率が観測され、一部の低レイテンシクエリのパフォーマンスに影響を与える場合、CPU 使用率を削減するためにクエリ並列性の調整を検討してください。Doris の設計思想は、可能な限り迅速にクエリ結果を取得するためにより多くのリソースを使用することを優先するため、オンラインリソースが限られている一部のシナリオでは、これにより性能が低下する可能性があります。したがって、並列性を適切に調整することで、限られたリソース下でのクエリの全体的な安定性と効率を向上させることができます。

並列性をデフォルト値の 0（CPU コア数の半分）から 4 に設定します：

set global parallel_pipeline_task_num = 4;

グローバル設定後、現在の接続と新しい接続に対して効果が適用されます。既存の他の接続は影響を受けません。即座にグローバルな効果が必要な場合は、FE（Frontend）を再起動できます。調整後、CPU使用率は以前のピーク値の60%に削減され、一部の低レイテンシクエリへの影響が軽減されます。

ケース2：並列性を増加させてクエリ高速化のためにCPUをさらに活用する

Dorisの現在のデフォルト並列性はCPUコア数の半分であり、一部の計算集約的なシナリオでは、クエリ高速化のためにCPUを十分に活用できません。

select sum(if(t2.value is null, 0, 1)) exist_value, sum(if(t2.value is null, 1, 0)) no_exist_value
from  t1 left join  t2 on t1.key = t2.key;

左側のテーブルに20億行、右側のテーブルに500万行があるシナリオでは、上記のSQLの実行に28秒かかります。Profileを確認してください：

HASH_JOIN_OPERATOR (id=3, nereids_id=448):
                - PlanInfo
                   - join op: LEFT OUTER JOIN(BROADCAST)[]
                   - equal join conjunct: (value = value)
                   - cardinality=2,462,330,332
                   - vec output tuple id: 5
                   - output tuple id: 5
                   - vIntermediate tuple ids: 4 
                   - hash output slot ids: 16 
                   - projections: value
                   - project output tuple id: 5
                - BlocksProduced: sum 360.099K (360099), avg 45.012K (45012), max 45.014K (45014), min 45.011K (45011)
                - CloseTime: avg 8.44us, max 13.327us, min 5.574us
                - ExecTime: avg 26sec153ms, max 26sec261ms, min 26sec33ms
                - InitTime: avg 7.122us, max 13.395us, min 4.541us
                - MemoryUsage: sum, avg, max, min 
                  - PeakMemoryUsage: sum 1.16 MB, avg 148.00 KB, max 148.00 KB, min 148.00 KB
                  - ProbeKeyArena: sum 1.16 MB, avg 148.00 KB, max 148.00 KB, min 148.00 KB
                - OpenTime: avg 2.967us, max 4.120us, min 1.562us
                - ProbeRows: sum 1.4662330332B (1462330332), avg 182.791291M (182791291), max 182.811875M (182811875), min 182.782658M (182782658)
                - ProjectionTime: avg 165.392ms, max 169.762ms, min 161.727ms
                - RowsProduced: sum 1.462330332B (1462330332), avg 182.791291M (182791291), max 182.811875M (182811875), min 182.782658M (182782658)

ここでの主な時間のかかる部分：ExecTime: avg 26sec153ms, max 26sec261ms, min 26sec33ms はすべてJoin演算子で発生しており、処理されたデータの総量：ProbeRows: sum 1.4662330332B は14億であり、これは典型的なCPU集約的な計算シナリオです。マシンの監視を観察すると、CPUリソースが十分に活用されておらず、CPU使用率が60%であることがわかります。この時、並列度を上げてアイドル状態のCPUリソースをさらに活用し、高速化を図ることを検討します。

並列度を以下のように設定します：

set parallel_pipeline_task_num = 16;

クエリの実行時間は28秒から19秒に短縮され、CPU使用率は60%から90%に向上しました。

概要

通常、ユーザーはクエリの並列性を調整する必要はありません。調整が必要な場合は、以下の点に注意してください：

CPU使用率から開始することを推奨します。PROFILEツールの出力を通じてCPUボトルネックかどうかを観察し、並列性に対して合理的な修正を行うよう試してください。
単一のSQLの調整は比較的安全です。過度に積極的なグローバル修正は行わないよう試してください。

概要​

並列度チューニングの原則​

並列度チューニングの方法​

SQLレベルでの調整​

セッションレベルの調整​

グローバル調整​

Tablets と並列性​

Best Practice​

Case 1: 高同時実行負荷シナリオでの高並列性による高 CPU 使用率​

ケース2：並列性を増加させてクエリ高速化のためにCPUをさらに活用する​

概要​

概要