メインコンテンツまでスキップ

クエリオプティマイザ

現在の情報技術の状況において、クエリオプティマイザーは複数の課題に直面しています。一方では、ユーザーからの複雑化するクエリ文と多様なクエリシナリオを処理する必要があり、他方では、ユーザーはクエリのリアルタイム性能に対してますます厳しい要求を持ち、必要な結果への瞬時アクセスを求めています。さらに、新たな要件に対応するため、クエリオプティマイザーは迅速な反復と柔軟な適応の能力を持つ必要があります。

この背景に基づき、Dorisは全く新しいクエリオプティマイザーの開発に着手しました。モダンなオプティマイザーアーキテクチャを活用し、このオプティマイザーは現在のDorisシナリオにおけるクエリリクエストをより効率的に処理することを目指し、卓越した拡張性を提供し、将来のより複雑な要求に対する堅固な基盤を築きます。

オプティマイザーの利点

より賢く

オプティマイザーは、RBO(Rule-Based Optimization)とCBO(Cost-Based Optimization)の各最適化ポイントをルールの形で明確に提示します。各ルールに対して、オプティマイザーはクエリプランの形状を記述するパターンのセットを提供し、最適化可能なクエリプランの精密なマッチングを可能にします。そのため、オプティマイザーは入れ子になった多層サブクエリなどのより複雑なクエリ文をより良くサポートできます。

同時に、オプティマイザーのCBOは先進的なCascadesフレームワークに基づいており、豊富な統計データ、データ特性情報、および綿密に調整されたコストモデルを十分に活用しています。これにより、オプティマイザーは複数テーブル結合などの複雑なクエリを容易かつ熟練して処理する能力を得ています。

より安定

オプティマイザーのすべての最適化ルールは、論理実行プランツリー上で実行されます。クエリの構文と意味を解析した後、クエリはツリー構造に変換されます。旧オプティマイザーと比較して、新オプティマイザーの内部データ構造はより合理的で統一されています。

サブクエリ処理を例に取ると、新オプティマイザーは新しいデータ構造に基づき、旧オプティマイザーにおける多数のルールによるサブクエリの個別処理を回避し、最適化ルールにおける論理エラーの可能性を減少させます。

より柔軟

オプティマイザーのアーキテクチャは合理的かつモダンに設計されており、最適化ルールと処理段階の拡張が非常に便利です。そのため、進化する新しい要件を満たすために、新機能を迅速に追加できます。

オプティマイザーの原理

オプティマイザーの原理

オプティマイザーの実行プロセスは以下のステップに分けられます:

  1. 構文解析: オプティマイザーはSQLテキストを抽象構文ツリー(AST)に変換しようと試みます。SQLテキストが有効な場合、次のステップに進みます。無効な場合、エラーを報告して実行を終了します。

  2. 意味解析: オプティマイザーはAST内の要素に対して意味解析を実行します。このステップでは、SQLクエリ内のテーブル、カラム、関数などが存在するか、またそれらの使用が構文および意味ルールに準拠しているかを確認します。意味が有効な場合、実行を継続し、無効な場合はエラーを報告して実行を終了します。

  3. クエリプランの書き換え(RBO): 構文および意味解析の後、オプティマイザーはRule-Based Optimization(RBO)を実行します。このステップでは、一連の事前定義されたルールを通じてクエリプランを書き換え、実行速度を決定論的に最適化します。一般的な最適化技術には、カラムプルーニング、述語プッシュダウン、パーティションプルーニングなどが含まれます。

  4. クエリプランの最適化(CBO): 最後に、オプティマイザーはCost-Based Optimization(CBO)を実行します。このステップでは、オプティマイザーは検索空間内の等価プランセットを列挙し、それらの実行コストを評価します。異なるプランの実行コストを比較することで、オプティマイザーは最もコストの低いプランを最終実行プランとして選択します。このステップは、クエリが最も効率的な方法で実行されることを保証し、最適なパフォーマンスを提供することを目的としています。

セッション変数

1. プランニングタイムアウトの設定 nereids_timeout_second

  • この変数はクエリプランニングに許可される最大時間を設定するために使用されます。プランニング時間がこの設定値を超えた場合、クエリプランニングは終了され、エラーメッセージが返されます。クエリ文をプランニングする過程で、システムはSQL内のすべての関連テーブルに対して読み取りロックを取得します。これは主にクラスター安定性を維持し、過度に長いプランニング時間による過剰なリソース占有とロック競合を防ぐためです。

  • デフォルト値:30s

  • 適用シナリオ:クエリが大量の外部テーブルまたは特に複雑なクエリ文を含む場合、この値を適切に増加させることで、クエリが正常に進行できるようにします。