Elastic Compute Node
エラスティックコンピュートノードは、BEノードの特殊なタイプとして、データストレージ機能を持たず、データ計算のみを担当します。そのため、コンピュートノードはステートレスなBEノードとみなすことができ、簡単に追加・削除が可能です。
レイクハウスデータ分析シナリオでは、エラスティックコンピュートノードを使用してHive、Iceberg、Hudi、Paimon、JDBCなどの外部データソースをクエリできます。Dorisは外部データソースのデータのストレージを処理しないため、エラスティックコンピュートノードを使用して外部データソースの計算能力を簡単に拡張できます。さらに、コンピュートノードにキャッシュディレクトリを設定して、外部データソースのホットデータをキャッシュし、データ読み取りをさらに高速化することも可能です。
エラスティックコンピュートノードはDorisのストレージ・計算統合モードでのエラスティックリソース制御に適しています。Doris 3.0のストレージ・計算分離アーキテクチャでは、BEノードはステートレスであるため、別個のエラスティックコンピュートノードは不要になります。
コンピュートノードの使用方法
BEノードタイプ
ストレージ・計算統合モードでは、BEノードは2つのタイプに分けられます:
-
Mix
混合ノード。これはBEノードのデフォルトタイプです。これらのノードは計算とDoris内部テーブルデータのストレージの両方に参加します。
-
Computation
エラスティックコンピュートノード。データストレージは処理せず、データ計算のみを行います。
コンピュートノードの追加
BEのbe.conf設定ファイルに以下の設定を追加します:
be_node_role=computation
その後、BEノードを起動すると、Computationタイプとして動作します。
次に、Dorisに接続して以下を実行します:
ALTER SYSTEM ADD BACKEND
このBEノードを追加します。追加に成功すると、SHOW BACKENDSのNodeRole列でノードタイプがcomputationとして表示されます。
コンピュートノードの使用
コンピュートノードを有効にし、その動作を制御するには、FE設定ファイルfe.confで以下のパラメータを設定する必要があります:
| パラメータ名 | 説明 |
|---|---|
prefer_compute_node_for_external_table | デフォルトはfalseです。trueに設定すると、外部テーブルのクエリが優先的にコンピュートノードに割り当てられます。falseの場合、外部テーブルのクエリは任意のBEノードに割り当てられます。クラスタにコンピュートノードがない場合、このパラメータは効果がありません。 |
min_backend_num_for_external_table | prefer_compute_node_for_external_tableがtrueの場合のみ有効です。クラスタ内のコンピュートノード数がこの値未満の場合、外部テーブルのクエリは一部の混合ノードの取得を試行して割り当て、総ノード数がこの値に達するようにします。クラスタ内のコンピュートノード数がこの値を超える場合、外部テーブルのクエリはコンピュートノードのみに割り当てられます。バージョン2.0(含む)以前では、このパラメータのデフォルト値は3でした。バージョン2.1以降、デフォルト値は-1で、現在のコンピュートノード数のみを使用することを意味します。 |
min_backend_num_for_external_tableのさらなる説明:
クラスタに3個のコンピュートノードと5個の混合ノードがあると仮定します。
min_backend_num_for_external_tableが3以下に設定されている場合、外部テーブルクエリは3個のコンピュートノードのみを使用します。3を超える値(例:6)に設定されている場合、外部テーブルクエリは3個のコンピュートノードに加えて追加で3個の混合ノードを計算に使用します。
要約すると、このパラメータは主に外部テーブル計算に参加できるBEノードの最小数に使用され、コンピュートノードを優先的に選択します。このパラメータを増やすと、より多くのBEノード(コンピュートノードに限定されない)が外部テーブルクエリ処理に参加できるようになり、パラメータを減らすと外部テーブルクエリ処理に参加するBEノード数を制限できます。
注意:
バージョン2.1以降、
min_backend_num_for_external_tableは-1に設定できます。以前のバージョンでは、このパラメータは正数である必要があります。このパラメータはprefer_compute_node_for_external_table = trueの場合のみ有効です。
min_backend_num_for_external_tableの値がBEノードの総数を超える場合、最大ですべてのBEが選択されます。上記のパラメータは、FEノードを再起動することなく
ADMIN SET FRONTEND CONFIGコマンドを使用して動的に変更できます。すべてのFEノードで設定する必要があります。または、fe.confに設定を追加してFEノードを再起動します。
ベストプラクティス
フェデレーテッドクエリのリソース分離とエラスティックスケーリング
フェデレーテッドクエリシナリオでは、ユーザーは外部テーブルデータのクエリ用に専用のコンピュートノードセットを展開できます。これにより、外部テーブルクエリの負荷(Hiveでの大規模分析など)と内部テーブルクエリの負荷(低遅延の高速データ分析など)を分離できます。
同時に、ステートレスなBEノードとして、コンピュートノードは簡単にスケールアップ・ダウンできます。例えば、k8sを使用してエラスティックコンピュートノードクラスタセットを展開し、ビジネスピーク時にはより多くのコンピュートノードをデータレイク分析に活用し、オフピーク時には迅速にスケールダウンしてコストを削減できます。
よくある問題
- 混合ノードとコンピュートノードは相互に変換できますか?
コンピュートノードは混合ノードに変換できます。ただし、混合ノードはコンピュートノードに変換できません。
- コンピュートノードはデータストレージディレクトリを設定する必要がありますか?
はい。コンピュートノードのデータストレージディレクトリはユーザーデータを保存せず、cluster_idなどのBEノード自体の情報ファイルや、動作中の一時ファイルのみを保存します。
コンピュートノードのストレージディレクトリは少量のディスク容量(MBレベル)のみを必要とし、ユーザーデータに影響を与えることなく、ノードと一緒にいつでも破棄できます。
- コンピュートノードと混合ノードはファイルキャッシュディレクトリを設定できますか?
ファイルキャッシュは、最近アクセスしたリモートストレージシステム(HDFSまたはオブジェクトストレージ)からのデータファイルをキャッシュすることで、同じデータの後続クエリを高速化します。
コンピュートノードと混合ノードの両方がファイルキャッシュディレクトリを設定できます。ファイルキャッシュディレクトリは事前に作成する必要があります。
- コンピュートノードはDECOMMISION操作による廃止が必要ですか?
いいえ。コンピュートノードはDROP BACKEND操作を使用して直接削除できます。