テーブルモデル概要
Dorisでテーブルを作成する際、データがどのように保存・管理されるかを定義するために、テーブルモデルを指定する必要があります。Dorisは3つのテーブルモデルを提供しています:Duplicate Key Model、Unique Key Model、Aggregate Key Modelで、これらは異なるアプリケーションシナリオに対応しています。各モデルには、データの重複排除、集約、更新に対応するメカニズムがあります。適切なテーブルモデルを選択することで、ビジネス目標の達成を支援し、データ処理の柔軟性と効率性を確保できます。
テーブルモデルの分類
Dorisは3種類のテーブルモデルをサポートしています:
-
Duplicate Key Model:指定されたKeyカラムの重複を許可し、Dorisのストレージ層は書き込まれたすべてのデータを保持します。このモデルは、すべての元データレコードを保持する必要がある状況に適しています。
-
Unique Key Model:各行が一意のKey値を持つことを保証し、指定されたKeyカラムに対して重複行がないことを保証します。Dorisストレージ層は各キーに対して最新の書き込みデータのみを保持するため、このモデルはデータ更新を含むシナリオに適しています。
-
Aggregate Key Model:Keyカラムに基づいてデータを集約することを可能にします。Dorisストレージ層は集約されたデータを保持し、ストレージ容量を削減してクエリパフォーマンスを向上させます。このモデルは通常、サマリー情報や集約情報(合計や平均など)が必要な状況で使用されます。
テーブル作成後、テーブルモデルのプロパティは確定され、変更できません。ビジネスに適したモデルを選択することは重要です:
-
Duplicate Key Modelは、任意の次元でのアドホッククエリに適しています。事前集約の利点を活用できませんが、集約モデルの制約を受けず、カラム型ストレージモデルの利点を活用できます(すべてのキーカラムを読み込む必要なく、関連するカラムのみを読み込み)。
-
Unique Key Modelは、一意キー制約が必要なシナリオ向けに設計されており、キーの一意性を保証します。ただし、ROLLUPなどの事前集約によるクエリの利点を活用することはできません。
-
Aggregate Key Modelは、事前集約によって集約クエリに必要なデータと計算を大幅に削減でき、固定スキーマのレポートクエリに理想的です。ただし、このモデルは
count(*)クエリに適していません。また、Valueカラムの集約方法が固定されているため、他のタイプの集約クエリを実行する際は、セマンティクスの正確性を考慮する必要があります。 -
部分カラム更新については、Unique Key Modelでの部分カラム更新とAggregate Modelでの部分カラム更新のドキュメントで関連する使用アドバイスを参照してください。
Sort Key
Dorisでは、データはカラム形式で保存され、テーブルはKeyカラムとValueカラムに分けることができます。Keyカラムはグループ化とソートに使用され、Valueカラムは集約に使用されます。Keyカラムは1つ以上のフィールドで構成でき、テーブル作成時には、Aggregate Key、Unique Key、Duplicate Key モデルのカラムに従ってデータがソートされ保存されます。
異なるテーブルモデルでは、テーブル作成時にKeyカラムの指定が必要で、それぞれ異なる意味を持ちます:Duplicate Key modelでは、Keyカラムはソートを表し、一意性制約はありません。Aggregate KeyとUnique Key モデルでは、Keyカラムに基づいて集約が実行され、ソート機能だけでなく一意性制約も強制されます。
Sort Keyの適切な使用により、以下の利点を得ることができます:
-
クエリパフォーマンスの向上:ソートキーは、スキャンが必要なデータ量の削減に役立ちます。範囲クエリやフィルタリングクエリでは、ソートキーによって直接データを特定できます。ソートが必要なクエリでは、ソートキーによってソート処理を高速化することもできます。
-
データ圧縮の最適化:ソートキーに基づいて順序立ててデータを保存することで圧縮効率が向上し、類似データがグループ化されることで圧縮率が大幅に向上し、ストレージ容量が削減されます。
-
重複排除コストの削減:Unique Key Modelを使用する際、ソートキーによってDorisはより効率的に重複排除を実行でき、データの一意性を保証します。
ソートキーを選択する際は、以下の推奨事項に従うことができます:
-
Keyカラムは、すべてのValueカラムより前に配置する必要があります。
-
可能な限り整数型を選択してください。整数型は文字列より計算と検索において大幅に効率的だからです。
-
異なる長さの整数型を選択する場合は、十分な長さを選ぶという原則に従ってください。
-
VARCHARとSTRING型の長さについては、十分な長さを選ぶという原則に従ってください...
テーブルモデル比較
| Duplicate Key Model | Unique Key Model | Aggregate Key Model | |
|---|---|---|---|
| Keyカラムの一意性 | サポートなし、Keyカラムの重複可能 | サポート | サポート |
| 同期マテリアライズドビュー | サポート | サポート | サポート |
| 非同期マテリアライズドビュー | サポート | サポート | サポート |
| UPDATE文 | サポートなし | サポート | サポートなし |
| DELETE文 | 部分サポート | サポート | サポートなし |
| インポート時の全行更新 | サポートなし | サポート | サポートなし |
| インポート時の部分カラム更新 | サポートなし | サポート | 部分サポート |