使用上の注意
カラム型の推奨事項
テーブル作成時のカラム型の推奨事項:
- Keyカラムはすべての Valueカラムより前に配置する必要があります。
- 可能な限り、整数型を選択してください。整数型の計算と検索効率は文字列型よりもはるかに高いためです。
- 異なる長さの整数型を選択する際は、十分性の原則に従ってください。
- VARCHARおよびSTRING型の長さについても、十分性の原則に従ってください。
Aggregateモデルの制限事項
このセクションは Aggregate Modelの制限事項について説明します。
Aggregate Modelは集約されたデータのみを表示します。これは、まだ集約されていないデータ(例:2つの異なるインポートバッチ)のデータ表示の一貫性を保証する必要があることを意味します。以下、例を用いてさらに詳しく説明します。
次のテーブルスキーマがあるとします:
| ColumnName | タイプ | AggregationType | コメント |
|---|---|---|---|
| user_id | LARGEINT | User ID | |
| date | DATE | Date when the data are imported | |
| cost | BIGINT | SUM | Total user consumption |
ストレージエンジンに次のように2つのバッチデータがインポートされているとします:
batch 1
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 50 |
| 10002 | 2017-11-21 | 39 |
batch 2
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 1 |
| 10001 | 2017-11-21 | 5 |
| 10003 | 2017-11-22 | 22 |
ご覧のように、これら2つのインポートバッチにおけるユーザー10001のデータはまだ集約されていません。しかし、ユーザーが次のように集約されたデータのみをクエリできることを保証するために:
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 51 |
| 10001 | 2017-11-21 | 5 |
| 10002 | 2017-11-21 | 39 |
| 10003 | 2017-11-22 | 22 |
データの表示一貫性を保証するため、クエリエンジンに集約オペレーターを追加しました。
さらに、集約カラム(Value)において、集約型と一致しない集約クラスクエリを実行する場合は、セマンティクスに注意してください。例えば、上記の例で次のクエリを実行した場合:
SELECT MIN(cost) FROM table;
結果は1ではなく5になります。
一方、この一貫性保証により一部のクエリで効率が大幅に低下する可能性があります。
基本的なcount (*)クエリを例に取ります:
SELECT COUNT(*) FROM table;
他のデータベースでは、このようなクエリは迅速に結果を返します。実際の実装では、モデルはインポート時に行をカウントして統計を保存することで、またはクエリ時にデータの特定のカラムのみをスキャンしてカウント値を取得することで、非常に少ないオーバーヘッドでクエリ結果を得ることができるためです。しかし、DorisのAggregation Modelでは、このようなクエリのオーバーヘッドは大きくなります。
前の例について:
batch 1
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 50 |
| 10002 | 2017-11-21 | 39 |
batch 2
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 1 |
| 10001 | 2017-11-21 | 5 |
| 10003 | 2017-11-22 | 22 |
最終集約結果は次のようになるため:
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 51 |
| 10001 | 2017-11-21 | 5 |
| 10002 | 2017-11-21 | 39 |
| 10003 | 2017-11-22 | 22 |
select count (*) from table;の正しい結果は4である必要があります。しかし、モデルがuser_idカラムのみをスキャンしてクエリ時に集約を実行した場合、最終結果は3(10001、10002、10003)になります。集約を実行しない場合、最終結果は5(2つのバッチの合計5行)になります。明らかに、どちらの結果も間違っています。
正しい結果を得るためには、user_idとdateカラムの両方を読み込み、クエリ時に集約を実行する必要があります。つまり、count (*)クエリにおいて、Dorisはすべての AGGREGATE KEYカラム(この場合、user_idとdate)をスキャンし、それらを集約してセマンティクス的に正しい結果を得る必要があります。これは、集約されたカラムが多数ある場合、count (*)クエリで大量のデータのスキャンが必要になることを意味します。
したがって、頻繁にcount (*)クエリを実行する必要がある場合は、値1のカラムと集約タイプSUMを追加してcount (*)をシミュレートすることを推奨します。この方法では、前の例のテーブルスキーマは次のように変更されます:
| ColumnName | タイプ | AggregationType | コメント |
|---|---|---|---|
| user ID | BIGINT | User ID | |
| date | DATE | Date when the data are imported | |
| Cost | BIGINT | SUM | Total user consumption |
| count | BIGINT | SUM | For count queries |
上記はcountカラムを追加し、その値は常に1になるため、select count (*) from table;の結果はselect sum (count) from table;と同等になります。後者は前者よりもはるかに効率的です。ただし、この方法にも欠点があります。それは、AGGREGATE KEYカラムで同じ値を持つ行をユーザーがインポートしないことが必要な点です。そうでなければ、select sum (count) from table;はselect count (*) from table;のセマンティクスではなく、元々インポートされたデータの行数のみを表現できます。
別の方法は、値1で集約タイプがREPLACEのcoundカラムを追加することです。これにより、select sum (count) from table;とselect count (*) from table;は同じ結果を生成できます。さらに、この方法ではインポートデータに同じ AGGREGATE KEYカラムがないことを要求しません。
MoW Unique Key Model
Unique ModelのMerge on Write実装は、Aggregate Modelと同じ制限を課しません。Merge on Writeでは、モデルはインポートされた各rowsetに対してdelete bitmapを追加し、上書きまたは削除されるデータをマークします。前の例を使用して、Batch 1がインポートされた後、データステータスは次のようになります:
batch 1
| user_id | date | cost | delete bit |
|---|---|---|---|
| 10001 | 2017-11-20 | 50 | false |
| 10002 | 2017-11-21 | 39 | false |
Batch 2がインポートされた後、最初のバッチの重複行は削除済みとしてマークされ、2つのバッチのデータステータスは次のようになります
batch 1
| user_id | date | cost | delete bit |
|---|---|---|---|
| 10001 | 2017-11-20 | 50 | true |
| 10002 | 2017-11-21 | 39 | false |
batch 2
| user_id | date | cost | delete bit |
|---|---|---|---|
| 10001 | 2017-11-20 | 1 | false |
| 10001 | 2017-11-21 | 5 | false |
| 10003 | 2017-11-22 | 22 | false |
クエリでは、delete bitmapでtrueとマークされたすべてのデータは読み込まれないため、データ集約は不要です。上記データには4つの有効な行があるため、クエリ結果も4になる必要があります。これにより、1つのカラムのデータのみをスキャンするだけで最小限のオーバーヘッドが実現されます。
テスト環境では、Unique ModelのMerge on Writeにおけるcount(*)クエリは、Aggregate Modelの10倍高いパフォーマンスを提供します。
Duplicateモデル
Duplicate Modelは集約セマンティクスを伴わないため、Aggregate Modelと同じ制限を課しません。どのカラムでも、count (*)クエリでセマンティクス的に正しい結果を返すことができます。
Keyカラム
Duplicate、Aggregate、およびUnique Modelでは、テーブル作成時にKeyカラムが指定されますが、いくつかの違いがあります:Duplicate Modelでは、テーブルのKeyカラムは単なる「ソートカラム」と見なすことができ、一意識別子ではありません。AggregateおよびUnique Modelでは、Keyカラムは「ソートカラム」と「一意識別子カラム」の両方です。
データモデル選択の推奨事項
データモデルはテーブル構築時に確立され、その後取り消すことができないため、適切なデータモデルを選択することは非常に重要です。
- Aggregate Modelは、事前集約によりスキャンするデータ量とクエリ計算量を大幅に削減できます。したがって、固定パターンを持つレポートクエリシナリオに非常に適しています。しかし、このモデルは
count (*)クエリに不親和的です。一方、Valueカラムの集約方法が固定されているため、他のタイプの集約クエリではセマンティクスの正確性を考慮する必要があります。 - Unique Modelは一意の主キーが必要なシナリオで主キーの一意性を保証します。欠点は、クエリでROLLUPなどの事前集約によってもたらされる利点を活用できないことです。集約クエリに対して高パフォーマンス要件を持つユーザーには、バージョン1.2以降に追加された新しいMerge on Write実装の使用を推奨します。
- Duplicate Modelは任意の次元のad-hocクエリに適しています。事前集約機能の利点を活用できない場合もありますが、Aggregate Modelの制約に制限されることなく、カラムストレージの利点(関連するカラムのみを読み込み、すべてのKeyカラムではない)を最大限に活用できます。
- ユーザーがpartial-updateを使用する必要がある場合は、ドキュメントpartial-updateを参照してください