使用上の注意
カラム型の推奨事項
テーブル作成時のカラム型の推奨事項:
- Keyカラムは全てのValueカラムの前に配置する必要があります。
- 可能な限り、整数型を選択してください。これは整数型の計算および検索効率が文字列よりもはるかに高いためです。
- 異なる長さの整数型を選択する場合は、十分性の原則に従ってください。
- VARCHARおよびSTRING型の長さについても、十分性の原則に従ってください。
Aggregate Modelの制限
このセクションでは、Aggregate Modelの制限について説明します。
Aggregate Modelは集約されたデータのみを提示します。つまり、まだ集約されていないデータ(例:2つの異なるインポートバッチ)のデータ表示の一貫性を確保する必要があります。以下で例を用いてさらに詳しく説明します。
次のテーブルスキーマがあるとします:
| ColumnName | タイプ | AggregationType | コメント |
|---|---|---|---|
| user_id | LARGEINT | User ID | |
| date | DATE | Date when the data are imported | |
| cost | BIGINT | SUM | Total user consumption |
次のように2つのデータバッチがストレージエンジンにインポートされたと仮定します:
batch 1
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 50 |
| 10002 | 2017-11-21 | 39 |
batch 2
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 1 |
| 10001 | 2017-11-21 | 5 |
| 10003 | 2017-11-22 | 22 |
ご覧のように、これら2つのインポートバッチのUser 10001に関するデータはまだ集約されていません。しかし、ユーザーが次のように集約されたデータのみをクエリできることを保証するために:
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 51 |
| 10001 | 2017-11-21 | 5 |
| 10002 | 2017-11-21 | 39 |
| 10003 | 2017-11-22 | 22 |
データの表示の一貫性を確保するために、クエリエンジンに集約演算子を追加しました。
さらに、集約カラム(Value)において、集約タイプと一致しない集約クラスクエリを実行する場合は、セマンティクスに注意してください。例えば、上記の例で次のクエリを実行した場合:
SELECT MIN(cost) FROM table;
結果は1ではなく5になります。
同時に、この一貫性の保証は一部のクエリの効率を大幅に低下させる可能性があります。
基本的な count (*) クエリを例に取ります:
SELECT COUNT(*) FROM table;
他のデータベースでは、このようなクエリは迅速に結果を返します。実際の実装では、モデルはインポート時に行数をカウントして統計を保存するか、クエリ時に特定の1つのカラムのみをスキャンしてcount値を取得することで、非常に少ないオーバーヘッドでクエリ結果を得ることができるためです。しかし、DorisのAggregation Modelでは、このようなクエリのオーバーヘッドは大きくなります。
前の例について:
batch 1
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 50 |
| 10002 | 2017-11-21 | 39 |
batch 2
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 1 |
| 10001 | 2017-11-21 | 5 |
| 10003 | 2017-11-22 | 22 |
最終的な集約結果は:
| user_id | date | cost |
|---|---|---|
| 10001 | 2017-11-20 | 51 |
| 10001 | 2017-11-21 | 5 |
| 10002 | 2017-11-21 | 39 |
| 10003 | 2017-11-22 | 22 |
select count (*) from table; の正しい結果は4であるべきです。しかし、モデルが user_id カラムのみをスキャンしてクエリ時に集約を実行した場合、最終結果は3(10001、10002、10003)になります。集約を実行しない場合、最終結果は5(2つのバッチで合計5行)になります。明らかに、どちらの結果も間違っています。
正しい結果を得るためには、user_id と date カラムの両方を読み取り、クエリ時に集約を実行する必要があります。
つまり、count (*) クエリでは、Dorisはすべての AGGREGATE KEY カラム(この場合、user_id と date)をスキャンして集約し、セマンティクス的に正しい結果を得る必要があります。つまり、集約カラムが多数ある場合、count (*) クエリは大量のデータのスキャンを伴う可能性があります。
したがって、頻繁に count (*) クエリを実行する必要がある場合は、値1と集約タイプSUMのカラムを追加することで count (*) をシミュレートすることをお勧めします。この方法では、前の例のテーブルスキーマは次のように変更されます:
| ColumnName | タイプ | AggregationType | コメント |
|---|---|---|---|
| user ID | BIGINT | User ID | |
| date | DATE | Date when the data are imported | |
| Cost | BIGINT | SUM | Total user consumption |
| count | BIGINT | SUM | For count queries |
上記ではcountカラムが追加され、その値は常に1になるため、select count (*) from table; の結果は select sum (count) from table; と同等になります。後者は前者よりもはるかに効率的です。しかし、この方法にも欠点があります。それは、ユーザーが AGGREGATE KEY カラムで同じ値を持つ行をインポートしないことが必要だということです。そうでなければ、select sum (count) from table; は select count (*) from table; のセマンティクスではなく、元々インポートされたデータの行数のみを表現することになります。
別の方法は、値1で集約タイプがREPLACEの cound カラムを追加することです。そうすると select sum (count) from table; と select count (*) from table; は同じ結果を生成できます。さらに、この方法ではインポートデータに同じ AGGREGATE KEY カラムがないことを要求されません。
MoW Unique Key Model
Unique ModelのMerge on Write実装は、Aggregate Modelと同じ制限を課しません。Merge on Writeでは、モデルは各インポートされたrowsetに delete bitmap を追加し、上書きまたは削除されるデータをマークします。前の例を使用すると、Batch 1がインポートされた後、データの状態は次のようになります:
batch 1
| user_id | date | cost | delete bit |
|---|---|---|---|
| 10001 | 2017-11-20 | 50 | false |
| 10002 | 2017-11-21 | 39 | false |
Batch 2がインポートされた後、最初のバッチの重複行は削除済みとしてマークされ、2つのデータバッチの状態は次のようになります
batch 1
| user_id | date | cost | delete bit |
|---|---|---|---|
| 10001 | 2017-11-20 | 50 | true |
| 10002 | 2017-11-21 | 39 | false |
batch 2
| user_id | date | cost | delete bit |
|---|---|---|---|
| 10001 | 2017-11-20 | 1 | false |
| 10001 | 2017-11-21 | 5 | false |
| 10003 | 2017-11-22 | 22 | false |
クエリでは、delete bitmap で true とマークされた全てのデータは読み取られないため、データ集約の必要がありません。上記のデータには4つの有効な行があるため、クエリ結果も4であるべきです。これにより、1つのカラムのデータのみをスキャンするため、最小限のオーバーヘッドが実現されます。
テスト環境では、Unique ModelのMerge on Writeでの count(*) クエリは、Aggregate Modelより10倍高いパフォーマンスを提供します。
Duplicate model
Duplicate Modelは集約セマンティクスを含まないため、Aggregate Modelと同じ制限を課しません。どのカラムでも、count (*) クエリでセマンティクス的に正しい結果を返すことができます。
Keyカラム
Duplicate、Aggregate、UniqueモデルについてKeyカラムはテーブル作成時に指定されますが、いくつかの違いがあります:Duplicate ModelではテーブルのKeyカラムは単なる「ソートカラム」と見なすことができ、一意識別子ではありません。AggregateおよびUniqueモデルでは、Keyカラムは「ソートカラム」と「一意識別子カラム」の両方です。
データモデル選択の推奨事項
データモデルはテーブル構築時に確立され、その後変更不可能であるため、適切なデータモデルを選択することは非常に重要です。
- Aggregate Modelは事前集約により、スキャンされるデータ量とクエリ計算量を大幅に削減できます。そのため、固定パターンでのレポートクエリシナリオに非常に適しています。しかし、このモデルは
count (*)クエリに不向きです。同時に、Valueカラムの集約方法が固定されているため、他の種類の集約クエリではセマンティクスの正確性を考慮する必要があります。 - Unique Modelは一意の主キーが必要なシナリオで主キーの一意性を保証します。欠点は、クエリでROLLUPなどの事前集約によってもたらされる利点を活用できないことです。集約クエリに対して高いパフォーマンス要件があるユーザーには、バージョン1.2以降に追加された新しいMerge on Write実装の使用をお勧めします。
- Duplicate Modelは任意の次元のアドホッククエリに適しています。事前集約機能の利点を活用することはできないかもしれませんが、Aggregate Modelを制約するものに制限されず、列指向ストレージの利点(関連するカラムのみを読み取り、すべてのKeyカラムではない)を十分に活用できます。
- ユーザーがpartial-updateを使用する必要がある場合は、ドキュメント partial-update を参照してください