ソートキーとPrefix Index
インデックスの原理
DorisはSSTable(Sorted String table)に類似した構造でデータを保存します。この構造は、1つまたは複数の指定された列に従ってソートして保存できる順序付きデータ構造です。このようなデータ構造では、ソートされた列のすべてまたは一部での検索条件が非常に効率的です。
Aggregate、Unique、Duplicateデータモデルにおいて、基盤となるデータストレージは、CREATE TABLE文でAGGREGATE KEY、UNIQUE KEY、DUPLICATE KEYの下で指定された列に従ってソートされます。これらのキーはソートキーと呼ばれます。ソートキーにより、Dorisはクエリ時にソートされた列に条件を指定することで、テーブル全体をスキャンすることなく必要なデータを迅速に特定でき、検索の複雑さを軽減し、クエリを高速化できます。
ソートキーに基づいて、Dorisはプレフィックスインデックスを導入しています。プレフィックスインデックスはスパースインデックスです。テーブル内のデータは、対応する行数に従って論理データブロック(Data Block)を形成します。各論理データブロックは、プレフィックスインデックステーブル内にインデックスエントリを保存し、インデックスエントリの長さは36バイトを超えません。エントリの内容は、データブロック内の最初の行のソート列で構成されるプレフィックスです。プレフィックスインデックステーブルを検索する際、行データが配置されている論理データブロックの開始行番号の決定に役立ちます。プレフィックスインデックスは比較的小さいため、メモリ内に完全にキャッシュでき、迅速なデータブロック特定を可能にし、クエリ効率を大幅に向上させます。
データブロック内の行の最初の36バイトが、その行のプレフィックスインデックスとして使用されます。VARCHAR型に遭遇した場合、プレフィックスインデックスは直接切り捨てられます。最初の列がVARCHARの場合、36バイトに達しなくても直接切り捨てられ、後続の列はプレフィックスインデックスに含まれません。
使用ケース
プレフィックスインデックスは、等価クエリと範囲クエリを高速化できます。
インデックスの管理
プレフィックスインデックスを定義する特定の構文はありません。テーブル作成時に、テーブルのKeyの最初の36バイトが自動的にプレフィックスインデックスとして取得されます。
プレフィックスインデックス選択の推奨事項
テーブルのKey定義は一意であるため、テーブルには1セットのプレフィックスインデックスのみがあります。そのため、テーブル構造を設計する際に適切なプレフィックスインデックスを選択することが重要です。以下の推奨事項を検討できます:
- WHEREフィルタリング条件で最も一般的に使用されるフィールドをKeyとして選択する。
- より頻繁に使用されるフィールドを前面に配置する。プレフィックスインデックスは、WHERE条件内でKeyのプレフィックスの一部であるフィールドに対してのみ有効です。
プレフィックスインデックスでカバーされていない他の列を条件として使用するクエリの場合、効率が要件を満たさない可能性があります。2つの解決策があります:
- 高速化が必要なクエリ列に転置インデックスを作成する。テーブルには多くの転置インデックスを設定できます。
- DUPLICATEテーブルの場合、列順序を調整した対応する強一貫性マテリアライズドビューを作成することで、間接的にマルチプレフィックスインデックスを実現できます。詳細については、クエリ高速化/マテリアライズドビューを参照してください。
インデックスの使用
プレフィックスインデックスは、WHERE句内の等価および範囲クエリを高速化するために使用されます。該当する場合に自動的に有効になり、特別な構文は必要ありません。
プレフィックスインデックスの高速化効果は、Query Profile内の以下のメトリクスを使用して分析できます:
- RowsKeyRangeFiltered:プレフィックスインデックスによってフィルタリングされた行数。他のRows値と比較して、インデックスのフィルタリング効果を分析できます。
使用例
- テーブルのソート列が以下の通りだとすると、プレフィックスインデックスは:user_id(8 Bytes)+ age(4 Bytes)+ message(プレフィックス20 Bytes)となります。
| ColumnName | タイプ |
|---|---|
| user_id | BIGINT |
| age | INT |
| message | VARCHAR(100) |
| max_dwell_time | DATETIME |
| min_dwell_time | DATETIME |
- テーブルのソート列が以下の通りだとすると、プレフィックスインデックスはuser_name(20 Bytes)となります。36バイトに達しなくても、VARCHARに遭遇したため直接切り捨てられ、後続の列は含まれません。
| ColumnName | タイプ |
|---|---|
| user_name | VARCHAR(20) |
| age | INT |
| message | VARCHAR(100) |
| max_dwell_time | DATETIME |
| min_dwell_time | DATETIME |
- クエリ条件がプレフィックスインデックスのプレフィックスである場合、クエリを大幅に高速化できます。例えば、最初の例で以下のクエリを実行する場合:
SELECT * FROM table WHERE user_id = 1829239 AND age = 20;
このクエリは以下のクエリよりもはるかに効率的です:
SELECT * FROM table WHERE age = 20;
したがって、テーブルを作成する際に正しい列の順序を選択することで、クエリの効率を大幅に向上させることができます。