メインコンテンツまでスキップ

基本概念

このドキュメントは主にDorisにおけるテーブル作成とデータパーティション分割、およびテーブル作成操作時に発生する可能性のある問題と解決策について紹介します。

行と列

Dorisでは、データは論理的にテーブルの形式で記述されます。

テーブルは行と列で構成されます:

  • 行:ユーザーデータの単一行を表します

  • 列:データの行における異なるフィールドを記述するために使用されます

  • 列は2つのタイプに分類できます:KeyとValue。ビジネスの観点から、KeyとValueはそれぞれディメンション列とメトリック列に対応できます。Apache Dorisのkey列は、テーブル作成文で指定された列で、unique keyaggregate key、またはduplicate keyキーワードに続く列です。残りの列はvalue列です。集約モデルの観点から、同じKey列を持つ行は単一の行に集約されます。value列の集約方法は、テーブル作成時にユーザーが指定します。集約モデルの詳細については、DorisのData Modelを参照してください。

パーティションとバケット

Dorisは2レベルのパーティション分割とバケット分割方法を使用してデータを整理・管理します。

パーティション

パーティションとは、テーブル内の特定の列値に基づいて、テーブルをより小さく、管理しやすい、重複しないサブセットに分割することを指します。データの各サブセットはパーティションと呼ばれます。各データ行は正確に1つの特定のパーティションに属します。パーティションは最小の論理管理単位と見なすことができます。

現在、DorisはRangeとListの2種類のパーティション分割をサポートしています。テーブル作成時にパーティションが指定されていない場合、Dorisはテーブル内のすべてのデータを含むデフォルトパーティションを生成し、これはユーザーに対して透明です。

データ分散とクエリパターンに基づくパーティション分割には、いくつかの利点があります:

  • クエリパフォーマンスの向上:パーティション分割により、システムはクエリ条件に基づいて関連のないパーティションを除外し、スキャンするデータ量を削減して、クエリ効率を大幅に向上させることができます。これは大規模なデータセットを処理する際に特に有益で、パーティション戦略はI/Oオーバーヘッドを大幅に削減できます。

  • 柔軟な管理:パーティション分割により、時間や地理的な論理に基づいてデータを分割し、データアーカイブ、クリーニング、バックアップを促進できます。たとえば、時間によるパーティション分割は、履歴データと新規追加データを効率的に管理し、効率的な時間ベースのデータメンテナンス戦略をサポートできます。

バケット

バケット分割とは、パーティション内のデータを何らかのルールに従って、より小さく、重複しない単位にさらに分割することを指します。各データ行は正確に1つの特定のバケットに属します。特定の列値に基づいてデータを分割するパーティション分割とは異なり、バケット分割は事前定義されたバケット全体にデータを均等に分散させようとし、それによってデータスキューを削減します。バケット分割は、均等なデータ分散を確保し、データの局所性を向上させることにより、クエリパフォーマンスを向上させます。

現在、DorisはHashとRandomの2種類のバケット分割をサポートしています。

バケットは物理レベルでデータシャード(Tablet)に対応し、データシャードは物理的に独立して保存されます。これらは、データ移動やレプリケーションなどの操作における最小の物理ストレージ単位です。

適切なバケット分割には、いくつかの利点があります:

  • 均等なデータ分散:バケット分割はデータをバケット全体に均等に分散し、データの集中やスキューのリスクを削減し、特定のノードやストレージデバイスでのリソースオーバーロードを防ぎます。

  • ホットスポットの削減:データを均等に分散することにより、バケット分割は特定のノードやパーティションのオーバーロードリスクを削減し、ホットスポットを防いで、システムの安定性と処理能力を向上させます。

  • 並行パフォーマンスの向上:バケット分割は並行クエリのパフォーマンスを向上させます。特に、複数のクエリリクエストが同じパーティション内の異なるデータにアクセスする必要がある場合に有効です。バケット分割の粒度により、システムは複数のリクエストを並列で効率的に処理し、スループットを向上させることができます。

テーブル作成の例

Apache DorisのCREATE TABLEは同期コマンドで、SQLが実行されると結果を返します。成功した戻り値は、テーブル作成が成功したことを示します。詳細については、CREATE-TABLEを参照するか、HELP CREATE TABLEコマンドを入力してください。

以下のコードサンプルは、RANGEパーティション分割とHashバケットによってApache Dorisでテーブルを作成する方法を紹介します。

-- Range Partition
CREATE TABLE IF NOT EXISTS example_range_tbl
(
`user_id` LARGEINT NOT NULL COMMENT "User ID",
`date` DATE NOT NULL COMMENT "Date when the data are imported",
`timestamp` DATETIME NOT NULL COMMENT "Timestamp when the data are imported",
`city` VARCHAR(20) COMMENT "User location city",
`age` SMALLINT COMMENT "User age",
`sex` TINYINT COMMENT "User gender",
`last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "User last visit time",
`cost` BIGINT SUM DEFAULT "0" COMMENT "Total user consumption",
`max_dwell_time` INT MAX DEFAULT "0" COMMENT "Maximum user dwell time",
`min_dwell_time` INT MIN DEFAULT "99999" COMMENT "Minimum user dwell time"
)
ENGINE=OLAP
AGGREGATE KEY(`user_id`, `date`, `timestamp`, `city`, `age`, `sex`)
PARTITION BY RANGE(`date`)
(
PARTITION `p201701` VALUES [("2017-01-01"), ("2017-02-01")),
PARTITION `p201702` VALUES [("2017-02-01"), ("2017-03-01")),
PARTITION `p201703` VALUES [("2017-03-01"), ("2017-04-01"))
)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 16
PROPERTIES
(
"replication_num" = "1"
);

ここではAggregate Key Modelを例として使用します。Aggregate Key Modelでは、集約タイプ(SUM、REPLACE、MAX、またはMIN)で指定されたすべての列がValue列になります。残りはKey列です。

CREATE TABLEPROPERTIESセクションで設定できるフィールドの詳細については、CREATE-TABLEを参照してください。

ENGINEのデフォルトタイプはOLAPです。OLAPのみがApache Doris自体によるデータ管理とストレージを担当します。MySQL、Broker、ESなどの他のエンジンタイプは、本質的には他の外部データベースやシステムのテーブルへのマッピングに過ぎず、Apache Dorisがこのデータを読み取ることを可能にします。ただし、Apache Doris自体は、OLAP以外のエンジンタイプについては、テーブルやデータの作成、管理、または保存を行いません。

IF NOT EXISTSは、テーブルが以前に作成されていない場合に作成されることを示します。これはテーブル名が存在するかどうかのみをチェックし、新しいテーブルのスキーマが既存のテーブルのスキーマと同じかどうかはチェックしないことに注意してください。したがって、同じ名前だが異なるスキーマのテーブルがある場合、このコマンドも正常に戻りますが、新しいスキーマで新しいテーブルが作成されたことを意味するものではありません。

高度な機能と例

DorisはDynamic Partition、Auto Partition、Auto Bucketを含む高度なデータパーティショニング手法をサポートしており、より柔軟なデータ管理を可能にします。以下は実装例です:

Auto Partitionは、データインポート時にユーザー定義のルールに従って対応するパーティションの自動作成をサポートし、より便利です。上記の例をAuto Range Partitionで書き換えると以下のようになります:

CREATE TABLE IF NOT EXISTS example_range_tbl
(
`user_id` LARGEINT NOT NULL COMMENT "User ID",
`date` DATE NOT NULL COMMENT "Date when the data are imported",
`timestamp` DATETIME NOT NULL COMMENT "Timestamp when the data are imported",
`city` VARCHAR(20) COMMENT "User location city",
`age` SMALLINT COMMENT "User age",
`sex` TINYINT COMMENT "User gender",
`last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "User last visit time",
`cost` BIGINT SUM DEFAULT "0" COMMENT "Total user consumption",
`max_dwell_time` INT MAX DEFAULT "0" COMMENT "Maximum user dwell time",
`min_dwell_time` INT MIN DEFAULT "99999" COMMENT "Minimum user dwell time"
)
ENGINE=OLAP
AGGREGATE KEY(`user_id`, `date`, `timestamp`, `city`, `age`, `sex`)
AUTO PARTITION BY RANGE(date_trunc(`date`, 'month')) --- Using months as partition granularity
()
DISTRIBUTED BY HASH(`user_id`) BUCKETS 16
PROPERTIES
(
"replication_num" = "1"
);

上記のように、データがインポートされる際、Dorisは自動的に月レベルの粒度でdateとして対応するパーティションを作成します。2018-12-012018-12-31は同じパーティションに含まれ、2018-11-12は先頭のパーティションに含まれます。Auto Partitionは List partition もサポートしています。詳細な使用方法については Auto Partition のドキュメントを確認してください。

パーティションの表示

show create tableコマンドを実行して、テーブルのパーティション情報を表示します。

> show create table  example_range_tbl 
+-------------------+---------------------------------------------------------------------------------------------------------+
| Table | Create Table |
+-------------------+---------------------------------------------------------------------------------------------------------+
| example_range_tbl | CREATE TABLE `example_range_tbl` ( |
| | `user_id` largeint(40) NOT NULL COMMENT 'User ID', |
| | `date` date NOT NULL COMMENT 'Date when the data are imported', |
| | `timestamp` datetime NOT NULL COMMENT 'Timestamp when the data are imported', |
| | `city` varchar(20) NULL COMMENT 'User location city', |
| | `age` smallint(6) NULL COMMENT 'User age', |
| | `sex` tinyint(4) NULL COMMENT 'User gender', |
| | `last_visit_date` datetime REPLACE NULL DEFAULT "1970-01-01 00:00:00" COMMENT 'User last visit time', |
| | `cost` bigint(20) SUM NULL DEFAULT "0" COMMENT 'Total user consumption', |
| | `max_dwell_time` int(11) MAX NULL DEFAULT "0" COMMENT 'Maximum user dwell time', |
| | `min_dwell_time` int(11) MIN NULL DEFAULT "99999" COMMENT 'Minimum user dwell time' |
| | ) ENGINE=OLAP |
| | AGGREGATE KEY(`user_id`, `date`, `timestamp`, `city`, `age`, `sex`) |
| | COMMENT 'OLAP' |
| | PARTITION BY RANGE(`date`) |
| | (PARTITION p201701 VALUES [('0000-01-01'), ('2017-02-01')), |
| | PARTITION p201702 VALUES [('2017-02-01'), ('2017-03-01')), |
| | PARTITION p201703 VALUES [('2017-03-01'), ('2017-04-01'))) |
| | DISTRIBUTED BY HASH(`user_id`) BUCKETS 16 |
| | PROPERTIES ( |
| | "replication_allocation" = "tag.location.default: 1", |
| | "is_being_synced" = "false", |
| | "storage_format" = "V2", |
| | "light_schema_change" = "true", |
| | "disable_auto_compaction" = "false", |
| | "enable_single_replica_compaction" = "false" |
| | ); |
+-------------------+---------------------------------------------------------------------------------------------------------+

または show partitions from your_table コマンドを実行してください。

> show partitions from example_range_tbl
+-------------+---------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------
+---------------------+---------------------+--------------------------+----------+------------+-------------------------+-----------+
| PartitionId | PartitionName | VisibleVersion | VisibleVersionTime | State | PartitionKey | Range | DistributionKey | Buckets | ReplicationNum | StorageMedium
| CooldownTime | RemoteStoragePolicy | LastConsistencyCheckTime | DataSize | IsInMemory | ReplicaAllocation | IsMutable |
+-------------+---------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------
+---------------------+---------------------+--------------------------+----------+------------+-------------------------+-----------+
| 28731 | p201701 | 1 | 2024-01-25 10:50:51 | NORMAL | date | [types: [DATEV2]; keys: [0000-01-01]; ..types: [DATEV2]; keys: [2017-02-01]; ) | user_id | 16 | 1 | HDD
| 9999-12-31 23:59:59 | | | 0.000 | false | tag.location.default: 1 | true |
| 28732 | p201702 | 1 | 2024-01-25 10:50:51 | NORMAL | date | [types: [DATEV2]; keys: [2017-02-01]; ..types: [DATEV2]; keys: [2017-03-01]; ) | user_id | 16 | 1 | HDD
| 9999-12-31 23:59:59 | | | 0.000 | false | tag.location.default: 1 | true |
| 28733 | p201703 | 1 | 2024-01-25 10:50:51 | NORMAL | date | [types: [DATEV2]; keys: [2017-03-01]; ..types: [DATEV2]; keys: [2017-04-01]; ) | user_id | 16 | 1 | HDD
| 9999-12-31 23:59:59 | | | 0.000 | false | tag.location.default: 1 | true |
+-------------+---------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------
+---------------------+---------------------+--------------------------+----------+------------+-------------------------+-----------+

パーティションの変更

alter table add partition コマンドを実行することで、新しいパーティションを追加できます。

ALTER TABLE example_range_tbl ADD PARTITION p201704 VALUES LESS THAN("2020-05-01") DISTRIBUTED BY HASH(`user_id`) BUCKETS 5;

パーティションを変更する方法の詳細については、ALTER-TABLE-PARTITIONを参照してください。

Partition Retrieval

partitionsテーブル関数とinformation_schema.partitionsシステムテーブルは、クラスターのパーティション情報を記録します。パーティションを自動管理する際に使用するため、対応するテーブルからパーティション情報を抽出できます:

--- Find the partition with the corresponding value in the Auto Partition table.
mysql> select * from partitions("catalog"="internal", "database"="optest", "table"="DAILY_TRADE_VALUE") where PartitionName = auto_partition_name('range', 'year', '2008-02-03');
+-------------+-----------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------+---------------------+---------------------+--------------------------+-----------+------------+-------------------------+-----------+--------------------+--------------+
| PartitionId | PartitionName | VisibleVersion | VisibleVersionTime | State | PartitionKey | Range | DistributionKey | Buckets | ReplicationNum | StorageMedium | CooldownTime | RemoteStoragePolicy | LastConsistencyCheckTime | DataSize | IsInMemory | ReplicaAllocation | IsMutable | SyncWithBaseTables | UnsyncTables |
+-------------+-----------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------+---------------------+---------------------+--------------------------+-----------+------------+-------------------------+-----------+--------------------+--------------+
| 127095 | p20080101000000 | 2 | 2024-11-14 17:29:02 | NORMAL | TRADE_DATE | [types: [DATEV2]; keys: [2008-01-01]; ..types: [DATEV2]; keys: [2009-01-01]; ) | TRADE_DATE | 10 | 1 | HDD | 9999-12-31 23:59:59 | | \N | 985.000 B | 0 | tag.location.default: 1 | 1 | 1 | \N |
+-------------+-----------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------+---------------------+---------------------+--------------------------+-----------+------------+-------------------------+-----------+--------------------+--------------+
1 row in set (0.30 sec)

mysql> select * from information_schema.partitions where TABLE_SCHEMA='optest' and TABLE_NAME='list_table1' and PARTITION_NAME=auto_partition_name('list', null);
+---------------+--------------+-------------+----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+-----------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
| TABLE_CATALOG | TABLE_SCHEMA | TABLE_NAME | PARTITION_NAME | SUBPARTITION_NAME | PARTITION_ORDINAL_POSITION | SUBPARTITION_ORDINAL_POSITION | PARTITION_METHOD | SUBPARTITION_METHOD | PARTITION_EXPRESSION | SUBPARTITION_EXPRESSION | PARTITION_DESCRIPTION | TABLE_ROWS | AVG_ROW_LENGTH | DATA_LENGTH | MAX_DATA_LENGTH | INDEX_LENGTH | DATA_FREE | CREATE_TIME | UPDATE_TIME | CHECK_TIME | CHECKSUM | PARTITION_COMMENT | NODEGROUP | TABLESPACE_NAME |
+---------------+--------------+-------------+----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+-----------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
| internal | optest | list_table1 | pX | NULL | 0 | 0 | LIST | NULL | str | NULL | (NULL) | 1 | 1266 | 1266 | 0 | 0 | 0 | 0 | 2024-11-14 19:58:45 | 0000-00-00 00:00:00 | 0 | | | |
+---------------+--------------+-------------+----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+-----------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
1 row in set (0.24 sec)

--- Find the partition that corresponds to the starting point
mysql> select * from information_schema.partitions where TABLE_NAME='DAILY_TRADE_VALUE' and PARTITION_DESCRIPTION like "[('2012-01-01'),%";
+---------------+--------------+-------------------+-----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+----------------------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
| TABLE_CATALOG | TABLE_SCHEMA | TABLE_NAME | PARTITION_NAME | SUBPARTITION_NAME | PARTITION_ORDINAL_POSITION | SUBPARTITION_ORDINAL_POSITION | PARTITION_METHOD | SUBPARTITION_METHOD | PARTITION_EXPRESSION | SUBPARTITION_EXPRESSION | PARTITION_DESCRIPTION | TABLE_ROWS | AVG_ROW_LENGTH | DATA_LENGTH | MAX_DATA_LENGTH | INDEX_LENGTH | DATA_FREE | CREATE_TIME | UPDATE_TIME | CHECK_TIME | CHECKSUM | PARTITION_COMMENT | NODEGROUP | TABLESPACE_NAME |
+---------------+--------------+-------------------+-----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+----------------------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
| internal | optest | DAILY_TRADE_VALUE | p20120101000000 | NULL | 0 | 0 | RANGE | NULL | TRADE_DATE | NULL | [('2012-01-01'), ('2013-01-01')) | 1 | 985 | 985 | 0 | 0 | 0 | 0 | 2024-11-14 17:29:02 | 0000-00-00 00:00:00 | 0 | | | |
+---------------+--------------+-------------------+-----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+----------------------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
1 row in set (0.65 sec)