メインコンテンツまでスキップ

基本概念

本文書では主にDorisでのテーブル作成とデータパーティショニング、およびテーブル作成操作中に遭遇する可能性のある問題と解決策について紹介します。

行と列

Dorisでは、データは論理的にテーブルの形式で記述されます。

テーブルは行と列で構成されます:

  • 行:ユーザーデータの単一行を表します;

  • 列:データ行内の異なるフィールドを記述するために使用されます;

  • 列は2つのタイプに分けることができます:KeyとValue。ビジネスの観点から、KeyとValueはそれぞれディメンション列とメトリック列に対応できます。Apache Dorisのkey列は、テーブル作成文で指定されたもので、キーワードunique keyaggregate key、またはduplicate keyに続く列です。残りの列はvalue列です。集約モデルの観点から、同じKey列を持つ行は単一の行に集約されます。value列の集約方法は、テーブル作成時にユーザーによって指定されます。集約モデルの詳細については、DorisのData Modelを参照してください。

パーティションとバケット

Dorisは2レベルのパーティショニングとバケッティング方法を使用してデータを整理・管理します。

パーティション

パーティションとは、テーブル内の特定の列値に基づいて、テーブルをより小さく、より管理しやすい、重複しないサブセットに分割することを指します。データの各サブセットはパーティションと呼ばれます。各データ行は正確に1つの特定のパーティションに属します。パーティションは最小の論理管理単位と見なすことができます。

現在、DorisはRangeとListの2つのパーティショニングタイプをサポートしています。テーブル作成時にパーティションが指定されない場合、Dorisはテーブル内のすべてのデータを含むデフォルトパーティションを生成し、これはユーザーに対して透明です。

データ分散とクエリパターンに基づくパーティショニングには、いくつかの利点があります:

  • クエリパフォーマンスの向上:パーティショニングにより、システムはクエリ条件に基づいて無関係なパーティションを除外でき、スキャンするデータ量を削減し、クエリ効率を大幅に向上させます。これは大規模なデータセットを扱う際に特に有益で、パーティション戦略によりI/Oオーバーヘッドを大幅に削減できます。

  • 柔軟な管理:パーティショニングにより、時間や地理などの論理に基づいてデータを分割でき、データのアーカイブ、クリーンアップ、バックアップが容易になります。例えば、時間によるパーティショニングは履歴データと新しく追加されたデータを効果的に管理でき、効率的な時間ベースのデータメンテナンス戦略をサポートします。

バケット

バケッティングとは、パーティション内のデータを何らかのルールに従って、より小さく、重複しない単位にさらに分割することを指します。各データ行は正確に1つの特定のバケットに属します。特定の列値に基づいてデータを分割するパーティショニングとは異なり、バケッティングは事前定義されたバケット間でデータを均等に分散しようと試み、それによりデータスキューを削減します。バケッティングは均等なデータ分散を確保し、データの局所性を向上させることで、クエリパフォーマンスを改善します。

現在、DorisはHashとRandomの2つのバケッティングタイプをサポートしています。

バケットは物理レベルでデータシャード(Tablet)に対応し、データシャードは物理的に独立して格納されます。これらはデータ移動や複製などの操作における最小の物理ストレージ単位です。

適切なバケッティングには、いくつかの利点があります:

  • 均等なデータ分散:バケッティングはバケット間でデータを均等に分散し、データの集中やスキューのリスクを削減し、特定のノードやストレージデバイスでのリソースオーバーロードを防ぎます。

  • ホットスポットの削減:データを均等に分散することで、バケッティングは特定のノードやパーティションの過負荷リスクを削減し、ホットスポットを防ぎ、システムの安定性と処理能力を向上させます。

  • 並行パフォーマンスの向上:バケッティングは並行クエリのパフォーマンスを向上させます。特に複数のクエリリクエストが同一パーティション内の異なるデータにアクセスする必要がある場合に効果的です。バケッティングの粒度により、システムは複数のリクエストを並列で効率的に処理でき、それによりスループットを向上させます。

テーブル作成の例

Apache DorisのCREATE TABLEは同期コマンドで、SQLが実行されると結果を返します。成功した戻り値はテーブル作成が成功したことを示します。詳細については、CREATE-TABLEを参照するか、HELP CREATE TABLEコマンドを入力してください。

以下のコードサンプルでは、RANGEパーティショニングとHashバケットによるApache Dorisでのテーブル作成方法を紹介します。

-- Range Partition
CREATE TABLE IF NOT EXISTS example_range_tbl
(
`user_id` LARGEINT NOT NULL COMMENT "User ID",
`date` DATE NOT NULL COMMENT "Date when the data are imported",
`timestamp` DATETIME NOT NULL COMMENT "Timestamp when the data are imported",
`city` VARCHAR(20) COMMENT "User location city",
`age` SMALLINT COMMENT "User age",
`sex` TINYINT COMMENT "User gender",
`last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "User last visit time",
`cost` BIGINT SUM DEFAULT "0" COMMENT "Total user consumption",
`max_dwell_time` INT MAX DEFAULT "0" COMMENT "Maximum user dwell time",
`min_dwell_time` INT MIN DEFAULT "99999" COMMENT "Minimum user dwell time"
)
ENGINE=OLAP
AGGREGATE KEY(`user_id`, `date`, `timestamp`, `city`, `age`, `sex`)
PARTITION BY RANGE(`date`)
(
PARTITION `p201701` VALUES [("2017-01-01"), ("2017-02-01")),
PARTITION `p201702` VALUES [("2017-02-01"), ("2017-03-01")),
PARTITION `p201703` VALUES [("2017-03-01"), ("2017-04-01"))
)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 16
PROPERTIES
(
"replication_num" = "1"
);

以下では例としてAggregate Key Modelを使用します。Aggregate Key Modelでは、集約タイプ(SUM、REPLACE、MAX、またはMIN)で指定されたすべての列がValue列になります。残りはKey列になります。

CREATE TABLEPROPERTIESセクションで設定できるフィールドの詳細については、CREATE-TABLEを参照してください。

ENGINEのデフォルトタイプはOLAPです。Apache Doris自体がデータ管理とストレージを担当するのはOLAPのみです。MySQL、Broker、ESなどの他のエンジンタイプは、基本的に他の外部データベースやシステム内のテーブルへのマッピングに過ぎず、Apache Dorisがこのデータを読み取ることを可能にします。ただし、Apache Doris自体は、OLAP以外のエンジンタイプについてはテーブルやデータの作成、管理、ストレージを行いません。

IF NOT EXISTSは、テーブルが以前に作成されていない場合に作成されることを示します。これはテーブル名が存在するかどうかのみをチェックし、新しいテーブルのスキーマが既存のテーブルのスキーマと同じかどうかはチェックしないことに注意してください。したがって、同じ名前だが異なるスキーマのテーブルがある場合でも、このコマンドは正常に戻りますが、新しいスキーマで新しいテーブルが作成されたことを意味するわけではありません。

高度な機能と例

DorisはDynamic Partition、Auto Partition、Auto Bucketを含む高度なデータパーティショニング手法をサポートしており、より柔軟なデータ管理を可能にします。以下は実装例です:

Auto Partitionは、データインポート時にユーザー定義ルールに従って対応するパーティションの自動作成をサポートし、より便利です。上記の例をAuto Range Partitionを使用して次のように書き換えます:

CREATE TABLE IF NOT EXISTS example_range_tbl
(
`user_id` LARGEINT NOT NULL COMMENT "User ID",
`date` DATE NOT NULL COMMENT "Date when the data are imported",
`timestamp` DATETIME NOT NULL COMMENT "Timestamp when the data are imported",
`city` VARCHAR(20) COMMENT "User location city",
`age` SMALLINT COMMENT "User age",
`sex` TINYINT COMMENT "User gender",
`last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "User last visit time",
`cost` BIGINT SUM DEFAULT "0" COMMENT "Total user consumption",
`max_dwell_time` INT MAX DEFAULT "0" COMMENT "Maximum user dwell time",
`min_dwell_time` INT MIN DEFAULT "99999" COMMENT "Minimum user dwell time"
)
ENGINE=OLAP
AGGREGATE KEY(`user_id`, `date`, `timestamp`, `city`, `age`, `sex`)
AUTO PARTITION BY RANGE(date_trunc(`date`, 'month')) --- Using months as partition granularity
()
DISTRIBUTED BY HASH(`user_id`) BUCKETS 16
PROPERTIES
(
"replication_num" = "1"
);

上記のように、データがインポートされる際、Dorisは月レベルの粒度でdateとして対応するパーティションを自動的に作成します。2018-12-012018-12-31は同じパーティションに分類され、2018-11-12は前のパーティションに分類されます。Auto PartitionはList partitionもサポートしています。詳細な使用方法についてはAuto Partitionのドキュメントを確認してください。

パーティションを表示する

show create tableコマンドを実行して、テーブルのパーティション情報を表示します。

> show create table  example_range_tbl 
+-------------------+---------------------------------------------------------------------------------------------------------+
| Table | Create Table |
+-------------------+---------------------------------------------------------------------------------------------------------+
| example_range_tbl | CREATE TABLE `example_range_tbl` ( |
| | `user_id` largeint(40) NOT NULL COMMENT 'User ID', |
| | `date` date NOT NULL COMMENT 'Date when the data are imported', |
| | `timestamp` datetime NOT NULL COMMENT 'Timestamp when the data are imported', |
| | `city` varchar(20) NULL COMMENT 'User location city', |
| | `age` smallint(6) NULL COMMENT 'User age', |
| | `sex` tinyint(4) NULL COMMENT 'User gender', |
| | `last_visit_date` datetime REPLACE NULL DEFAULT "1970-01-01 00:00:00" COMMENT 'User last visit time', |
| | `cost` bigint(20) SUM NULL DEFAULT "0" COMMENT 'Total user consumption', |
| | `max_dwell_time` int(11) MAX NULL DEFAULT "0" COMMENT 'Maximum user dwell time', |
| | `min_dwell_time` int(11) MIN NULL DEFAULT "99999" COMMENT 'Minimum user dwell time' |
| | ) ENGINE=OLAP |
| | AGGREGATE KEY(`user_id`, `date`, `timestamp`, `city`, `age`, `sex`) |
| | COMMENT 'OLAP' |
| | PARTITION BY RANGE(`date`) |
| | (PARTITION p201701 VALUES [('0000-01-01'), ('2017-02-01')), |
| | PARTITION p201702 VALUES [('2017-02-01'), ('2017-03-01')), |
| | PARTITION p201703 VALUES [('2017-03-01'), ('2017-04-01'))) |
| | DISTRIBUTED BY HASH(`user_id`) BUCKETS 16 |
| | PROPERTIES ( |
| | "replication_allocation" = "tag.location.default: 1", |
| | "is_being_synced" = "false", |
| | "storage_format" = "V2", |
| | "light_schema_change" = "true", |
| | "disable_auto_compaction" = "false", |
| | "enable_single_replica_compaction" = "false" |
| | ); |
+-------------------+---------------------------------------------------------------------------------------------------------+

またはshow partitions from your_tableコマンドを実行します。

> show partitions from example_range_tbl
+-------------+---------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------
+---------------------+---------------------+--------------------------+----------+------------+-------------------------+-----------+
| PartitionId | PartitionName | VisibleVersion | VisibleVersionTime | State | PartitionKey | Range | DistributionKey | Buckets | ReplicationNum | StorageMedium
| CooldownTime | RemoteStoragePolicy | LastConsistencyCheckTime | DataSize | IsInMemory | ReplicaAllocation | IsMutable |
+-------------+---------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------
+---------------------+---------------------+--------------------------+----------+------------+-------------------------+-----------+
| 28731 | p201701 | 1 | 2024-01-25 10:50:51 | NORMAL | date | [types: [DATEV2]; keys: [0000-01-01]; ..types: [DATEV2]; keys: [2017-02-01]; ) | user_id | 16 | 1 | HDD
| 9999-12-31 23:59:59 | | | 0.000 | false | tag.location.default: 1 | true |
| 28732 | p201702 | 1 | 2024-01-25 10:50:51 | NORMAL | date | [types: [DATEV2]; keys: [2017-02-01]; ..types: [DATEV2]; keys: [2017-03-01]; ) | user_id | 16 | 1 | HDD
| 9999-12-31 23:59:59 | | | 0.000 | false | tag.location.default: 1 | true |
| 28733 | p201703 | 1 | 2024-01-25 10:50:51 | NORMAL | date | [types: [DATEV2]; keys: [2017-03-01]; ..types: [DATEV2]; keys: [2017-04-01]; ) | user_id | 16 | 1 | HDD
| 9999-12-31 23:59:59 | | | 0.000 | false | tag.location.default: 1 | true |
+-------------+---------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------
+---------------------+---------------------+--------------------------+----------+------------+-------------------------+-----------+

パーティションの変更

alter table add partition コマンドを実行することで、新しいパーティションを追加できます。

ALTER TABLE example_range_tbl ADD PARTITION p201704 VALUES LESS THAN("2020-05-01") DISTRIBUTED BY HASH(`user_id`) BUCKETS 5;

パーティションの変更方法の詳細については、ALTER-TABLE-PARTITIONを参照してください。

パーティション取得

partitionsテーブル関数とinformation_schema.partitionsシステムテーブルは、クラスターのパーティション情報を記録します。パーティション情報は、パーティションを自動管理する際に使用するため、対応するテーブルから抽出できます:

--- Find the partition with the corresponding value in the Auto Partition table.
mysql> select * from partitions("catalog"="internal", "database"="optest", "table"="DAILY_TRADE_VALUE") where PartitionName = auto_partition_name('range', 'year', '2008-02-03');
+-------------+-----------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------+---------------------+---------------------+--------------------------+-----------+------------+-------------------------+-----------+--------------------+--------------+
| PartitionId | PartitionName | VisibleVersion | VisibleVersionTime | State | PartitionKey | Range | DistributionKey | Buckets | ReplicationNum | StorageMedium | CooldownTime | RemoteStoragePolicy | LastConsistencyCheckTime | DataSize | IsInMemory | ReplicaAllocation | IsMutable | SyncWithBaseTables | UnsyncTables |
+-------------+-----------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------+---------------------+---------------------+--------------------------+-----------+------------+-------------------------+-----------+--------------------+--------------+
| 127095 | p20080101000000 | 2 | 2024-11-14 17:29:02 | NORMAL | TRADE_DATE | [types: [DATEV2]; keys: [2008-01-01]; ..types: [DATEV2]; keys: [2009-01-01]; ) | TRADE_DATE | 10 | 1 | HDD | 9999-12-31 23:59:59 | | \N | 985.000 B | 0 | tag.location.default: 1 | 1 | 1 | \N |
+-------------+-----------------+----------------+---------------------+--------+--------------+--------------------------------------------------------------------------------+-----------------+---------+----------------+---------------+---------------------+---------------------+--------------------------+-----------+------------+-------------------------+-----------+--------------------+--------------+
1 row in set (0.30 sec)

mysql> select * from information_schema.partitions where TABLE_SCHEMA='optest' and TABLE_NAME='list_table1' and PARTITION_NAME=auto_partition_name('list', null);
+---------------+--------------+-------------+----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+-----------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
| TABLE_CATALOG | TABLE_SCHEMA | TABLE_NAME | PARTITION_NAME | SUBPARTITION_NAME | PARTITION_ORDINAL_POSITION | SUBPARTITION_ORDINAL_POSITION | PARTITION_METHOD | SUBPARTITION_METHOD | PARTITION_EXPRESSION | SUBPARTITION_EXPRESSION | PARTITION_DESCRIPTION | TABLE_ROWS | AVG_ROW_LENGTH | DATA_LENGTH | MAX_DATA_LENGTH | INDEX_LENGTH | DATA_FREE | CREATE_TIME | UPDATE_TIME | CHECK_TIME | CHECKSUM | PARTITION_COMMENT | NODEGROUP | TABLESPACE_NAME |
+---------------+--------------+-------------+----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+-----------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
| internal | optest | list_table1 | pX | NULL | 0 | 0 | LIST | NULL | str | NULL | (NULL) | 1 | 1266 | 1266 | 0 | 0 | 0 | 0 | 2024-11-14 19:58:45 | 0000-00-00 00:00:00 | 0 | | | |
+---------------+--------------+-------------+----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+-----------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
1 row in set (0.24 sec)

--- Find the partition that corresponds to the starting point
mysql> select * from information_schema.partitions where TABLE_NAME='DAILY_TRADE_VALUE' and PARTITION_DESCRIPTION like "[('2012-01-01'),%";
+---------------+--------------+-------------------+-----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+----------------------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
| TABLE_CATALOG | TABLE_SCHEMA | TABLE_NAME | PARTITION_NAME | SUBPARTITION_NAME | PARTITION_ORDINAL_POSITION | SUBPARTITION_ORDINAL_POSITION | PARTITION_METHOD | SUBPARTITION_METHOD | PARTITION_EXPRESSION | SUBPARTITION_EXPRESSION | PARTITION_DESCRIPTION | TABLE_ROWS | AVG_ROW_LENGTH | DATA_LENGTH | MAX_DATA_LENGTH | INDEX_LENGTH | DATA_FREE | CREATE_TIME | UPDATE_TIME | CHECK_TIME | CHECKSUM | PARTITION_COMMENT | NODEGROUP | TABLESPACE_NAME |
+---------------+--------------+-------------------+-----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+----------------------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
| internal | optest | DAILY_TRADE_VALUE | p20120101000000 | NULL | 0 | 0 | RANGE | NULL | TRADE_DATE | NULL | [('2012-01-01'), ('2013-01-01')) | 1 | 985 | 985 | 0 | 0 | 0 | 0 | 2024-11-14 17:29:02 | 0000-00-00 00:00:00 | 0 | | | |
+---------------+--------------+-------------------+-----------------+-------------------+----------------------------+-------------------------------+------------------+---------------------+----------------------+-------------------------+----------------------------------+------------+----------------+-------------+-----------------+--------------+-----------+-------------+---------------------+---------------------+----------+-------------------+-----------+-----------------+
1 row in set (0.65 sec)