削除概要
Apache Dorisでは、削除操作は大規模データ分析シナリオにおけるユーザーの柔軟なニーズを満たすために、データを管理し、クリーニングするために不可欠です。
Dorisは、DELETE文、delete sign、パーティション削除、全テーブル削除、および一時パーティションを使用したatomic overwriteを含む、様々な削除機能を提供します。以下のセクションでは、各機能について詳しく説明します:
DELETE文
DELETE文はデータを削除するために最も一般的に使用される方法で、すべてのテーブルモデルをサポートします。ユーザーは、特定の条件を満たすデータを削除するために使用できます。
DELETE文の構文は以下の通りです:
DELETE FROM table_name WHERE condition;
DELETE文は大部分の削除ニーズに対応できますが、一部のシナリオでは最も効率的ではない場合があります。様々な削除要件に柔軟かつ効率的に対処するため、Dorisでは以下の方法も提供しています。
Truncate Partition
Dorisでは、日付パーティションやその他の方法によるデータ管理が一般的です。多くのユーザーは最近の期間(例:7日間)のデータのみを保持する必要があります。期限切れのデータパーティションに対しては、truncate partition機能を使用して効率的な削除を行うことができます。
DELETE文と比較して、truncate partitionは一部のパーティションメタデータの変更のみで削除を完了するため、このシナリオでは最適な方法です。
パーティション削除の構文は以下の通りです:
TRUNCATE TABLE tbl PARTITION(p1, p2);
Truncate Table
Truncate tableは、オフライン分析シナリオでデータをやり直す場合など、テーブルの構造を保持しながら迅速にテーブルをクリアするのに適しています。
完全なtruncate tableの構文は以下の通りです:
TRUNCATE TABLE table_name;
Delete Sign
データ削除は、データ更新の一種と考えることができます。そのため、更新機能を持つプライマリキーモデル(Unique Key)では、ユーザーは削除サイン機能を使用して、データ更新として削除操作を実行できます。
例えば、CDCデータ同期シナリオでは、CDCプログラムはDELETE操作のbinlogに削除サインをマークできます。このデータがDorisに書き込まれると、対応するプライマリキーが削除されます。
この方法は大量のプライマリキーの一括削除を実行でき、DELETE文よりも効率的です。
削除サインは高度な機能であり、前述の方法と比較して使用がより複雑です。詳細な使用方法については、ドキュメントBatch Deletionを参照してください。
Temporary Partitionsを使用したアトミック上書き
場合によっては、ユーザーはパーティションのデータを書き換えたいことがあります。しかし、データを削除してからロードする場合、データが利用できない期間が生じます。この場合、ユーザーはまず対応するtemporary partitionを作成し、新しいデータをtemporary partitionにロードしてから、元のパーティションをアトミックに置き換えることができます。詳細な使用方法については、ドキュメントAtomic Table Replacementを参照してください。
注意事項
- 削除操作は新しいデータバージョンを生成するため、頻繁な削除はバージョン数を増加させ、クエリパフォーマンスに影響を与える可能性があります。
- 削除されたデータは、マージと圧縮が完了するまでストレージを占有し続けるため、削除操作自体はストレージ使用量を即座に削減しません。