メインコンテンツまでスキップ

カラム圧縮

Dorisはcolumnar storageモデルを採用してデータを整理・保存しており、これは特に分析ワークロードに適しており、クエリ効率を大幅に向上させることができます。columnar storageでは、テーブルの各カラムが独立して保存されるため、圧縮技術の適用が促進され、ストレージ効率が向上します。Dorisは様々な圧縮アルゴリズムを提供しており、ユーザーはワークロードの要件に基づいて適切な圧縮方法を選択し、ストレージとクエリのパフォーマンスを最適化することができます。

圧縮が必要な理由

Dorisにおいて、データ圧縮には主に以下の2つの中核的な目的があります:

  1. ストレージ効率の向上 圧縮により、データストレージに必要なディスク容量を大幅に削減でき、同じ物理リソースでより多くのデータを保存することが可能になります。

  2. パフォーマンスの最適化 圧縮されたデータの容量は小さくなり、クエリ時に必要なI/O操作が少なくなるため、クエリ応答時間が高速化されます。現代の圧縮アルゴリズムは通常、非常に高速な展開速度を持っており、ストレージ容量を削減しながら読み取り効率を向上させることができます。

サポートされる圧縮アルゴリズム

Dorisは様々な圧縮アルゴリズムをサポートしており、それぞれ圧縮率と展開速度の間で異なるトレードオフがあり、ユーザーはニーズに基づいて適切なアルゴリズムを選択することができます:

圧縮タイプ特徴適用シナリオ
No Compression- データに圧縮を適用しない。圧縮が不要なシナリオに適しており、データがすでに圧縮されている場合やストレージ容量が問題でない場合など。
LZ4- 非常に高速な圧縮・展開速度。
- 適度な圧縮率。
展開速度の要件が高いシナリオに適しており、リアルタイムクエリや高並行負荷など。
LZ4F (LZ4 Frame)- より柔軟な圧縮設定をサポートするLZ4の拡張版。
- 高速で適度な圧縮率。
高速圧縮が必要で、設定の細かい制御が必要な場合。
LZ4HC (LZ4 High Compression)- LZ4と比較してより高い圧縮率だが、圧縮速度は遅い。
- 展開速度はLZ4と同等。
より高い圧縮率が必要で、展開速度に重点を置く場合。
ZSTD (Zstandard)- 柔軟な圧縮レベル調整による高い圧縮率。
- 高い圧縮率でも展開速度は高速。
高いストレージ効率要求があり、クエリパフォーマンスとのバランスを取る場合。
Snappy- 高速展開用に設計。
- 適度な圧縮率。
高速展開と低CPU負荷の要求があるシナリオで必要。
Zlib- 圧縮率と速度の良いバランス。
- 他のアルゴリズムと比較して圧縮・展開速度は遅いが、圧縮率は高い。
高いストレージ効率要求があり、展開速度に敏感でないシナリオで必要、アーカイブやコールドデータストレージなど。

圧縮の原理

カラム圧縮 columnar storageの採用により、Dorisはテーブル内の各カラムを独立して圧縮することができます。この方法により、同じカラム内のデータは多くの場合、類似した分布特性を持つため、圧縮効率が向上します。

圧縮前のエンコーディング データを圧縮する前に、Dorisはカラムデータをエンコード(例:dictionary encodingrun-length encodingなど)して、データを圧縮により適した形式に変換し、圧縮効率をさらに向上させます。

Storage Format V3の最適化 Doris Storage Format V3から、数値型のエンコーディング戦略がさらに最適化されました。整数型ではPLAIN_ENCODINGがデフォルトとなり、LZ4/ZSTDと組み合わせることで、より高い読み取りスループットと低いCPU負荷を提供します。詳細については、Storage Format V3を参照してください。

ページ圧縮 Dorisはpageレベルの圧縮戦略を採用しています。各カラムのデータは複数のページに分割され、各ページ内のデータが独立して圧縮されます。ページ単位での圧縮により、Dorisは大規模データセットを効率的に処理しながら、高い圧縮率と展開パフォーマンスを確保できます。

設定可能な圧縮戦略 ユーザーはテーブル作成時に使用する圧縮アルゴリズムを指定することができます。この柔軟性により、ユーザーは特定のワークロードに基づいて圧縮効率とパフォーマンスの間で最適な選択を行うことができます。

圧縮効果に影響する要因

異なる圧縮アルゴリズムにはそれぞれ利点と欠点がありますが、圧縮の効果は選択したアルゴリズムだけでなく、以下の要因にも依存します:

データの順序

データの順序は圧縮効果に大きな影響を与えます。連続性が高いカラム(例:タイムスタンプや連続する数値カラム)では、圧縮アルゴリズムは通常、より良い結果を得ることができます。データの順序がより規則的であるほど、圧縮アルゴリズムは圧縮時により多くの反復パターンを識別でき、圧縮率が向上します。

データの冗長性

データカラム内の重複値が多いほど、圧縮効果はより顕著になります。例えば、重複値にdictionary encodingを使用することで、ストレージ容量を大幅に削減できます。ただし、明らかな重複がないデータカラムの場合、圧縮効果は期待に応えられない可能性があります。

データ型

データの型も圧縮効果に影響を与える可能性があります。一般的に、数値データ型(整数や浮動小数点数など)は文字列データ型よりも圧縮しやすくなります。値の範囲が広いデータ型の場合、圧縮アルゴリズムの効果が影響を受ける可能性があります。

カラムの長さ

カラム内のデータの長さも圧縮効果に影響を与える可能性があります。短いカラムは通常、長いカラムよりも圧縮しやすくなります。これは、圧縮アルゴリズムが短いデータブロック内で反復パターンをより効率的に発見できるためです。

Null値

カラム内のnull値の割合が高い場合、圧縮アルゴリズムはより効果的になる可能性があります。これらのnull値を特別なパターンとしてエンコードし、ストレージ容量を削減できるためです。

適切な圧縮アルゴリズムの選択方法

適切な圧縮アルゴリズムの選択は、ワークロードの特性に基づいて行うべきです:

  • 高パフォーマンスリアルタイム分析シナリオでは、LZ4またはSnappyの使用を推奨します。
  • ストレージ効率を重視するシナリオでは、ZSTDまたはZlibの使用を推奨します。
  • 速度と圧縮率のバランスを取る必要があるシナリオでは、LZ4Fを選択できます。
  • アーカイブまたはコールドデータストレージシナリオでは、ZlibまたはLZ4HCの使用が推奨されます。

Dorisでの圧縮設定

テーブル作成時に圧縮アルゴリズムを指定して、データの保存方法を決定することができます:

CREATE TABLE example_table (
id INT,
name STRING,
age INT
)
DUPLICATE KEY(id)
DISTRIBUTED BY HASH(id) BUCKETS 10
PROPERTIES (
"compression" = "zstd"
);