メインコンテンツまでスキップ

データ型

Apache DorisはSQL標準構文をサポートし、MySQL Network Connection Protocolを使用して、MySQL構文プロトコルと高い互換性を持ちます。そのため、データ型のサポートに関して、Apache DorisはMySQL関連のデータ型と可能な限り整合性を保つように設計されています。

Dorisがサポートするデータ型一覧は以下の通りです:

数値データ型

型名ストレージ (bytes)説明
BOOLEAN12つの値のみを格納するブール型データ型:0はfalse、1はtrueを表します。
TINYINT1整数値、符号付き範囲は-128から127です。
SMALLINT2整数値、符号付き範囲は-32768から32767です。
INT4整数値、符号付き範囲は-2147483648から2147483647です。
BIGINT8整数値、符号付き範囲は-9223372036854775808から9223372036854775807です。
LARGEINT16整数値、範囲は[-2^127 + 1から2^127 - 1]です。
FLOAT4単精度浮動小数点数、範囲は[-3.4 * 10^38から3.4 * 10^38]です。
DOUBLE8倍精度浮動小数点数、範囲は[-1.79 * 10^308から1.79 * 10^308]です。
DECIMAL4/8/16/32精度(総桁数)とスケール(小数点以下の桁数)で定義される正確な固定小数点数。形式:DECIMAL(P[,S])、ここでPは精度、Sはスケールです。Pの範囲は[1, MAX_P]、MAX_Pはenable_decimal256=falseの場合38、enable_decimal256=trueの場合76、Sの範囲は[0, P]です。
enable_decimal256のデフォルト値はfalseです。trueに設定するとより正確な結果を得られますが、パフォーマンスが低下します。
ストレージ要件:
  • 0 < precision <= 9の場合4バイト
  • 9 < precision <= 18の場合8バイト
  • 18 < precision <= 38の場合16バイト
  • 38 < precision <= 76の場合32バイト

日時データ型

型名ストレージ (bytes)説明
DATE4DATEは暦年、月、日の値を保持し、サポート範囲は['0000-01-01', '9999-12-31']です。デフォルト印刷形式:'yyyy-MM-dd'。
DATETIME8DATEとTIMEの組み合わせ。形式:DATETIME ([P])。オプションパラメータPは時刻精度を表し、値の範囲は[0,6]で、最大6桁の小数点(マイクロ秒)をサポートします。設定されていない場合は0です。サポート範囲は['0000-01-01 00:00:00 [.000000]', '9999-12-31 23:59:59 [.999999]']です。デフォルト印刷形式:'yyyy-MM-dd HH:mm:ss.SSSSSS'。

文字列データ型

型名ストレージ (bytes)説明
CHARM固定長文字列。パラメータMは文字でのカラム長を指定します。Mの範囲は1から255です。
VARCHAR可変長可変長文字列。パラメータMは文字での最大文字列長を指定します。Mの範囲は1から65533です。可変長文字列はUTF-8エンコーディングで格納されます。英字は1バイト、中国語文字は3バイトを占めます。
STRING可変長可変長文字列。デフォルトで1048576バイト(1 MB)をサポートし、最大2147483643バイト(2 GB)まで制限できます。サイズはBEのstring_type_length_soft_limit_bytesで調整可能です。STRING型はvalue列でのみ使用可能で、key列やpartition bucket列では使用できません。

半構造化データ型

型名ストレージ (bytes)説明
ARRAY可変長型Tの要素で構成される配列。key列として使用できません。現在、DuplicateおよびUniqueモデルのテーブルでの使用がサポートされています。
MAP可変長型KとVの要素で構成されるマップ。Key列として使用できません。現在、DuplicateおよびUniqueモデルのテーブルでサポートされています。
STRUCT可変長複数のFieldで構成される構造体。複数の列のコレクションとしても理解できます。Keyとして使用できません。現在、STRUCTはDuplicateモデルのテーブルでのみ使用可能です。Struct内のFieldの名前と数は固定で、常にNullableです。
JSON可変長バイナリJSON型。バイナリJSON形式で格納され、JSON関数を通じて内部JSONフィールドにアクセスします。デフォルトで最大1048576バイト(1MB)をサポートし、最大2147483643バイト(2GB)まで調整可能です。この制限はBE設定パラメータ'jsonb_type_length_soft_limit_bytes'で変更できます。
VARIANT可変長VARIANT データ型は動的に適応可能で、JSONのような半構造化データ用に特別に設計されています。任意のJSONオブジェクトを格納でき、ストレージ効率とクエリパフォーマンスの向上のためにJSONフィールドを自動的にサブカラムに分割します。長さ制限と設定方法はSTRING型と同じです。ただし、VARIANT型はvalue列でのみ使用可能で、key列やpartition/bucket列では使用できません。

集計データ型

型名ストレージ (bytes)説明
HLL可変長HLLはHyperLogLogの略で、あいまい重複排除です。大規模データセットを扱う際、Count Distinctよりも優れたパフォーマンスを発揮します。HLLのエラー率は通常約1%で、時には2%に達することがあります。HLLはkey列として使用できず、テーブル作成時の集計タイプはHLL_UNIONです。ユーザーは長さやデフォルト値を指定する必要はなく、データの集計レベルに基づいて内部的に制御されます。HLL列はhll_union_agg、hll_raw_agg、hll_cardinality、hll_hashなどの付属関数を通じてのみクエリまたは使用できます。
BITMAP可変長BITMAP型はAggregateテーブル、Uniqueテーブル、またはDuplicateテーブルで使用できます。- UniqueテーブルまたはDuplicateテーブルで使用する場合、BITMAPは非key列として使用する必要があります。- Aggregateテーブルで使用する場合、BITMAPも非key列として機能し、テーブル作成時に集計タイプをBITMAP_UNIONに設定する必要があります。ユーザーは長さやデフォルト値を指定する必要はなく、データの集計レベルに基づいて内部的に制御されます。BITMAP列はbitmap_union_count、bitmap_union、bitmap_hash、bitmap_hash64などの付属関数を通じてのみクエリまたは使用できます。
QUANTILE_STATE可変長近似分位値の計算に使用される型です。読み込み時に、同じキーで異なる値に対して事前集計を実行します。値の数が2048を超えない場合、すべてのデータを詳細に記録します。値の数が2048を超える場合、TDigestアルゴリズムを使用してデータを集計(クラスタ化)し、クラスタ化後の重心点を格納します。QUANTILE_STATEはkey列として使用できず、テーブル作成時に集計タイプQUANTILE_UNIONと組み合わせる必要があります。ユーザーは長さやデフォルト値を指定する必要はなく、データの集計レベルに基づいて内部的に制御されます。QUANTILE_STATE列はQUANTILE_PERCENT、QUANTILE_UNION、TO_QUANTILE_STATEなどの付属関数を通じてのみクエリまたは使用できます。
AGG_STATE可変長集計関数はstate/merge/union関数コンバイナーでのみ使用できます。AGG_STATEはkey列として使用できません。テーブル作成時に、集計関数のシグネチャを宣言する必要があります。ユーザーは長さやデフォルト値を指定する必要はありません。実際のデータストレージサイズは関数の実装によって異なります。

IP型

型名ストレージ (bytes)説明
IPv44ipv4_*系列の関数と組み合わせて使用されます。
IPv616ipv6_*系列の関数と組み合わせて使用されます。

SHOW DATA TYPES;文でDorisがサポートするすべてのデータ型を表示することもできます。