メインコンテンツまでスキップ

AWS Glue

この文書では、CREATE CATALOGを通じてIceberg tablesまたはHive tablesにアクセスするためにAWS Glue カタログを使用する際のパラメータ設定について説明します。

サポートされるGlue カタログタイプ

AWS Glue カタログは現在3つのタイプのカタログをサポートしています:

カタログタイプタイプ識別子(type説明
HiveglueHive Metastoreに接続するためのカタログ
IcebergglueIcebergテーブル形式に接続するためのカタログ
IcebergrestGlue Rest カタログ経由でIcebergテーブル形式に接続するためのカタログ

この文書では、ユーザーの設定を容易にするために、各タイプの詳細なパラメータ説明を提供します。

共通パラメータ概要

パラメータ名説明必須デフォルト値
glue.regionAWS Glueリージョン、例:us-east-1はいNone
glue.endpointAWS Glueエンドポイント、例:https://glue.us-east-1.amazonaws.comはいNone
glue.access_keyAWS Access Key IDはいEmpty
glue.secret_keyAWS Secret Access KeyはいEmpty
glue.catalog_idGlue カタログ ID(まだサポートされていません)いいえEmpty
glue.role_arnGlueアクセス用のIAM Role ARN(3.1.2+以降でサポート)いいえEmpty
glue.external_idGlueアクセス用のIAM External ID(3.1.2+以降でサポート)いいえEmpty

認証パラメータ

Glueへのアクセスには認証情報が必要で、以下の2つの方法をサポートしています:

  1. Access Key認証

    glue.access_keyglue.secret_keyで提供されるAccess Keyを通じてGlueへのアクセスを認証します。

  2. IAM Role認証(3.1.2+以降でサポート)

    glue.role_arnで提供されるIAM Roleを通じてGlueへのアクセスを認証します。

    この方法では、DorisがAWS EC2上にデプロイされている必要があり、EC2インスタンスはGlueにアクセスする権限を持つIAM Roleにバインドされている必要があります。

    External IDを通じたアクセスが必要な場合は、glue.external_idも設定する必要があります。

注意事項:

  • 2つの方法のうち少なくとも1つを設定する必要があります。両方の方法が設定されている場合、Access Key認証が優先されます。

例:

```sql
CREATE CATALOG hive_glue_catalog PROPERTIES (
'type' = 'hms',
'hive.metastore.type' = 'glue',
'glue.region' = 'us-east-1',
'glue.endpoint' = 'https://glue.us-east-1.amazonaws.com',
-- Using Access Key authentication
'glue.access_key' = '<YOUR_ACCESS_KEY>',
'glue.secret_key' = '<YOUR_SECRET_KEY>'
-- Or using IAM Role authentication
-- 'glue.role_arn' = '<YOUR_ROLE_ARN>',
-- 'glue.external_id' = '<YOUR_EXTERNAL_ID>'
);
```

AWS認証・認可設定の手順については、ドキュメントaws-authentication-and-authorizationを参照してください。

Hive Glue カタログ

Hive Glue カタログはAWS GlueのHive Metastore互換インターフェースを通じてHiveテーブルにアクセスするために使用されます。設定は以下の通りです:

パラメータ名説明必須デフォルト値
typehmsで固定はいなし
hive.metastore.typeglueで固定はいなし
glue.regionAWS Glueリージョン、例:us-east-1はいなし
glue.endpointAWS Glueエンドポイント、例:https://glue.us-east-1.amazonaws.comはいなし
glue.access_keyAWS Access Key IDいいえ
glue.secret_keyAWS Secret Access Keyいいえ
glue.catalog_idGlue カタログ ID(まだサポートされていません)いいえ
glue.role_arnGlueにアクセスするためのIAM Role ARNいいえ
glue.external_idGlueにアクセスするためのIAM External IDいいえ

CREATE CATALOG hive_glue_catalog PROPERTIES (
'type' = 'hms',
'hive.metastore.type' = 'glue',
'glue.region' = 'us-east-1',
'glue.endpoint' = 'https://glue.us-east-1.amazonaws.com',
'glue.access_key' = 'YOUR_ACCESS_KEY',
'glue.secret_key' = 'YOUR_SECRET_KEY'
);

Iceberg Glue Catalog

Iceberg Glue CatalogはGlue Clientを通じてGlueにアクセスします。設定は以下の通りです:

パラメータ名説明必須デフォルト値
typeicebergとして固定はいなし
iceberg.catalog.typeglueとして固定はいなし
warehouseIcebergデータウェアハウスパス、例:s3://my-bucket/iceberg-warehouse/はいs3://doris
glue.regionAWS Glueリージョン、例:us-east-1はいなし
glue.endpointAWS Glueエンドポイント、例:https://glue.us-east-1.amazonaws.comはいなし
glue.access_keyAWS Access Key IDいいえ
glue.secret_keyAWS Secret Access Keyいいえ
glue.catalog_idGlue Catalog ID(まだサポートされていません)いいえ
glue.role_arnGlueアクセス用のIAM Role ARN(まだサポートされていません)いいえ
glue.external_idGlueアクセス用のIAM External ID(まだサポートされていません)いいえ

CREATE CATALOG iceberg_glue_catalog PROPERTIES (
'type' = 'iceberg',
'iceberg.catalog.type' = 'glue',
'glue.region' = 'us-east-1',
'glue.endpoint' = 'https://glue.us-east-1.amazonaws.com',
'glue.access_key' = '<YOUR_ACCESS_KEY>',
'glue.secret_key' = '<YOUR_SECRET_KEY>'
);

Iceberg Glue Rest Catalog

Iceberg Glue Rest CatalogはGlue Rest Catalogインターフェースを通じてGlueにアクセスします。現在はAWS S3 Table Bucketに格納されたIcebergテーブルのみをサポートしています。設定は以下の通りです:

パラメータ名説明必須デフォルト値
typeicebergで固定はいなし
iceberg.catalog.typerestで固定はいなし
iceberg.rest.uriGlue Restサービスエンドポイント、例:https://glue.ap-east-1.amazonaws.com/icebergはいなし
warehouseIcebergデータウェアハウスパス、例:<account_id>:s3tablescatalog/<bucket_name>はいなし
iceberg.rest.sigv4-enabledV4署名フォーマットを有効化、trueで固定はいなし
iceberg.rest.signing-name署名タイプ、glueで固定はい
iceberg.rest.access-key-idGlueへのアクセス用Access Key(S3 Bucketへのアクセスにも使用)はい
iceberg.rest.secret-access-keyGlueへのアクセス用Secret Key(S3 Bucketへのアクセスにも使用)はい
iceberg.rest.signing-regionAWS Glueリージョン、例:us-east-1はい

CREATE CATALOG glue_s3 PROPERTIES (
'type' = 'iceberg',
'iceberg.catalog.type' = 'rest',
'iceberg.rest.uri' = 'https://glue.<region>.amazonaws.com/iceberg',
'warehouse' = '<acount_id>:s3tablescatalog/<s3_table_bucket_name>',
'iceberg.rest.sigv4-enabled' = 'true',
'iceberg.rest.signing-name' = 'glue',
'iceberg.rest.access-key-id' = '<ak>',
'iceberg.rest.secret-access-key' = '<sk>',
'iceberg.rest.signing-region' = '<region>'
);

権限ポリシー

使用シナリオに応じて、読み取り専用読み書きポリシーに分けることができます。

1. 読み取り専用権限

Glue Catalogからデータベースとテーブル情報の読み取りのみを許可します。

{
"Version": "2012-10-17",
"Statement": [
{
"Sid": "GlueCatalogReadOnly",
"Effect": "Allow",
"Action": [
"glue:GetCatalog",
"glue:GetDatabase",
"glue:GetDatabases",
"glue:GetTable",
"glue:GetTables",
"glue:GetPartitions"
],
"Resource": [
"arn:aws:glue:<region>:<account-id>:catalog",
"arn:aws:glue:<region>:<account-id>:database/*",
"arn:aws:glue:<region>:<account-id>:table/*/*"
]
}
]
}

2. 読み書き権限

読み取り専用権限に基づいて、データベースとテーブルの作成/変更/削除を許可します。

{
"Version": "2012-10-17",
"Statement": [
{
"Sid": "GlueCatalogReadWrite",
"Effect": "Allow",
"Action": [
"glue:GetCatalog",
"glue:GetDatabase",
"glue:GetDatabases",
"glue:GetTable",
"glue:GetTables",
"glue:GetPartitions",
"glue:CreateDatabase",
"glue:UpdateDatabase",
"glue:DeleteDatabase",
"glue:CreateTable",
"glue:UpdateTable",
"glue:DeleteTable"
],
"Resource": [
"arn:aws:glue:<region>:<account-id>:catalog",
"arn:aws:glue:<region>:<account-id>:database/*",
"arn:aws:glue:<region>:<account-id>:table/*/*"
]
}
]
}

注意事項

  1. プレースホルダーの置換

    • <region> → あなたのAWSリージョン(例:us-east-1
    • <account-id> → あなたのAWSアカウントID(12桁の数字)
  2. 最小権限の原則

    • クエリのみを行う場合は、書き込み権限を付与しない。
    • 権限をさらに制限するために、*を特定のデータベース/テーブルのARNに置き換えることができる。
  3. S3権限

    • 上記のポリシーはGlue Catalogのみに関わるものです。
    • データファイルを読み取る必要がある場合は、追加のS3権限が必要です(s3:GetObjects3:ListBucketなど)。