AWS Glue
この文書では、CREATE CATALOGを通じてIceberg tablesまたはHive tablesにアクセスするためにAWS Glue カタログを使用する際のパラメータ設定について説明します。
サポートされるGlue カタログタイプ
AWS Glue カタログは現在3つのタイプのカタログをサポートしています:
| カタログタイプ | タイプ識別子(type) | 説明 |
|---|---|---|
| Hive | glue | Hive Metastoreに接続するためのカタログ |
| Iceberg | glue | Icebergテーブル形式に接続するためのカタログ |
| Iceberg | rest | Glue Rest カタログ経由でIcebergテーブル形式に接続するためのカタログ |
この文書では、ユーザーの設定を容易にするために、各タイプの詳細なパラメータ説明を提供します。
共通パラメータ概要
| パラメータ名 | 説明 | 必須 | デフォルト値 |
|---|---|---|---|
glue.region | AWS Glueリージョン、例:us-east-1 | はい | None |
glue.endpoint | AWS Glueエンドポイント、例:https://glue.us-east-1.amazonaws.com | はい | None |
glue.access_key | AWS Access Key ID | はい | Empty |
glue.secret_key | AWS Secret Access Key | はい | Empty |
glue.catalog_id | Glue カタログ ID(まだサポートされていません) | いいえ | Empty |
glue.role_arn | Glueアクセス用のIAM Role ARN(3.1.2+以降でサポート) | いいえ | Empty |
glue.external_id | Glueアクセス用のIAM External ID(3.1.2+以降でサポート) | いいえ | Empty |
認証パラメータ
Glueへのアクセスには認証情報が必要で、以下の2つの方法をサポートしています:
-
Access Key認証
glue.access_keyとglue.secret_keyで提供されるAccess Keyを通じてGlueへのアクセスを認証します。 -
IAM Role認証(3.1.2+以降でサポート)
glue.role_arnで提供されるIAM Roleを通じてGlueへのアクセスを認証します。この方法では、DorisがAWS EC2上にデプロイされている必要があり、EC2インスタンスはGlueにアクセスする権限を持つIAM Roleにバインドされている必要があります。
External IDを通じたアクセスが必要な場合は、
glue.external_idも設定する必要があります。
注意事項:
- 2つの方法のうち少なくとも1つを設定する必要があります。両方の方法が設定されている場合、Access Key認証が優先されます。
例:
```sql
CREATE CATALOG hive_glue_catalog PROPERTIES (
'type' = 'hms',
'hive.metastore.type' = 'glue',
'glue.region' = 'us-east-1',
'glue.endpoint' = 'https://glue.us-east-1.amazonaws.com',
-- Using Access Key authentication
'glue.access_key' = '<YOUR_ACCESS_KEY>',
'glue.secret_key' = '<YOUR_SECRET_KEY>'
-- Or using IAM Role authentication
-- 'glue.role_arn' = '<YOUR_ROLE_ARN>',
-- 'glue.external_id' = '<YOUR_EXTERNAL_ID>'
);
```
AWS認証・認可設定の手順については、ドキュメントaws-authentication-and-authorizationを参照してください。
Hive Glue カタログ
Hive Glue カタログはAWS GlueのHive Metastore互換インターフェースを通じてHiveテーブルにアクセスするために使用されます。設定は以下の通りです:
| パラメータ名 | 説明 | 必須 | デフォルト値 |
|---|---|---|---|
type | hmsで固定 | はい | なし |
hive.metastore.type | glueで固定 | はい | なし |
glue.region | AWS Glueリージョン、例:us-east-1 | はい | なし |
glue.endpoint | AWS Glueエンドポイント、例:https://glue.us-east-1.amazonaws.com | はい | なし |
glue.access_key | AWS Access Key ID | いいえ | 空 |
glue.secret_key | AWS Secret Access Key | いいえ | 空 |
glue.catalog_id | Glue カタログ ID(まだサポートされていません) | いいえ | 空 |
glue.role_arn | GlueにアクセスするためのIAM Role ARN | いいえ | 空 |
glue.external_id | GlueにアクセスするためのIAM External ID | いいえ | 空 |
例
CREATE CATALOG hive_glue_catalog PROPERTIES (
'type' = 'hms',
'hive.metastore.type' = 'glue',
'glue.region' = 'us-east-1',
'glue.endpoint' = 'https://glue.us-east-1.amazonaws.com',
'glue.access_key' = 'YOUR_ACCESS_KEY',
'glue.secret_key' = 'YOUR_SECRET_KEY'
);
Iceberg Glue Catalog
Iceberg Glue CatalogはGlue Clientを通じてGlueにアクセスします。設定は以下の通りです:
| パラメータ名 | 説明 | 必須 | デフォルト値 |
|---|---|---|---|
type | icebergとして固定 | はい | なし |
iceberg.catalog.type | glueとして固定 | はい | なし |
warehouse | Icebergデータウェアハウスパス、例:s3://my-bucket/iceberg-warehouse/ | はい | s3://doris |
glue.region | AWS Glueリージョン、例:us-east-1 | はい | なし |
glue.endpoint | AWS Glueエンドポイント、例:https://glue.us-east-1.amazonaws.com | はい | なし |
glue.access_key | AWS Access Key ID | いいえ | 空 |
glue.secret_key | AWS Secret Access Key | いいえ | 空 |
glue.catalog_id | Glue Catalog ID(まだサポートされていません) | いいえ | 空 |
glue.role_arn | Glueアクセス用のIAM Role ARN(まだサポートされていません) | いいえ | 空 |
glue.external_id | Glueアクセス用のIAM External ID(まだサポートされていません) | いいえ | 空 |
例
CREATE CATALOG iceberg_glue_catalog PROPERTIES (
'type' = 'iceberg',
'iceberg.catalog.type' = 'glue',
'glue.region' = 'us-east-1',
'glue.endpoint' = 'https://glue.us-east-1.amazonaws.com',
'glue.access_key' = '<YOUR_ACCESS_KEY>',
'glue.secret_key' = '<YOUR_SECRET_KEY>'
);
Iceberg Glue Rest Catalog
Iceberg Glue Rest CatalogはGlue Rest Catalogインターフェースを通じてGlueにアクセスします。現在はAWS S3 Table Bucketに格納されたIcebergテーブルのみをサポートしています。設定は以下の通りです:
| パラメータ名 | 説明 | 必須 | デフォルト値 |
|---|---|---|---|
type | icebergで固定 | はい | なし |
iceberg.catalog.type | restで固定 | はい | なし |
iceberg.rest.uri | Glue Restサービスエンドポイント、例:https://glue.ap-east-1.amazonaws.com/iceberg | はい | なし |
warehouse | Icebergデータウェアハウスパス、例:<account_id>:s3tablescatalog/<bucket_name> | はい | なし |
iceberg.rest.sigv4-enabled | V4署名フォーマットを有効化、trueで固定 | はい | なし |
iceberg.rest.signing-name | 署名タイプ、glueで固定 | はい | 空 |
iceberg.rest.access-key-id | Glueへのアクセス用Access Key(S3 Bucketへのアクセスにも使用) | はい | 空 |
iceberg.rest.secret-access-key | Glueへのアクセス用Secret Key(S3 Bucketへのアクセスにも使用) | はい | 空 |
iceberg.rest.signing-region | AWS Glueリージョン、例:us-east-1 | はい | 空 |
例
CREATE CATALOG glue_s3 PROPERTIES (
'type' = 'iceberg',
'iceberg.catalog.type' = 'rest',
'iceberg.rest.uri' = 'https://glue.<region>.amazonaws.com/iceberg',
'warehouse' = '<acount_id>:s3tablescatalog/<s3_table_bucket_name>',
'iceberg.rest.sigv4-enabled' = 'true',
'iceberg.rest.signing-name' = 'glue',
'iceberg.rest.access-key-id' = '<ak>',
'iceberg.rest.secret-access-key' = '<sk>',
'iceberg.rest.signing-region' = '<region>'
);
権限ポリシー
使用シナリオに応じて、読み取り専用と読み書きポリシーに分けることができます。
1. 読み取り専用権限
Glue Catalogからデータベースとテーブル情報の読み取りのみを許可します。
{
"Version": "2012-10-17",
"Statement": [
{
"Sid": "GlueCatalogReadOnly",
"Effect": "Allow",
"Action": [
"glue:GetCatalog",
"glue:GetDatabase",
"glue:GetDatabases",
"glue:GetTable",
"glue:GetTables",
"glue:GetPartitions"
],
"Resource": [
"arn:aws:glue:<region>:<account-id>:catalog",
"arn:aws:glue:<region>:<account-id>:database/*",
"arn:aws:glue:<region>:<account-id>:table/*/*"
]
}
]
}
2. 読み書き権限
読み取り専用権限に基づいて、データベースとテーブルの作成/変更/削除を許可します。
{
"Version": "2012-10-17",
"Statement": [
{
"Sid": "GlueCatalogReadWrite",
"Effect": "Allow",
"Action": [
"glue:GetCatalog",
"glue:GetDatabase",
"glue:GetDatabases",
"glue:GetTable",
"glue:GetTables",
"glue:GetPartitions",
"glue:CreateDatabase",
"glue:UpdateDatabase",
"glue:DeleteDatabase",
"glue:CreateTable",
"glue:UpdateTable",
"glue:DeleteTable"
],
"Resource": [
"arn:aws:glue:<region>:<account-id>:catalog",
"arn:aws:glue:<region>:<account-id>:database/*",
"arn:aws:glue:<region>:<account-id>:table/*/*"
]
}
]
}
注意事項
-
プレースホルダーの置換
<region>→ あなたのAWSリージョン(例:us-east-1)<account-id>→ あなたのAWSアカウントID(12桁の数字)
-
最小権限の原則
- クエリのみを行う場合は、書き込み権限を付与しない。
- 権限をさらに制限するために、
*を特定のデータベース/テーブルのARNに置き換えることができる。
-
S3権限
- 上記のポリシーはGlue Catalogのみに関わるものです。
- データファイルを読み取る必要がある場合は、追加のS3権限が必要です(
s3:GetObject、s3:ListBucketなど)。