メインコンテンツまでスキップ

メタデータキャッシュ

外部データソースへのアクセスのパフォーマンスを向上させるため、Apache Dorisは外部データソースのmetadataをキャッシュします。

Metadataには、データベース、テーブル、カラム、パーティション、スナップショット、ファイルリストなどの情報が含まれます。

この記事では、キャッシュされたmetadataのタイプ、戦略、および関連するパラメータ設定について詳しく説明します。

data cacheについては、data cache documentationを参照してください。

ヒント

このドキュメントはバージョン2.1.6以降に適用されます。

キャッシュ戦略

ほとんどのキャッシュには、以下の3つの戦略指標があります:

  • 最大キャッシュ数

    キャッシュが保持できるオブジェクトの最大数。例えば、最大1000テーブルをキャッシュできます。キャッシュ数がしきい値を超えると、LRU(Least-Recent-Used)戦略を使用して一部のキャッシュを削除します。

  • 削除時間

    • バージョン3.0.6まで(含む):

      キャッシュオブジェクトがキャッシュに書き込まれてから一定時間後、そのオブジェクトは自動的にキャッシュから削除されます。次回のアクセス時にデータソースから最新の情報を再取得し、キャッシュを更新します。

      例えば、ユーザーが08:00に初めてテーブルAにアクセスしてキャッシュに書き込んだとします。削除時間が4時間の場合、容量の問題で置き換えられない限り、ユーザーは08:00-14:00の間はキャッシュ内のテーブルAに直接アクセスします。14:00以降、キャッシュは削除されます。ユーザーが再びテーブルAにアクセスすると、データソースから最新の情報が取得され、キャッシュが更新されます。

    • バージョン3.0.7以降(含む):

      バージョン3.0.7以降、この戦略は書き込まれてから一定時間後ではなく、アクセスされてから一定時間後にキャッシュオブジェクトが自動的に削除されるように変更されました。キャッシュオブジェクトがアクセスされるたびにタイマーがリセットされ、頻繁にアクセスされるオブジェクトが常にキャッシュに残るようになります。

      例えば、ユーザーが08:00に初めてテーブルAにアクセスしてキャッシュに書き込んだとします。削除時間が4時間の場合、容量の問題で置き換えられない限り、ユーザーは08:00-14:00の間はキャッシュ内のテーブルAに直接アクセスします。ユーザーが09:00にこのオブジェクトに再度アクセスしたとすると、キャッシュ削除時間は09:00から再計算され、つまり15:00になります。

  • 最小更新時間

    キャッシュオブジェクトがキャッシュに書き込まれてから一定時間後、自動的に更新がトリガーされます。

    例えば、ユーザーが08:00に初めてテーブルAにアクセスしてキャッシュに書き込んだとします。最小更新時間が10分の場合、容量の問題で置き換えられない限り、ユーザーは08:00-8:10の間はキャッシュ内のテーブルAに直接アクセスします。08:10に、キャッシュオブジェクトは[更新準備完了]とマークされます。ユーザーがこのキャッシュオブジェクトに再度アクセスすると、現在のオブジェクトが返されますが、同時にキャッシュ更新操作がトリガーされます。キャッシュの更新に1分かかるとすると、1分後にキャッシュに再度アクセスすると、更新されたキャッシュオブジェクトが取得されます。

    キャッシュ更新がトリガーされる時間は[最小更新時間を超過した後の最初のキャッシュオブジェクトへのアクセス]であり、非同期更新であることに注意してください。そのため、例えば最小更新時間が10分の場合でも、10分後に必ず最新のオブジェクトが取得されるとは限りません。

    この戦略は[削除時間]とは異なり、主にキャッシュの適時性を調整するために使用され、非同期でキャッシュを更新することで現在の操作をブロックすることを回避します。

キャッシュタイプ

データベースとテーブル名のリスト

データベース名リストは、カタログ下のすべてのデータベース名のリストを指します。

テーブル名リストは、データベース下のすべてのテーブル名のリストを指します。

名前リストは、SHOW TABLESSHOW DATABASES文などの名前を列挙する必要がある操作にのみ使用されます。

各カタログにはデータベース名リストキャッシュがあります。各データベースにはテーブル名リストキャッシュがあります。

  • 最大キャッシュ数

    各キャッシュにはエントリが1つだけあります。そのため、最大キャッシュ数は1です。

  • 削除時間

    86400秒に固定。バージョン3.0.7以降、FEパラメータexternal_cache_expire_time_seconds_after_accessで設定、デフォルトは86400秒。

  • 最小更新時間

    FE設定項目external_cache_expire_time_minutes_after_accessで制御、分単位。デフォルトは10分。この時間を短縮すると、Dorisでより リアルタイムに最新の名前リストを確認できますが、外部データソースへのアクセス頻度が増加します。

    バージョン3.0.7以降、設定項目名はexternal_cache_refresh_time_minutesに変更されます。デフォルト値は変更されません。

データベースとテーブルオブジェクト

個々のデータベースとテーブルオブジェクトをキャッシュします。クエリ、書き込みなど、データベースやテーブルへのあらゆるアクセス操作は、このキャッシュから対応するオブジェクトを取得します。

このキャッシュ内のオブジェクトのリストは、データベースとテーブル名リストキャッシュと一致しない場合があることに注意してください。

例えば、SHOW TABLESコマンドを通じて、名前リストキャッシュからテーブルABCを取得したとします。この時点で外部データソースにテーブルDが追加された場合、SELECT * FROM DでテーブルDにアクセスでき、[テーブルオブジェクト]キャッシュにテーブルDオブジェクトが追加されますが、[テーブル名リスト]キャッシュは依然としてABCのままかもしれません。[テーブル名リスト]キャッシュが更新されて初めてABCDになります。

各カタログにはデータベース名リストキャッシュがあります。各データベースにはテーブル名リストキャッシュがあります。

  • 最大キャッシュ数

    FE設定項目max_meta_object_cache_numで制御、デフォルトは1000。単一カタログ下のデータベース数や単一データベース下のテーブル数に応じて、このパラメータを適切に調整できます。

  • 削除時間

    86400秒に固定。バージョン3.0.7以降、FEパラメータexternal_cache_expire_time_seconds_after_accessで設定、デフォルトは86400秒。

  • 最小更新時間

    FE設定項目external_cache_expire_time_minutes_after_accessで制御、分単位。デフォルトは10分。この時間を短縮すると、Dorisでより リアルタイムに最新のデータベースやテーブルを確認できますが、外部データソースへのアクセス頻度が増加します。

    バージョン3.0.7以降、設定項目名はexternal_cache_refresh_time_minutesに変更されます。デフォルト値は変更されません。

テーブルSchema

カラム名などのテーブルのschema情報をキャッシュします。このキャッシュは主に、アクセスされたテーブルのschemaをオンデマンドでロードし、大量の不要なテーブルschemaを同期してFEメモリを占有することを防ぐために使用されます。

このキャッシュはすべてのカタログで共有され、グローバルで一意です。

  • 最大キャッシュ数

    FE設定項目max_external_schema_cache_numで制御、デフォルトは10000。

    カタログ下のテーブル総数に応じて、このパラメータを適切に調整できます。

  • 削除時間

    86400秒に固定。バージョン3.0.7以降、FEパラメータexternal_cache_expire_time_seconds_after_accessで設定、デフォルトは86400秒。

  • 最小更新時間

    FE設定項目external_cache_expire_time_minutes_after_accessで制御、分単位。デフォルトは10分。この時間を短縮すると、Dorisでより リアルタイムに最新のschemaを確認できますが、外部データソースへのアクセス頻度が増加します。

    バージョン3.0.7以降、設定項目名はexternal_cache_refresh_time_minutesに変更されます。デフォルト値は変更されません。

Hive Metastoreテーブルパーティションリスト

Hive Metastoreから同期されたテーブルのパーティションリストをキャッシュするために使用されます。パーティションリストは、クエリ中のパーティションプルーニングに使用されます。

このキャッシュは、各Hive カタログに1つあります。

  • 最大キャッシュ数

    FE設定項目max_hive_partition_table_cache_numで制御、デフォルトは1000。

    カタログ下のテーブル総数に応じて、このパラメータを適切に調整できます。

  • 削除時間

    28800秒に固定。バージョン3.0.7以降、FEパラメータexternal_cache_expire_time_seconds_after_accessで設定、デフォルトは86400秒。

  • 最小更新時間

    FE設定項目external_cache_expire_time_minutes_after_accessで制御、分単位。デフォルトは10分。この時間を短縮すると、Dorisでより リアルタイムに最新のパーティションリストを確認できますが、外部データソースへのアクセス頻度が増加します。

    バージョン3.0.7以降、設定項目名はexternal_cache_refresh_time_minutesに変更されます。デフォルト値は変更されません。

Hive Metastoreテーブルパーティションプロパティ

ファイル形式、パーティションルートパスなど、Hiveテーブルの各パーティションのプロパティをキャッシュするために使用されます。各クエリで、パーティションプルーニング後にアクセスするパーティションのリストを取得してから、このキャッシュを通じて各パーティションの詳細なプロパティを取得します。

このキャッシュは、各Hive カタログに1つあります。

  • 最大キャッシュ数

    FE設定項目max_hive_partition_cache_numで制御、デフォルトは10000。

    カタログ下でアクセスされるパーティションの総数に応じて、このパラメータを適切に調整できます。

  • 削除時間

    28800秒に固定。バージョン3.0.7以降、FEパラメータexternal_cache_expire_time_seconds_after_accessで設定、デフォルトは86400秒。

  • 最小更新時間

    FE設定項目external_cache_expire_time_minutes_after_accessで制御、分単位。デフォルトは10分。この時間を短縮すると、Dorisでより リアルタイムに最新のパーティションプロパティを確認できますが、外部データソースへのアクセス頻度が増加します。

    バージョン3.0.7以降、設定項目名はexternal_cache_refresh_time_minutesに変更されます。デフォルト値は変更されません。

Hive Metastoreテーブルパーティションファイルリスト

Hiveテーブルの単一パーティション下のファイルリスト情報をキャッシュするために使用されます。このキャッシュは、ファイルシステムのList操作のオーバーヘッドを削減するために使用されます。

  • 最大キャッシュ数

    FE設定項目max_external_file_cache_numで制御、デフォルトは100000。

    アクセスされるファイル数に応じて、このパラメータを適切に調整できます。

  • 削除時間

    デフォルトは28800秒。バージョン3.0.7以降、FEパラメータexternal_cache_expire_time_seconds_after_accessで設定、デフォルトは86400秒。

    カタログプロパティでfile.meta.cache.ttl-secondプロパティが設定されている場合、設定された時間が使用されます。

    場合によっては、Hiveテーブルのデータファイルが頻繁に変更され、キャッシュが適時性の要件を満たさない場合があります。このパラメータを0に設定してこのキャッシュを無効にできます。この場合、各クエリでファイルリストがリアルタイムに取得され、パフォーマンスが低下する可能性がありますが、ファイルの適時性が向上します。

  • 最小更新時間

    FE設定項目external_cache_expire_time_minutes_after_accessで制御、分単位。デフォルトは10分。この時間を短縮すると、Dorisでより リアルタイムに最新のパーティションプロパティを確認できますが、外部データソースへのアクセス頻度が増加します。

    バージョン3.0.7以降、設定項目名はexternal_cache_refresh_time_minutesに変更されます。デフォルト値は変更されません。

Hudiテーブルパーティション

Hudiテーブルのパーティション情報をキャッシュするために使用されます。

このキャッシュは、各Hudi カタログに1つあります。

  • 最大キャッシュ数

    FE設定項目max_external_table_cache_numで制御、デフォルトは1000。

    Hudiテーブルの数に応じて、このパラメータを適切に調整できます。

  • 削除時間

    28800秒に固定。バージョン3.0.7以降、FEパラメータexternal_cache_expire_time_seconds_after_accessで設定、デフォルトは86400秒。

  • 最小更新時間

    FE設定項目external_cache_expire_time_minutes_after_accessで制御、分単位。デフォルトは10分。この時間を短縮すると、Dorisでより リアルタイムに最新のHudiパーティションプロパティを確認できますが、外部データソースへのアクセス頻度が増加します。

    バージョン3.0.7以降、設定項目名はexternal_cache_refresh_time_minutesに変更されます。デフォルト値は変更されません。

Icebergテーブル情報

Icebergテーブルオブジェクトをキャッシュするために使用されます。オブジェクトはIceberg APIを通じてロードおよび構築されます。

このキャッシュは、各Iceberg カタログに1つあります。

  • 最大キャッシュ数

    FE設定項目max_external_table_cache_numで制御、デフォルトは1000。

    Icebergテーブルの数に応じて、このパラメータを適切に調整できます。

  • 削除時間

    28800秒に固定。バージョン3.0.7以降、FEパラメータexternal_cache_expire_time_seconds_after_accessで設定、デフォルトは86400秒。

  • 最小更新時間

    FE設定項目external_cache_expire_time_minutes_after_accessで制御、分単位。デフォルトは10分。この時間を短縮すると、Dorisでより リアルタイムに最新のIcebergテーブルプロパティを確認できますが、外部データソースへのアクセス頻度が増加します。

    バージョン3.0.7以降、設定項目名はexternal_cache_refresh_time_minutesに変更されます。デフォルト値は変更されません。

Icebergテーブルスナップショット

Icebergテーブルのスナップショットリストをキャッシュするために使用されます。オブジェクトはIceberg APIを通じてロードおよび構築されます。 このキャッシュは、各Iceberg カタログに1つあります。

  • 最大キャッシュ数

    FE設定項目max_external_table_cache_numで制御、デフォルトは1000。

    Icebergテーブルの数に応じて、このパラメータを適切に調整できます。

  • 削除時間

    28800秒に固定。バージョン3.0.7以降、FEパラメータexternal_cache_expire_time_seconds_after_accessで設定、デフォルトは86400秒。

  • 最小更新時間

    FE設定項目external_cache_expire_time_minutes_after_accessで制御、分単位。デフォルトは10分。この時間を短縮すると、Dorisでより リアルタイムに最新のIcebergテーブルプロパティを確認できますが、外部データソースへのアクセス頻度が増加します。

    バージョン3.0.7以降、設定項目名はexternal_cache_refresh_time_minutesに変更されます。デフォルト値は変更されません。

キャッシュ更新

上記の各キャッシュの更新および削除戦略に加えて、ユーザーは手動または定期的にmetadataキャッシュを直接更新することもできます。

手動更新

ユーザーはREFRESHコマンドを使用してmetadataを手動で更新できます。

  1. REFRESH CATALOG

    指定されたカタログを更新します。

    REFRESH CATALOG ctl1 PROPERTIES("invalid_cache" = "true");

    • このコマンドは、指定されたカタログのデータベースリスト、テーブルカラム名、およびすべてのキャッシュ情報を更新します。
    • invalid_cacheは、パーティションやファイルリストなどのキャッシュを更新するかどうかを示します。デフォルトはtrueです。falseの場合、カタログのデータベースとテーブルリストのみが更新され、パーティションやファイルリストなどのキャッシュは更新されません。このパラメータは、ユーザーが新しく追加または削除されたデータベースとテーブルのみを同期したい場合に適しており、falseに設定できます。
  2. REFRESH DATABASE

    指定されたDatabaseを更新します。

    REFRESH DATABASE [ctl.]db1 PROPERTIES("invalid_cache" = "true");

    • このコマンドは、指定されたDatabase下のテーブルカラム名およびすべてのキャッシュ情報を更新します。
    • invalid_cacheプロパティの意味は上記と同じです。デフォルトはtrueです。falseの場合、Databaseのテーブルリストのみが更新され、キャッシュ情報は更新されません。このパラメータは、ユーザーが新しく追加または削除されたテーブルのみを同期したい場合に適しています。
  3. REFRESH TABLE

    指定されたtableを更新します。

    REFRESH TABLE [ctl.][db.]tbl1;

    • このコマンドは、指定されたtable下のすべてのキャッシュ情報を更新します。

定期更新

ユーザーは、カタログの作成時に定期更新を設定できます。

CREATE CATALOG hive PROPERTIES (
'type'='hms',
'hive.metastore.uris' = 'thrift://172.0.0.1:9083',
'metadata_refresh_interval_sec' = '3600'
);

上記の例では、metadata_refresh_interval_secはCatalogが3600秒ごとにリフレッシュされることを意味します。これは3600秒ごとに以下を自動実行することと同等です:

REFRESH CATALOG ctl1 PROPERTIES("invalid_cache" = "true");

ベストプラクティス

キャッシュはメタデータアクセスのパフォーマンスを大幅に向上させ、メタデータへの頻繁なリモートアクセスを回避できます。これにより、パフォーマンスのジッターを引き起こしたり、メタデータサービスに負荷をかけたりすることを防げます。しかし、キャッシュはデータの適時性も低下させます。例えば、キャッシュのリフレッシュ時間が10分の場合、10分以内はキャッシュされたメタデータのみが読み取り可能です。そのため、状況に応じてキャッシュを合理的に設定する必要があります。

デフォルトの動作

このセクションでは主に、デフォルトパラメータ設定下でユーザーが関心を持つ可能性があるキャッシュ動作について紹介します。

  • 外部データソースに新しいデータベースやテーブルが追加された後、DorisでSELECTを通じてリアルタイムでクエリできます。しかし、SHOW DATABASESやSHOW TABLESでは表示されない場合があります。手動でキャッシュをリフレッシュするか、最大10分待つ必要があります。
  • 外部データソースに新しいパーティションが追加された場合、新しいパーティションデータをクエリするには、手動でキャッシュをリフレッシュするか、最大10分待つ必要があります。
  • パーティションデータファイルが変更された場合、新しいパーティションデータをクエリするには、手動でキャッシュをリフレッシュするか、最大10分待つ必要があります。

Schema Cacheの無効化

すべてのタイプのExternal Catalogsで、最新のTable Schemaをリアルタイムで確認したい場合は、Schema Cacheを無効にできます:

  • グローバルに無効化

    -- fe.conf
    max_external_schema_cache_num=0 // Disable Schema cache.
  • カタログレベルで無効化

    -- Catalog property
    "schema.cache.ttl-second" = "0" // For a specific Catalog, disable Schema cache (supported in 2.1.11, 3.0.6)

設定後、Dorisは最新のTable Schemaをリアルタイムで確認します。ただし、この設定はメタデータサービスの負荷を増加させる可能性があります。

Hive Catalogメタデータキャッシュの無効化

Hive Catalogにおいて、リアルタイムで更新されたデータをクエリするためにキャッシュを無効にしたい場合は、以下のパラメータを設定できます:

  • グローバルに無効化

    -- fe.conf
    max_external_file_cache_num=0 // Disable file list cache
    max_hive_partition_table_cache_num=0 // Disable partition list cache
  • Catalog レベルで無効化

    -- Catalog property
    "file.meta.cache.ttl-second" = "0" // For a specific Catalog, disable file list cache
    "partition.cache.ttl-second" = "0" // For a specific Catalog, disable partition list cache (supported in 2.1.11, 3.0.6)

上記のパラメータを設定した後:

  • 外部データソースの新しいパーティションをリアルタイムでクエリできます。
  • パーティションデータファイルの変更をリアルタイムでクエリできます。

ただし、これにより外部データソース(Hive MetastoreやHDFSなど)へのアクセス負荷が増加し、メタデータアクセスレイテンシの不安定化などの現象を引き起こす可能性があります。