メインコンテンツまでスキップ

Monitor Metrics

Doris FEプロセスとBEプロセスは完全な監視メトリクスを提供します。監視メトリクスは2つのカテゴリに分けることができます:

  1. プロセス監視: 主にDorisプロセス自体の監視値を表示します。
  2. ノード監視: 主にDorisプロセスが配置されているノードマシン自体の監視を表示します。CPU、メモリ、IO、ネットワークなど。

FEまたはBEノードのhttpポートにアクセスすることで、現在の監視を取得できます。例:

curl http://fe_host:http_port/metrics
curl http://be_host:webserver_port/metrics

監視メトリクスはPrometheus互換形式で生成されます。例:

doris_fe_cache_added{type="partition"} 0
doris_fe_cache_added{type="sql"} 0
doris_fe_cache_hit{type="partition"} 0
doris_fe_cache_hit{type="sql"} 0
doris_fe_connection_total 2

typeパラメータをrest インターフェースで使用することで、Json形式の監視メトリクスを取得できます。例えば:

curl http://fe_host:http_port/metrics?type=json
curl http://be_host:webserver_port/metrics?type=json

監視レベルとベストプラクティス

表の最後の列は、監視項目の重要度レベルを示しています。P0は最も重要であることを意味し、値が大きいほど重要度は低くなります。

監視メトリクスタイプの大部分はCounter型です。つまり累積値です。定期的に(15秒間隔など)監視値を収集し、単位時間あたりの傾きを計算することで有効な情報を得ることができます。

クエリエラー率は、doris_fe_query_errの傾きを計算することで取得でき、(エラー/秒)として表示されます。

FE監視メトリクス

プロセス監視

nameLabelunitDescriptionImplicationGrade
doris_fe_cache_added{type="partition"}Num新しいPartition Cacheの数の累積値
{type=" sql "}Num新しいSQL Cacheの数の累積値
doris_fe_cache_hit{type="partition"}Numパーティションキャッシュヒット数
{type=" sql "}NumSQL Cacheヒット数
doris_fe_connection_totalNum現在のFE MySQL接続数クエリ接続数の監視に使用されます。接続数が制限を超えると、新しい接続はアクセスできなくなります。P0
doris_fe_counter_hit_sql_block_ruleNumSQL BLOCK RULEによってブロックされたクエリの数
doris_fe_edit_log_clean{type="failed"}Num履歴メタデータログのクリア失敗回数失敗すべきではありません。失敗した場合は手動介入が必要です。P0
{type="success"}Num履歴メタデータログの正常クリア回数
doris_fe_edit_log{type=" accumulated_bytes "}byteメタデータログ書き込み量の累積値傾きを計算することで書き込み速度を取得し、メタデータ書き込みに遅延があるかどうかを観察できます。P0
{type=" current_bytes "}byteメタデータログ現在値editlogサイズの監視に使用されます。サイズが制限を超えた場合、手動介入が必要ですP0
{type="read"}Numメタデータログ読み取り回数傾きを通してメタデータ読み取り頻度が正常かどうかを観察P0
{type="write"}Numメタデータログ書き込み回数傾きを通してメタデータ書き込み頻度が正常かどうかを観察P0
{type="current"}Num現在のメタデータログ数editlog数の監視に使用されます。数が制限を超えた場合、手動介入が必要ですP0
doris_fe_editlog_write_latency_msmillisecondメタデータログ書き込みレイテンシー。例えば、{quantile="0.75"} は75パーセンタイルの書き込みレイテンシーを示します。
doris_fe_image_clean{type="failed"}Num履歴メタデータイメージファイルのクリア失敗回数失敗すべきではありません。失敗した場合は手動介入が必要です。P0
{type="success"}Num履歴メタデータイメージファイルの正常クリア回数
doris_fe_image_push{type="failed"}Num他のFEノードへのメタデータイメージファイルプッシュ失敗回数
{type="success"}Num他のFEノードへのメタデータイメージファイルプッシュ成功回数
doris_fe_image_write{type="failed"}Numメタデータイメージファイル生成失敗回数失敗すべきではありません。失敗した場合は手動介入が必要です。P0
{type="success"}Numメタデータイメージファイル正常生成回数
doris_fe_jobNum現在の異なるジョブタイプと異なるジョブステータスの数。例えば、{job="load", type="INSERT", state="LOADING"}はINSERTタイプのインポートジョブでLOADING状態のジョブ数を表します。必要に応じてクラスター内の異なるタイプのジョブ数を観察P0
doris_fe_max_journal_idNum現在のFEノードの最大メタデータログID。Master FEの場合は現在書き込まれている最大ID、非Master FEの場合は現在再生中のメタデータログの最大IDを表します複数のFE間のIDギャップが大きすぎないかの観察に使用されます。大きすぎる場合、メタデータ同期に問題があることを示します。P0
doris_fe_max_tablet_compaction_scoreNum全BEノード中で最大のcompactionスコア値この値はクラスターの現在の最大compactionスコアを観察し、それが高すぎるかどうかを判断するために使用できます。高すぎる場合、クエリや書き込みの遅延が発生する可能性があります。P0
doris_fe_qpsNum/Sec現在のFEクエリ毎秒数(クエリリクエストのみカウント)QPSP0
doris_fe_query_errNumエラークエリの累積値
doris_fe_query_err_rateNum/Sec毎秒エラークエリ数クラスターでクエリエラーが発生しているかどうかを観察P0
doris_fe_query_latency_msmillisecondクエリリクエストレイテンシーのパーセンタイル統計。例えば、{quantile="0.75"}は75パーセンタイルのクエリ遅延を示します各クォンタイルのクエリレイテンシーを詳細に観察P0
doris_fe_query_latency_ms_dbmillisecond各DBのクエリリクエスト遅延のパーセンタイル統計。例えば、{quantile="0.75",db="test"}はDB testの75パーセンタイルのクエリ遅延を示します各DBのクエリレイテンシーを詳細に観察P0
doris_fe_query_olap_tableNum内部テーブル(OlapTable)へのリクエスト数の統計
doris_fe_query_totalNum全クエリリクエストの累積値
doris_fe_report_queue_sizeNumFE側でのBEの各種定期レポートタスクのキュー長この値はMaster FEノードでのレポートタスクのブロッキング度を反映します。値が大きいほど、FEの処理能力が低いことを示します。P0
doris_fe_request_totalNumMySQLポート経由で受信した全操作リクエスト(クエリやその他のステートメントを含む)
doris_fe_routine_load_error_rowsNumクラスター内の全Routine Loadジョブのエラー行数の合計をカウント
doris_fe_routine_load_receive_bytesbyteクラスター内の全Routine Loadジョブが受信したデータ量
doris_fe_routine_load_rowsNumクラスター内の全Routine Loadジョブが受信したデータ行数をカウント
doris_fe_routine_load_get_meta_latencymillisecondクラスター全体の全Routine Loadジョブのメタデータ取得の合計レイテンシー
doris_fe_routine_load_get_meta_countNumクラスター全体の全Routine Loadジョブのメタデータ取得操作の合計数
doris_fe_routine_load_get_meta_fail_countNumクラスター全体の全Routine Loadジョブの失敗したメタデータ取得操作の合計数
doris_fe_routine_load_task_execute_timemillisecondクラスター全体の全Routine Loadタスクの合計実行時間
doris_fe_routine_load_task_execute_countNumクラスター全体で実行された全Routine Loadタスクの合計数
doris_fe_routine_load_lagmillisecondクラスター全体の全Routine Loadジョブの合計消費遅延
doris_fe_routine_load_progressmillisecondクラスター全体の全Routine Loadジョブの合計消費進捗
doris_fe_routine_load_abort_task_numNumクラスター全体の失敗したRoutine Loadタスクの合計数
doris_fe_rpsNum現在のFE毎秒リクエスト数(クエリやその他のタイプのステートメントを含む)QPSと連携してクラスターが処理するリクエスト量を確認。P0
doris_fe_scheduled_tablet_numNumMaster FEノードがスケジューリング中のタブレット数。修復中のレプリカとバランシング中のレプリカを含む移行中のタブレット数。長時間値がある場合、クラスターが不安定であることを意味します。P0
doris_fe_tablet_max_compaction_scoreNum各BEノードがレポートするcompactionスコア。例えば、{backend="172.21.0.1:9556"}はBE "172.21.0.1:9556"のレポート値を表します
doris_fe_tablet_numNum各BEノードの現在の合計タブレット数。例えば、{backend="172.21.0.1:9556"}はBE "172.21.0.1:9556"の現在のタブレット数を示しますタブレットの分散が均一かどうか、絶対値が妥当かどうかを確認できますP0
doris_fe_tablet_status_countNumMaster FEノードのタブレットスケジューラーによってスケジュールされたタブレット数の累積値を統計
{type="added"}NumMaster FEノードのタブレットスケジューラーによってスケジュールされたタブレット数の累積値を統計。「added」はスケジュール済みのタブレット数を示します
{type=" in_sched "}Num上記と同様。繰り返しスケジュールされたタブレット数を示しますこの値が急速に増加する場合、タブレットが長期間不健康な状態にあり、スケジューラーによって繰り返しスケジュールされることを意味します。
{type=" not_ready "}Num上記と同様。スケジューリング条件をまだ満たしていないタブレット数を示します。この値が急速に増加する場合、多数のタブレットが不健康な状態にあるがスケジュールできないことを意味します。
{type="total"}Num上記と同様。チェック済み(ただし必ずしもスケジュールされていない)タブレットの累積数を表します。
{type="unhealthy"}Num上記と同様。チェックされた不健康なタブレットの累積数を示します。
doris_fe_thread_poolNum各種スレッドプールのワーキングスレッド数とキューイング状況をカウント。「active_thread_num」は実行中のタスク数を示します。「pool_size」はスレッドプールの総スレッド数を示します。「task_in_queue」はキューイング中のタスク数を示します
{name="agent-task-pool"}NumMaster FEがAgent TaskをBEに送信するために使用するスレッドプール
{name="connect-scheduler-check-timer"}NumMySQLアイドル接続がタイムアウトしたかどうかをチェックするためのプール
{name="connect-scheduler-pool"}NumMySQL接続リクエストを受信するためのプール
{name=" mysql - nio -pool"}Numタスク処理用のNIO MySQL Serverスレッドプール
{name="export-exporting-job-pool"}Numエクスポート状態のエクスポートジョブ用のプール
{name="export-pending-job-pool"}Num待機状態のエクスポートジョブ用のプール
{name="heartbeat- mgr -pool"}NumMaster FEが各ノードのハートビートを処理するために使用するスレッドプール
{name="loading-load-task-scheduler"}NumMaster FEがBroker In Loadジョブをスケジュールするために使用する、loading Taskスケジューリングスレッドプール
{name="pending-load-task-scheduler"}NumMaster FEがBroker Loadジョブをスケジュールするために使用する、pending Taskスケジューリングスレッドプール
{name="schema-change-pool"}NumMaster FEがスキーマ変更ジョブをスケジュールするために使用するプール
{name="thrift-server-pool"}NumFE側ThriftServerのワーカースレッドプール。fe.confのrpc_portに対応。BEとの相互作用に使用されます。
doris_fe_txn_counterNum各状態のインポートトランザクション数の累積値インポートトランザクションの実行を観察できます。P0
{type="begin"}Numコミット済みトランザクション数
{type="failed"}Num失敗したトランザクション数
{type="reject"}Num拒否されたトランザクション数(現在実行中のトランザクション数が閾値より大きい場合、新しいトランザクションは拒否されます)
{type=" succes "}Num成功したトランザクション数
doris_fe_txn_statusNum現在の各種状態のインポートトランザクション数をカウント。例えば、{type="committed"}はコミット済み状態のトランザクション数を示します。各状態のインポートトランザクション数を観察して、蓄積があるかどうかを判断できます。P0
doris_fe_query_instance_numNumユーザーが現在リクエスト中のfragmentインスタンス数。例えば、{user="test_u"}はユーザーtest_uが現在リクエスト中のインスタンス数を表しますこの値は、指定されたユーザーがクエリリソースを占有しすぎているかどうかを観察するために使用できます。P0
doris_fe_query_instance_beginNumユーザーリクエストが開始するfragmentインスタンス数。例えば、{user="test_u"}はユーザーtest_uがリクエスト開始したインスタンス数を表しますこの値は、指定されたユーザーが多すぎるクエリを送信したかどうかを観察するために使用できます。P0
doris_fe_query_rpc_totalNum指定されたBEに送信されたRPCの数。例えば、{be="192.168.10.1"}はIPアドレス192.168.10.1のBEに送信されたRPC数を示しますこの値は、特定のBEに多すぎるRPCが送信されているかどうかを観察するために使用できます。
doris_fe_query_rpc_failedNum指定されたBEに送信されたRPC失敗数。例えば、{be="192.168.10.1"}はIPアドレス192.168.10.1のBEに送信されたRPC失敗数を示しますこの値は、特定のBEにRPCの問題があるかどうかを観察するために使用できます。
doris_fe_query_rpc_sizeNum指定されたBEのRPCデータサイズ。例えば、{be="192.168.10.1"}はIPアドレス192.168.10.1のBEに送信されたRPCデータバイト数を示しますこの値は、BEに過度に大きなRPCが送信されているかどうかを観察するために使用できます。
doris_fe_txn_exec_latency_msmillisecondトランザクション実行時間のパーセンタイル統計。例えば、{quantile="0.75"}は75パーセンタイルのトランザクション実行時間を示します各桁のトランザクションの実行時間を詳細に観察P0
doris_fe_txn_publish_latency_msmillisecondトランザクションpublish時間のパーセンタイル統計。例えば、{quantile="0.75"}は75パーセンタイルのトランザクションpublish時間を示します各クォンタイルトランザクションの公開時間の観察P0
doris_fe_txn_numNumDBが実行中のトランザクション数。例えば、{db="test"}はDB testが現在実行中のトランザクション数を示します。この値は、特定のDBが大量のトランザクションを送信したかどうかを観察するために使用できます。P0
doris_fe_publish_txn_numNumDBが公開中のトランザクション数。例えば、{db="test"}はDB testが現在公開中のトランザクション数を示します。この値は、特定のDBのpublishトランザクション数を観察するために使用できます。P0
doris_fe_txn_replica_numNumDBが実行中のトランザクションが開いているレプリカ数。例えば、{db="test"}はDB testが現在実行中のトランザクションが開いているコピー数を示します。この値は、特定のDBが開いているコピーが多すぎないかどうかを観察するために使用できます。これは他のトランザクションの実行に影響を与える可能性があります。P0
doris_fe_thrift_rpc_totalNumFE thriftインターフェースの各メソッドが受信したRPCリクエスト数。例えば、{method="report"}はreportメソッドが受信したRPCリクエスト数を示します。この値は特定のthrift rpcメソッドの負荷を観察できます
doris_fe_thrift_rpc_latency_msmillisecondFE thriftインターフェースの各メソッドが受信したRPCリクエストの所要時間。例えば、{method="report"}はreportメソッドが受信したRPCリクエストの所要時間を示します。この値は特定のthrift rpcメソッドの負荷を観察できます
doris_fe_external_schema_cache{ catalog ="hive"}Num指定されたExternal Catalogの対応するスキーマキャッシュ数
doris_fe_hive_meta_cache{ catalog ="hive"}Num
{type=" partition_value "}Num指定されたExternal Hive Metastore Catalogの対応するpartition valueキャッシュ数
{type="partition"}Num指定されたExternal Hive Metastore Catalogの対応するpartitionキャッシュ数
{type="file"}Num指定されたExternal Hive Metastore Catalogの対応するfileキャッシュ数

JVMメトリクス

nameLabelunitDescriptionImpactGrade
jvm_heap_size_bytesbyteJVMメモリメトリクス。タグにはmax、used、committedが含まれ、それぞれ最大値、使用済み、要求済みメモリに対応します。JVMメモリ使用量を観察P0
jvm_non_heap_size_bytesbyteJVMオフヒープメモリ統計
<GarbageCollector>GCメトリクス。GarbageCollectorは特定のガベージコレクターを指しますP0
{type="count"}NumGC回数の累積値
{type="time"}millisecondGC時間消費の累積値
jvm_old_size_bytesbyteJVMオールド世代メモリ統計P0
jvm_threadNumJVMスレッド数統計JVMスレッド数が妥当かどうかを観察P0
jvm_young_size_bytesbyteJVMヤング世代メモリ統計P0

マシンメトリクス

nameLabelunitDescriptionImpactGrade
system_meminfobyteFEノードマシン。/proc/meminfoから収集。buffers、cached、memory_available、memory_free、memory_totalを含みます
system_snmpFEノードマシン。/proc/net/snmpから収集。
{name=" tcp_in_errs "}Numtcpパケット受信エラー
{name=" tcp_in_segs "}Num送信されたtcpパケット
{name=" tcp_out_segs "}Num送信されたtcpパケット
{name=" tcp_retrans_segs "}Numtcpパケット再送信数

BEメトリクス

プロセスメトリクス

nameLabelunitDescriptionImpactgrade
doris_be_active_scan_context_countNum外部から直接開かれている現在のスキャナー数
doris_be_add_batch_task_queue_sizeNumインポート記録時の、batchを受信するスレッドプールのキューサイズ0より大きい場合、インポートタスクの受信端で滞留があることを意味します。P0
agent_task_queue_sizeNum各Agent Task処理キューの長さを表示。{type="CREATE_TABLE"}はCREATE_TABLEタスクキューの長さを示します