Monitor Metrics

Doris FEプロセスとBEプロセスは完全な監視メトリクスを提供します。監視メトリクスは2つのカテゴリに分けることができます：

プロセス監視: 主にDorisプロセス自体の監視値を表示します。
ノード監視: 主にDorisプロセスが配置されているノードマシン自体の監視を表示します。CPU、メモリ、IO、ネットワークなど。

FEまたはBEノードのhttpポートにアクセスすることで、現在の監視を取得できます。例：

curl http://fe_host:http_port/metrics
curl http://be_host:webserver_port/metrics

監視メトリクスはPromise互換フォーマットで生成されます。例：

doris_fe_cache_added{type="partition"} 0
doris_fe_cache_added{type="sql"} 0
doris_fe_cache_hit{type="partition"} 0
doris_fe_cache_hit{type="sql"} 0
doris_fe_connection_total 2

Json形式の監視メトリクスは、REST インターフェースで type パラメータを使用して取得できます。例えば：

curl http://fe_host:http_port/metrics?type=json
curl http://be_host:webserver_port/metrics?type=json

監視レベルとベストプラクティス

表の最後の列は監視項目の重要度レベルを示します。P0は最重要を意味し、値が大きいほど重要度が低くなります。

監視メトリクスタイプの大部分はCounterです。つまり累積値です。間隔（15秒ごとなど）で監視値を収集し、単位時間あたりの傾きを計算することで有効な情報を得られます。

クエリエラー率はdoris_fe_query_errの傾きを計算することで取得でき、（秒あたりのエラー）として表示されます。

FE監視メトリクス

プロセス監視

name	Label	unit	Description	Implication	Grade
doris_fe_cache_added	{type="partition"}	Num	新しいPartition Cacheの数の累積値
	{type=" sql "}	Num	新しいSQL Cacheの数の累積値
doris_fe_cache_hit	{type="partition"}	Num	パーティションキャッシュヒット数
	{type=" sql "}	Num	SQL Cacheヒット数
doris_fe_connection_total		Num	現在のFE MySQLポート接続数	クエリ接続数の監視に使用。接続数が制限を超えると、新しい接続はアクセスできません。	P0
doris_fe_counter_hit_sql_block_rule		Num	SQL BLOCK RULEによってブロックされたクエリ数
doris_fe_edit_log_clean	{type="failed"}	Num	履歴メタデータログのクリア失敗数	失敗すべきではありません。失敗した場合は手動介入が必要です。	P0
	{type="success"}	Num	履歴メタデータログの正常なクリア回数
doris_fe_edit_log	{type=" accumulated_bytes "}	byte	メタデータログ書き込み量の累積値	傾きを計算して書き込み速度を取得し、メタデータ書き込みに遅延がないかを観測できます。	P0
	{type=" current_bytes "}	byte	メタデータログ現在値	editlogサイズの監視に使用。サイズが制限を超えた場合は手動介入が必要	P0
	{type="read"}	Num	メタデータログ読み取り数	傾きを通してメタデータ読み取り頻度が正常かを観測	P0
	{type="write"}	Num	メタデータログ書き込み数	傾きを通してメタデータ書き込み頻度が正常かを観測	P0
	{type="current"}	Num	現在のメタデータログ数	editlog数量の監視に使用。数量が制限を超えた場合は手動介入が必要	P0
doris_fe_editlog_write_latency_ms		millisecond	メタデータログ書き込み遅延。例えば、{quantile="0.75"}は75パーセンタイル書き込み遅延を示します。
doris_fe_image_clean	{type="failed"}	Num	履歴メタデータイメージファイルのクリーン失敗数	失敗すべきではありません。失敗した場合は手動介入が必要です。	P0
	{type="success"}	Num	履歴メタデータイメージファイルの正常なクリーン回数
doris_fe_image_push	{type="failed"}	Num	他のFEノードへのメタデータイメージファイルプッシュの失敗数
	{type="success"}	Num	他のFEノードへのメタデータイメージファイルの正常なプッシュ数
doris_fe_image_write	{type="failed"}	Num	メタデータイメージファイル生成の失敗数	失敗すべきではありません。失敗した場合は手動介入が必要です。	P0
	{type="success"}	Num	メタデータイメージファイルの正常な生成回数
doris_fe_job		Num	異なるジョブタイプと異なるジョブステータスの現在数。例えば、{job="load", type="INSERT", state="LOADING"}はINSERTタイプのインポートジョブでLOADING状態のジョブ数を表します。	必要に応じてクラスタ内の異なるタイプのジョブ数を観測	P0
doris_fe_max_journal_id		Num	現在のFEノードの最大メタデータログID。Master FEの場合は現在書き込まれている最大ID、非Master FEの場合は現在再生中のメタデータログの最大IDを表します	複数のFE間のIDギャップが大きすぎないかを観測するために使用。大きすぎる場合はメタデータ同期に問題があることを示します。	P0
doris_fe_max_tablet_compaction_score		Num	全BEノード中で最大のcompactionスコア値。	この値を使用してクラスタの最大compactionスコアを観測し、高すぎないかを判定できます。高すぎる場合、クエリや書き込み遅延が発生する可能性があります。	P0
doris_fe_qps		Num/Sec	現在のFEの秒あたりクエリ数（クエリリクエストのみカウント）	QPS	P0
doris_fe_query_err		Num	エラークエリの累積値
doris_fe_query_err_rate		Num/Sec	秒あたりエラークエリ数	クラスタでクエリエラーが発生していないかを観測	P0
doris_fe_query_latency_ms		millisecond	クエリリクエスト遅延のパーセンタイル統計。例えば、{quantile="0.75"}は75パーセンタイルのクエリ遅延を示します	各クァンタイルのクエリ遅延を詳細に観測	P0
doris_fe_query_latency_ms_db		millisecond	各DBのクエリリクエスト遅延のパーセンタイル統計。例えば、{quantile="0.75",db="test"}はDB testの75パーセンタイルのクエリ遅延を示します	各DBのクエリ遅延を詳細に観測	P0
doris_fe_query_olap_table		Num	内部テーブル（OlapTable）へのリクエスト数の統計
doris_fe_query_total		Num	全クエリリクエストの累積値
doris_fe_report_queue_size		Num	FE側でのBEの各定期報告タスクのキュー長	この値はMaster FEノードでの報告タスクのブロッキング度を反映します。値が大きいほどFEの処理能力が低いことを示します。	P0
doris_fe_request_total		Num	MySQLポートを通じて受信したすべての操作リクエスト（クエリおよび他のステートメントを含む）
doris_fe_routine_load_error_rows		Num	クラスタ内のすべてのRoutine Loadジョブのエラー行数の合計
doris_fe_routine_load_receive_bytes		byte	クラスタ内のすべてのRoutine Loadジョブが受信したデータ量
doris_fe_routine_load_rows		Num	クラスタ内のすべてのRoutine Loadジョブが受信したデータ行数
doris_fe_routine_load_get_meta_latency		millisecond	クラスタ内のすべてのRoutine Loadジョブのメタデータ取得の総遅延
doris_fe_routine_load_get_meta_count		Num	クラスタ内のすべてのRoutine Loadジョブのメタデータ取得操作の総数
doris_fe_routine_load_get_meta_fail_count		Num	クラスタ内のすべてのRoutine Loadジョブの失敗したメタデータ取得操作の総数
doris_fe_routine_load_task_execute_time		millisecond	クラスタ内のすべてのRoutine Loadタスクの総実行時間
doris_fe_routine_load_task_execute_count		Num	クラスタ内のすべてのRoutine Loadタスクの総実行数
doris_fe_routine_load_lag		millisecond	クラスタ内のすべてのRoutine Loadジョブの総消費遅延
doris_fe_routine_load_progress		millisecond	クラスタ内のすべてのRoutine Loadジョブの総消費進捗
doris_fe_routine_load_abort_task_num		Num	クラスタ内の失敗したRoutine Loadタスクの総数
doris_fe_rps		Num	現在のFEの秒あたりリクエスト数（クエリおよび他のタイプのステートメントを含む）	QPSと連携してクラスタが処理するリクエスト量を確認。	P0
doris_fe_scheduled_tablet_num		Num	Master FEノードによってスケジュールされているタブレット数。修復中のレプリカとバランシング中のレプリカを含みます	移行中のタブレット数。長時間値がある場合はクラスタが不安定であることを意味します。	P0
doris_fe_tablet_max_compaction_score		Num	各BEノードが報告するcompactionスコア。例えば、{backend="172.21.0.1:9556"}はBE「172.21.0.1:9556」の報告値を表します
doris_fe_tablet_num		Num	各BEノードの現在の総タブレット数。例えば、{backend="172.21.0.1:9556"}はBE「172.21.0.1:9556」の現在のタブレット数を示します	タブレット分散が均一か、絶対値が合理的かを確認できます	P0
doris_fe_tablet_status_count		Num	Master FEノードのタブレットスケジューラーによってスケジュールされたタブレット数の累積値を統計
	{type="added"}	Num	Master FEノードのタブレットスケジューラーによってスケジュールされたタブレット数の累積値を統計。「added」はスケジュールされたタブレット数を示します
	{type=" in_sched "}	Num	上記と同じ。繰り返しスケジュールされているタブレット数を示します	この値が急速に増加する場合、タブレットが長時間不健全な状態にあり、スケジューラーによって繰り返しスケジュールされていることを意味します。
	{type=" not_ready "}	Num	上記と同じ。まだスケジューリングトリガー条件を満たしていないタブレット数を示します。	この値が急速に増加する場合、多数のタブレットが不健全な状態にあるがスケジュールできないことを意味します。
	{type="total"}	Num	上記と同じ。チェックされた（ただし必ずしもスケジュールされていない）タブレットの累積数を表します。
	{type="unhealthy"}	Num	上記と同じ。チェックされた不健全なタブレットの累積数を示します。
doris_fe_thread_pool		Num	各スレッドプールの作業スレッド数とキューイング状況をカウント。「active_thread_num」は実行中のタスク数を示します。「pool_size」はスレッドプール内の総スレッド数を示します。「task_in_queue」はキューイング中のタスク数を示します
	{name="agent-task-pool"}	Num	Master FEがBEにAgent Taskを送信するために使用するスレッドプール
	{name="connect-scheduler-check-timer"}	Num	MySQLアイドル接続がタイムアウトしたかをチェックするプール
	{name="connect-scheduler-pool"}	Num	MySQL接続リクエストを受信するプール
	{name=" mysql - nio -pool"}	Num	タスクを処理するNIO MySQL Serverスレッドプール
	{name="export-exporting-job-pool"}	Num	エクスポート状態のエクスポートジョブ用プール
	{name="export-pending-job-pool"}	Num	ペンディング状態のエクスポートジョブ用プール
	{name="heartbeat- mgr -pool"}	Num	Master FEが各ノードのハートビートを処理するために使用するスレッドプール
	{name="loading-load-task-scheduler"}	Num	Master FEがBroker Load jobをスケジュールするために使用する、loadingタスクスケジューリングスレッドプール
	{name="pending-load-task-scheduler"}	Num	Master FEがBroker Load jobをスケジュールするために使用する、pendingタスクスケジューリングスレッドプール
	{name="schema-change-pool"}	Num	Master FEがスキーマ変更ジョブをスケジュールするために使用するプール
	{name="thrift-server-pool"}	Num	FE側のThriftServerのワーカースレッドプール。fe.confのrpc_portに対応。BEとの相互作用に使用。
doris_fe_txn_counter		Num	各ステータスのインポートトランザクション数の累積値	インポートトランザクションの実行を観測できます。	P0
	{type="begin"}	Num	コミットされたトランザクション数
	{type="failed"}	Num	失敗したトランザクション数
	{type="reject"}	Num	拒否されたトランザクション数（現在実行中のトランザクション数が閾値を超えた場合、新しいトランザクションは拒否されます）
	{type=" succes "}	Num	成功したトランザクション数
doris_fe_txn_status		Num	現在各状態にあるインポートトランザクション数をカウント。例えば、{type="committed"}はcommitted状態のトランザクション数を示します。	各状態のインポートトランザクション数を観測して蓄積がないかを判定できます。	P0
doris_fe_query_instance_num		Num	ユーザーが現在リクエストしているfragmentのインスタンス数。例えば、{user="test_u"}はユーザーtest_uが現在リクエストしているインスタンス数を表します	この値を使用して指定ユーザーがクエリリソースを過度に占有していないかを観測できます。	P0
doris_fe_query_instance_begin		Num	ユーザーリクエストが開始したfragmentのインスタンス数。例えば、{user="test_u"}はユーザーtest_uが開始をリクエストしたインスタンス数を表します	この値を使用して指定ユーザーが過度にクエリを投入していないかを観測できます。	P0
doris_fe_query_rpc_total		Num	指定BEに送信されたRPC数。例えば、{be="192.168.10.1"}はIPアドレス192.168.10.1のBEに送信されたRPC数を示します	この値を使用して特定のBEに過度にRPCが投入されていないかを観測できます。
doris_fe_query_rpc_failed		Num	指定BEに送信されたRPC失敗数。例えば、{be="192.168.10.1"}はIPアドレス192.168.10.1のBEに送信されたRPC失敗数を示します	この値を使用して特定のBEにRPCの問題がないかを観測できます。
doris_fe_query_rpc_size		Num	指定BEのRPCデータサイズ。例えば、{be="192.168.10.1"}はIPアドレス192.168.10.1のBEに送信されたRPCデータバイト数を示します	この値を使用してBEに過度に大きなRPCが投入されていないかを観測できます。
doris_fe_txn_exec_latency_ms		millisecond	トランザクション実行時間のパーセンタイル統計。例えば、{quantile="0.75"}は75パーセンタイルのトランザクション実行時間を示します	各桁のトランザクション実行時間を詳細に観測	P0
doris_fe_txn_publish_latency_ms		millisecond	トランザクションpublish時間のパーセンタイル統計。例えば、{quantile="0.75"}は75パーセンタイルのトランザクションpublish時間を示します	各クァンタイルのトランザクションのpublish時間を詳細に観測	P0
doris_fe_txn_num		Num	指定DBによって実行されているトランザクション数。例えば、{db="test"}はDB testが現在実行しているトランザクション数を示します。	この値を使用して特定のDBが大量のトランザクションを投入していないかを観測できます。	P0
doris_fe_publish_txn_num		Num	指定DBによってpublish中のトランザクション数。例えば、{db="test"}はDB testが現在publish中のトランザクション数を示します。	この値を使用して特定のDBのpublishトランザクション数を観測できます。	P0
doris_fe_txn_replica_num		Num	指定DBで実行中のトランザクションによって開かれたレプリカ数。例えば、{db="test"}はDB testが現在実行中のトランザクションによって開かれたコピー数を示します。	この値を使用して特定のDBが過度に多くのコピーを開いていないかを観測でき、他のトランザクションの実行に影響する可能性があります。	P0
doris_fe_thrift_rpc_total		Num	FE thriftインターフェースの各メソッドが受信したRPCリクエスト数。例えば、{method="report"}はreportメソッドが受信したRPCリクエスト数を示します。	この値で特定のthrift rpcメソッドの負荷を観測できます
doris_fe_thrift_rpc_latency_ms		millisecond	FE thriftインターフェースの各メソッドが受信したRPCリクエストの所要時間。例えば、{method="report"}はreportメソッドが受信したRPCリクエストの所要時間を示します。	この値で特定のthrift rpcメソッドの負荷を観測できます
doris_fe_external_schema_cache	{ catalog ="hive"}	Num	指定External Catalogの対応するスキーマキャッシュ数
doris_fe_hive_meta_cache	{ catalog ="hive"}	Num
	{type=" partition_value "}	Num	指定External Hive Metastore Catalogの対応するpartition valueキャッシュ数
	{type="partition"}	Num	指定External Hive Metastore Catalogの対応するpartitionキャッシュ数
	{type="file"}	Num	指定External Hive Metastore Catalogの対応するファイルキャッシュ数

JVMメトリクス

name	Label	unit	Description	Impact	Grade
`jvm_heap_size_bytes`		byte	JVMメモリメトリクス。タグにはmax、used、committedが含まれ、それぞれ最大値、使用済み、要求済みメモリに対応します。	JVMメモリ使用量を観測	P0
`jvm_non_heap_size_bytes`		byte	JVMオフヒープメモリ統計
`<GarbageCollector>`			GCメトリクス。	GarbageCollectorは特定のガベージコレクタを指します	P0
	{type="count"}	Num	GC回数の累積値
	{type="time"}	millisecond	GC時間消費の累積値
`jvm_old_size_bytes`		byte	JVM老年代メモリ統計		P0
`jvm_thread`		Num	JVMスレッド数統計	JVMスレッド数が適切かを観測	P0
`jvm_young_size_bytes`		byte	JVM新世代メモリ統計		P0

マシンメトリクス

name	Label	unit	Description
system_meminfo		byte	FEノードマシン。/proc/meminfoから収集。buffers、cached、memory_available、memory_free、memory_totalを含みます
system_snmp		FEノードマシン。/proc/net/snmpから収集。
	{name=" tcp_in_errs "}	Num	tcpパケット受信エラー
	{name=" tcp_in_segs "}	Num	tcp送信パケット
	{name=" tcp_out_segs "}	Num	tcp送信パケット
	{name=" tcp_retrans_segs "}	Num	tcpパケット再送信数

BEメトリクス

プロセスメトリクス

name	unit	Description	Impact	grade
doris_be_active_scan_context_count	Num	外部から直接開かれた現在のスキャナー数
doris_be_add_batch_task_queue_size	Num	インポート記録時の、バッチを受信するスレッドプールのキューサイズ	0より大きい場合、インポートタスクの受信側でバックログがあることを意味します。	P0
agent_task_queue_size	Num	各Agent Task処理キューの長さを表示。{type="CREATE_TABLE"}はCREATE_TABLEタスクキューの長さを示します
doris_be_brpc_endpoint_stub_count	Num	BE間の相互作用に使用されるbrpc stubの作成数
doris_be_brpc_function_endpoint_stub_count	Num	Remote RPCとの相互作用に使用

監視レベルとベストプラクティス​

FE監視メトリクス​

プロセス監視​

JVMメトリクス​

監視レベルとベストプラクティス

FE監視メトリクス

プロセス監視

JVMメトリクス