跳到主要内容

Routine Load 常见问题

本文档记录了 Doris 在使用过程中与 Routine Load 相关的常见问题、Bug 修复及优化改进,并将不定期更新。

较严重的 Bug 修复

问题描述发生条件影响范围临时解决方案受影响版本修复版本修复 PR
当至少一个 Job 连接 Kafka 时发生超时,会影响其他 Job 的导入速度,导致全局 Routine Load 导入变慢存在至少一个 Job 连接 Kafka 时发生超时存算分离存算一体通过停止或手动暂停该 Job 来解决。<2.1.9 <3.0.52.1.9 3.0.5#47530
重启 FE Master 后,用户数据可能丢失Job 设置的 Offset 为 OFFSET_END,重启 FE存算分离将消费模式更改为 OFFSET_BEGINNING。3.0.2-3.0.43.0.5#46149
导入过程中产生大量小事务,导致 Compaction 无法及时完成,并持续报 -235 错误。Doris 消费速度过快,或 Kafka 数据流量呈小批量趋势存算分离存算一体暂停 Routine Load Job,并执行以下命令:ALTER ROUTINE LOAD FOR jobname FROM kafka ("property.enable.partition.eof" = "false");<2.1.8 <3.0.42.1.8 3.0.4#45528, #44949, #39975
Kafka 第三方库析构卡住,导致无法正常消费数据。Kafka 删除 Topic(可能不止此条件)存算分离存算一体重启所有 BE 节点。<2.1.8 <3.0.42.1.8 3.0.4#44913
Routine Load 调度卡住当 FE 向 Meta Service 中止事务时发生超时存算分离重启 FE 节点。<3.0.23.0.2#41267
Routine Load 重启问题重启 BE 节点存算分离存算一体手动恢复 Job。<2.1.7 <3.0.22.1.7 3.0.2#3727

默认配置优化

优化内容合入版本对应 PR
增加了 Routine Load 的超时时间2.1.7 3.0.3#42042, #40818
调整了 max_batch_interval 的默认值2.1.8 3.0.3#42491
移除了 max_batch_interval 的限制2.1.5 3.0.0#29071
调整了 max_batch_rows 和 max_batch_size 的默认值2.1.5 3.0.0#36632

可观测优化

优化内容合入版本对应 PR
增加了可观测性相关的 Metrics 指标3.0.5#48209, #48171, #48963