Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Kafkalag很高,达到200万 #17

Open
yumianxiaofeilongya opened this issue Jul 5, 2023 · 5 comments
Open

Kafkalag很高,达到200万 #17

yumianxiaofeilongya opened this issue Jul 5, 2023 · 5 comments

Comments

@yumianxiaofeilongya
Copy link

通过api,getkafkalag响应200万,hub输入源QPS为0,数据处理服务不可用,这个需要怎么排查和处理呀

@yumianxiaofeilongya
Copy link
Author

单台部署,8c32g,12台agent

@TaeRoen
Copy link
Collaborator

TaeRoen commented Jul 6, 2023

Hub 不消费排查:

  1. systemctl status elkeid_hub 查看启动时间,并观察一段时间,看hub是否有自己重启的情况。
  2. 手动重启一次Hub,systemctl restart elkeid_hub,看hub是否恢复消费。hub是否消费可以通过kafka的监控面板来确认。
  3. 若无改善,查看hub metrics。 curl -k -s https://x.x.x.x:8091/metrics | grep input ,查看结果是否为0。
    3.1 若为0,说明hub 从未消费数据,需要排查input的问题
    3.2 若不为0,说明hub 消费了数据,但是output堵住了,需要排查output问题
  4. hub log在 /elkeid/hub/log/smith.log , hub 的标准输出在 /elkeid/log/hub.log,排除 metrics 关键词后,有其他部分err log,请贴出来我们一同判断。

@yumianxiaofeilongya
Copy link
Author

IMG_3861
这个界面看有没有消费么

@TaeRoen
Copy link
Collaborator

TaeRoen commented Jul 7, 2023

截图和描述不太符合,我先来说下截图的含义:

  1. 图一: topic创建在 07/01 到 07/02 之间,说明这个时间点部署了服务,但是没看到写入。
  2. 图一: 在 07/05 的时候第一次有数据写入到kafka,但是很短暂就又没数据写入了。斜线都是grafana连的点,说明这段时间没数据。
  3. 图二: lag为 -11 ,说明只有一个partition有数据但没lag,其他是一个partition没写入过数据,是-1,所以加起来是 -11
  4. 团三,同图一
  5. 图四:只有在 07/05 有数据的时候消费了一会,其他时间没有数据。

根据这个截图推断,不是hub不消费,而是agent连接agent_center 有问题或 agent_center 写入kafka有问题,仅在07/05这个时间点连上了。

@yumianxiaofeilongya
Copy link
Author

好的,老师,按照您给的排查思路,我删除了输出后服务显示为低负载,不再是不可用了,但是那个getkafkalag接口一直持续上升,这正常么,图片我只是接了另一个环境的图片,正在使用的环境图片是无法传出网络的,按照你的解释我可以尝试理解一下正式环境的数据,感谢老师

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants