您当前位置:资讯中心 >云计算 >浏览文章

运维兄弟!Kafka怎么又"超时"了?

来源:互联网 日期:2023/12/7 8:46:41 阅读量:(0)

现象

凌晨,当运维刚躺下,就被业务研发的电话叫醒,"哥们!kafka服务又异常了?影响到业务了,快看看",业务研发给出的异常日志如下:

基本分析

  • 集群检查:立即确认kafka集群以及涉及到topic健康状态。集群状态正常,收发消息正常,压力负载正常;topic读写正常。
  • 变更操作:近期未做关于kafka的任何变更操作,排查变更影响。
  • 确定影响范围:个例问题。问题规模限定在当前业务主机。

抓包分析

基本确定异常和集群无关后,接下来就是要排查网络相关的问题,网络和系统(内核参数设定)是息息相关的,网络问题是复杂而神秘的,后期会根据场景给大家分享,今天,我们主要分析网络链路问题

  • 使用tcpdump抓包(客户端抓包)。
# 抓所有和kafka节点通信的网络数据包(因为数据量很大,在异常时抓取了几分钟的包)
nohup tcpdump  port 9092 -w kafka.pcap &
关键字:
声明:我公司网站部分信息和资讯来自于网络,若涉及版权相关问题请致电(63937922)或在线提交留言告知,我们会第一时间屏蔽删除。
有价值
0% (0)
无价值
0% (10)

分享转发:

发表评论请先登录后发表评论。愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。