合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
凌晨,当运维刚躺下,就被业务研发的电话叫醒,"哥们!kafka服务又异常了?影响到业务了,快看看",业务研发给出的异常日志如下:
基本确定异常和集群无关后,接下来就是要排查网络相关的问题,网络和系统(内核参数设定)是息息相关的,网络问题是复杂而神秘的,后期会根据场景给大家分享,今天,我们主要分析网络链路问题
# 抓所有和kafka节点通信的网络数据包(因为数据量很大,在异常时抓取了几分钟的包)
nohup tcpdump port 9092 -w kafka.pcap &
TOP