您当前位置:资讯中心 >云计算 >浏览文章

网络故障的隐形元凶:MTU配置你了解吗?

来源:互联网 日期:2023/11/28 9:30:48 阅读量:(0)

背景

我司使用的是亚马逊厂商的云服务,厂商的消息队列产品我们并没有用,我们选择自建,自建的好处是更灵活,定制性更广。公司内部有多套Kafka集群,100+broker节点,针对kafka我司也有比较完善的自动化运维管理体系,最近出现过一次业务连接kafka集群频繁超时的情况,在这里记录下处理过程,加深对网络知识的理解。

问题现象

业务收到服务可用性下降报警,分析日志发现是连接亚马逊kafka集群有频繁超时,超时日志如下:

基本分析

  • 影响因素:多台主机同时报警,排查单台主机问题。
  • 集群检查:立即确认kafka集群以及涉及到topic健康状态。集群状态正常,收发消息正常,压力负载正常;topic读写正常。
  • 变更操作:近期未做关于kafka的任何变更操作,排查变更影响。
  • 确定影响范围:确认其他业务是否有超时情况。大部分业务反馈未出现超时情况,问题规模限定在当前业务。

定位

网络问题从表面看不到细节,只能通过抓包分析,同时抓取了客户端和服务端的数据包,抓包命令如下:

# 客户端(抓所有和kafka节点通信的网络数据包)
nohup tcpdump  port 9092 -w kafka.pcap & 
# 服务端(抓所有和客户端主机通信的数据包)
nohup tcpdump host 10.66.67.166 -s0 -w 10.66.67.166.pcap &
关键字:
声明:我公司网站部分信息和资讯来自于网络,若涉及版权相关问题请致电(63937922)或在线提交留言告知,我们会第一时间屏蔽删除。
有价值
0% (0)
无价值
0% (10)

分享转发:

发表评论请先登录后发表评论。愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。