网络故障的隐形元凶：MTU配置你了解吗？-云计算–飞度网络科技 - 专业的全球云服务器、服务器租用托管、云安全服务、全球域名注册提供商

网络故障的隐形元凶：MTU配置你了解吗？

来源:互联网日期:2023/11/28 9:30:48 阅读量:(0)

背景

我司使用的是亚马逊厂商的云服务，厂商的消息队列产品我们并没有用，我们选择自建，自建的好处是更灵活，定制性更广。公司内部有多套Kafka集群，100+broker节点，针对kafka我司也有比较完善的自动化运维管理体系，最近出现过一次业务连接kafka集群频繁超时的情况，在这里记录下处理过程，加深对网络知识的理解。

问题现象

业务收到服务可用性下降报警，分析日志发现是连接亚马逊kafka集群有频繁超时，超时日志如下：

基本分析

影响因素：多台主机同时报警，排查单台主机问题。
集群检查：立即确认kafka集群以及涉及到topic健康状态。集群状态正常，收发消息正常，压力负载正常；topic读写正常。
变更操作：近期未做关于kafka的任何变更操作，排查变更影响。
确定影响范围：确认其他业务是否有超时情况。大部分业务反馈未出现超时情况，问题规模限定在当前业务。

定位

网络问题从表面看不到细节，只能通过抓包分析，同时抓取了客户端和服务端的数据包，抓包命令如下：

# 客户端（抓所有和kafka节点通信的网络数据包）
nohup tcpdump  port 9092 -w kafka.pcap & 
# 服务端（抓所有和客户端主机通信的数据包）
nohup tcpdump host 10.66.67.166 -s0 -w 10.66.67.166.pcap &

关键字：

声明：我公司网站部分信息和资讯来自于网络，若涉及版权相关问题请致电（63937922）或在线提交留言告知，我们会第一时间屏蔽删除。

有价值

0% (0)

无价值

0% (10)

上一篇：容器运维必须知道的十个Kubernetes（K8s）集群常用API资源对象

下一篇：问：Kafka有哪些应用场景？你能说上来几个？

分享转发：

发表评论请先登录后发表评论。愿您的每句评论，都能给大家的生活添色彩，带来共鸣，带来思索，带来快乐。