网络故障模拟测试工具使用指南

你有没有遇到过这种情况：公司网站突然打不开，客服电话被打爆，一查发现是网络延迟飙升，可等技术人员赶到，问题又莫名其妙恢复了。这种“幽灵故障”最让人头疼，因为它来得快去得也快，根本没法复现。

真实的网络环境从来不是实验室里那种稳定如初的状态。用户可能用着4G信号不稳的手机，办公室Wi-Fi被隔壁装修的电钻干扰，跨国访问时碰上跨境链路抖动……这些都不是“异常”，而是日常。

这时候，光靠被动等故障发生再去修，早就晚了。聪明的做法是提前“自己动手，制造麻烦”。这就是网络故障模拟测试工具的核心逻辑——在上线前，先把自己的服务“整崩溃”一遍。

比如你想知道APP在地铁隧道里卡顿三秒会怎样，就可以用工具人为把请求延迟设成3000毫秒；或者模拟某个云服务商突然断连，看看你的系统能不能自动切换到备用线路。

常见的可模拟场景包括：

某电商平台做大促压测，除了常规的高并发测试，还用故障模拟工具切断了支付回调接口。结果发现，订单状态长时间卡在“支付中”，用户反复点击，导致重复创建订单。这个隐患在正常测试中根本暴露不出来，但现实中一旦支付网关抖动，就会引发大面积客诉。

修复后再次测试，系统在检测到回调失败时，能主动查询支付结果并更新订单状态，用户体验平稳过渡。

很多团队以为要买昂贵设备，其实不少开源工具就能跑在开发机上。比如tc（Traffic Control）就是Linux内核自带的流量控制工具，配合脚本就能实现复杂场景。

下面是一个简单的命令示例，给本地回环接口添加200ms延迟和10%丢包：

sudo tc qdisc add dev lo root netem delay 200ms loss 10%

测试完记得清除规则：

sudo tc qdisc del dev lo root

再比如桌面级工具Clumsy，Windows上点几下就能让当前网络变慢、丢包，适合前端和测试同学快速验证。

真正的稳定性不是不出问题，而是出问题时别让用户感知到。故障模拟测试就像系统的“压力体检”，定期做一做，才能在真实风浪来临时站得住。现在花十分钟配个测试场景，可能就避免了明年双十一的一场危机。

网络故障模拟测试工具：让系统在“出问题”前变得更稳