一次线上接口超时,我追了四个方向,最后什么都没查出来

监控报了几十次接口超时,从调用方日志、服务方日志、MySQL 慢 SQL、JVM Full GC 四个方向逐一排查,最后落在一个没有结论的推测上

排查思路MySQLJVM接口超时

交换机故障后 2000 容器起不来:Dragonfly P2P 缓存雪崩复盘

交换机故障导致 100 多台物理机断网,containerd 环境下 Dragonfly P2P 缓存清空,2000 个容器挂了一小时的复盘

DragonflyP2P容器Kubernetes

一个监控探针炸了 24 台服务器:eBPF 是把双刃剑

CentOS 4.18 内核的 eBPF 上下文清理 bug 导致 24 台物理机内核崩溃、900 个 Pod 被重建的完整复盘

eBPF内核监控事故复盘

etcd Revision 爆炸外呼瘫痪复盘:4000 万条历史版本撑爆 8GB 存储

一个 --auto-compaction-retention 参数没配,etcd 4000 万条历史版本撑爆 8GB 存储,602 个坐席打不了电话的完整复盘

etcd分布式存储事故复盘

MySQL 主从切换引发话务服务雪崩 9 小时:共享线程池 + 默认 JVM + WMB 重试连环引爆

上游 MySQL 主从切换引发接口超时,共享线程池 + 默认 JVM + WMB 自动重试三颗雷连环引爆,话务服务雪崩 9 小时的完整复盘

MySQLJVM线程池消息队列

用 Cloudflare Pages 免费搭建个人技术博客

从零开始,使用 Astro + Cloudflare Pages 搭建一个免费、快速的个人技术博客站点

CloudflareAstro部署

Spring Boot 项目最佳实践总结

Spring Boot 项目开发中的规范、配置和最佳实践

JavaSpring Boot最佳实践