Networking / DNS / TLS: hardening & best practices cho OOMKilled (checklist + ví dụ)
Nếu bạn làm DevOps/SRE, kiểu gì cũng gặp những tình huống đau đầu giống nhau: lỗi chỉ xuất hiện ở production, alert kêu cả đêm, hoặc pipeline lúc xanh lúc đỏ. Bài này chia sẻ kinh nghiệm thực chiến...

Source: DEV Community
Nếu bạn làm DevOps/SRE, kiểu gì cũng gặp những tình huống đau đầu giống nhau: lỗi chỉ xuất hiện ở production, alert kêu cả đêm, hoặc pipeline lúc xanh lúc đỏ. Bài này chia sẻ kinh nghiệm thực chiến cho chủ đề OOMKilled trong bối cảnh Networking / DNS / TLS — theo format: triệu chứng → nguyên nhân gốc → cách xử lý → checklist. Tình huống hôm nay (case thực tế) Trong hệ thống Networking / DNS / TLS, bạn gặp vấn đề OOMKilled ở production. Điều khó chịu là nó không xảy ra ổn định: có ngày bình thường, có ngày lại bùng lên đúng giờ cao điểm. Vấn đề nhiều người gặp Triệu chứng “khó chịu”: lúc có lúc không. Khó tái hiện (reproduce) ở local/staging. Debug tốn thời gian vì thiếu dữ liệu (logs/metrics/traces). Nguyên nhân gốc (root causes) thường gặp Môi trường và cấu hình lệch nhau giữa các nơi chạy. Thiếu kiểm soát dữ liệu/traffic (spike, burst, batch job, retry storm). Giới hạn tài nguyên / timeout / quota đặt chưa sát thực tế. Thiếu observability khiến bạn đoán mò. Cách giải quyết (thực chiế