Por qué el Monitoreo Importa para QA
El testing no termina cuando el código llega a producción. El monitoreo es la continuación del aseguramiento de calidad en el entorno en vivo. Ninguna suite de tests captura cada bug, y algunos problemas solo aparecen bajo patrones de tráfico real.
Para ingenieros QA, el monitoreo proporciona:
- Validación post-despliegue: Confirmar que los nuevos releases funcionan en producción
- Detección de bugs: Capturar problemas que el testing no encontró
- Análisis de causa raíz: Correlacionar fallos de tests con comportamiento del sistema
- Validación no funcional: Verificar que performance y disponibilidad cumplen requisitos
Los Tres Pilares de la Observabilidad
Logs
Eventos discretos que describen qué ocurrió en un punto específico del tiempo. QA usa logs para investigar tests fallidos, encontrar patrones de error después de despliegues y depurar problemas intermitentes.
Métricas
Mediciones agregadas en el tiempo. Tipos: Counter (total de eventos), Gauge (valor actual), Histogram (distribución de valores).
Métricas clave para QA:
| Métrica | Qué Te Dice |
|---|---|
| Tasa de error | Porcentaje de solicitudes fallidas |
| Tiempo de respuesta (P50/P95/P99) | Qué tan rápido responde la aplicación |
| Throughput (RPS) | Solicitudes por segundo manejadas |
| Saturación | Utilización de recursos |
| Disponibilidad | Porcentaje de uptime |
Traces
Siguen una solicitud individual mientras viaja a través de múltiples servicios. Esencial para arquitecturas de microservicios.
SLIs, SLOs y SLAs
| Término | Definición | Ejemplo |
|---|---|---|
| SLI | Medición de calidad del servicio | 99.95% de solicitudes exitosas |
| SLO | Objetivo para un SLI | “Apuntamos a 99.9% de tasa de éxito” |
| SLA | Obligación contractual | “Garantizamos 99.5% de uptime” |
Configuración de Alertas
- Alerta en síntomas, no causas. Alerta en “tasa de error > 1%” en lugar de “CPU > 80%.”
- Establece umbrales significativos. Muy sensible = fatiga de alertas.
- Incluye contexto accionable. Cada alerta debe decir qué está pasando y qué hacer.
Ejercicio: Diseña un Dashboard de Monitoreo para QA
Crea una especificación de dashboard para monitorear una aplicación web post-despliegue.
Solución
Dashboard de Monitoreo QA
Fila 1: Salud General
- Disponibilidad (gauge): Uptime actual. Alerta < 99.9%
- Tasa de error (serie temporal): Errores 5xx. Alerta > 1%
- Usuarios activos (gauge): Usuarios conectados
Fila 2: Performance
- Tiempo respuesta P50/P95/P99. Alerta P95 > 500ms
- Throughput: Solicitudes por segundo
- Endpoints lentos: Top 10
Fila 3: Métricas de Negocio
- Tasa de conversión. Alerta > 10% caída
- Tasa éxito de pagos. Alerta < 99%
- Abandono de carrito. Alerta > 20% aumento
Fila 4: Infraestructura
- CPU/Memoria por servicio. Alerta > 80%
- Reinicios de pods. Alerta > 0 en 15 minutos
- Conexiones de BD. Alerta > 80% del pool
Herramientas de Monitoreo
| Herramienta | Tipo | Mejor Para |
|---|---|---|
| Prometheus | Métricas | Colección de datos time-series y alertas |
| Grafana | Visualización | Dashboards para cualquier fuente de datos |
| ELK Stack | Logs | Agregación, búsqueda y análisis de logs |
| Datadog | Todo-en-uno | Métricas, logs, traces, APM (SaaS) |
Conclusiones Clave
- El monitoreo extiende QA a producción
- Usa los tres pilares — logs para detalle, métricas para tendencias, traces para flujo
- Define SLOs antes de monitorear
- Alerta en síntomas, no causas
- Construye dashboards específicos para QA