Por qué el Monitoreo Importa para QA

El testing no termina cuando el código llega a producción. El monitoreo es la continuación del aseguramiento de calidad en el entorno en vivo. Ninguna suite de tests captura cada bug, y algunos problemas solo aparecen bajo patrones de tráfico real.

Para ingenieros QA, el monitoreo proporciona:

  • Validación post-despliegue: Confirmar que los nuevos releases funcionan en producción
  • Detección de bugs: Capturar problemas que el testing no encontró
  • Análisis de causa raíz: Correlacionar fallos de tests con comportamiento del sistema
  • Validación no funcional: Verificar que performance y disponibilidad cumplen requisitos

Los Tres Pilares de la Observabilidad

Logs

Eventos discretos que describen qué ocurrió en un punto específico del tiempo. QA usa logs para investigar tests fallidos, encontrar patrones de error después de despliegues y depurar problemas intermitentes.

Métricas

Mediciones agregadas en el tiempo. Tipos: Counter (total de eventos), Gauge (valor actual), Histogram (distribución de valores).

Métricas clave para QA:

MétricaQué Te Dice
Tasa de errorPorcentaje de solicitudes fallidas
Tiempo de respuesta (P50/P95/P99)Qué tan rápido responde la aplicación
Throughput (RPS)Solicitudes por segundo manejadas
SaturaciónUtilización de recursos
DisponibilidadPorcentaje de uptime

Traces

Siguen una solicitud individual mientras viaja a través de múltiples servicios. Esencial para arquitecturas de microservicios.

SLIs, SLOs y SLAs

TérminoDefiniciónEjemplo
SLIMedición de calidad del servicio99.95% de solicitudes exitosas
SLOObjetivo para un SLI“Apuntamos a 99.9% de tasa de éxito”
SLAObligación contractual“Garantizamos 99.5% de uptime”

Configuración de Alertas

  1. Alerta en síntomas, no causas. Alerta en “tasa de error > 1%” en lugar de “CPU > 80%.”
  2. Establece umbrales significativos. Muy sensible = fatiga de alertas.
  3. Incluye contexto accionable. Cada alerta debe decir qué está pasando y qué hacer.

Ejercicio: Diseña un Dashboard de Monitoreo para QA

Crea una especificación de dashboard para monitorear una aplicación web post-despliegue.

Solución

Dashboard de Monitoreo QA

Fila 1: Salud General

  • Disponibilidad (gauge): Uptime actual. Alerta < 99.9%
  • Tasa de error (serie temporal): Errores 5xx. Alerta > 1%
  • Usuarios activos (gauge): Usuarios conectados

Fila 2: Performance

  • Tiempo respuesta P50/P95/P99. Alerta P95 > 500ms
  • Throughput: Solicitudes por segundo
  • Endpoints lentos: Top 10

Fila 3: Métricas de Negocio

  • Tasa de conversión. Alerta > 10% caída
  • Tasa éxito de pagos. Alerta < 99%
  • Abandono de carrito. Alerta > 20% aumento

Fila 4: Infraestructura

  • CPU/Memoria por servicio. Alerta > 80%
  • Reinicios de pods. Alerta > 0 en 15 minutos
  • Conexiones de BD. Alerta > 80% del pool

Herramientas de Monitoreo

HerramientaTipoMejor Para
PrometheusMétricasColección de datos time-series y alertas
GrafanaVisualizaciónDashboards para cualquier fuente de datos
ELK StackLogsAgregación, búsqueda y análisis de logs
DatadogTodo-en-unoMétricas, logs, traces, APM (SaaS)

Conclusiones Clave

  1. El monitoreo extiende QA a producción
  2. Usa los tres pilares — logs para detalle, métricas para tendencias, traces para flujo
  3. Define SLOs antes de monitorear
  4. Alerta en síntomas, no causas
  5. Construye dashboards específicos para QA