Panorama del Pipeline ML

Los sistemas ML son fundamentalmente diferentes del software tradicional. En lugar de reglas programadas explícitas, los modelos ML aprenden patrones de datos, creando desafíos de testing únicos.

graph LR A[Recolección de Datos] --> B[Procesamiento] B --> C[Ingeniería de Features] C --> D[Entrenamiento] D --> E[Evaluación] E --> F[Deployment] F --> G[Monitoreo] G -->|Data Drift| A

Testing de Calidad de Datos

TestQué Verificar
CompletitudValores faltantes, tasas de nulos por feature
ConsistenciaMisma entidad tiene misma representación
FrescuraDatos suficientemente recientes
DistribuciónDistribuciones coinciden con rangos esperados
DuplicadosSin registros duplicados no intencionales
EtiquetasLabels de entrenamiento precisos y consistentes

Testing de Ingeniería de Features

  • Valores dentro de rangos esperados
  • Computación determinista
  • Sin data leakage
  • Feature importance alineado con conocimiento del dominio

Evaluación del Modelo

Métricas Estándar

MétricaCaso de UsoFórmula
AccuracyClases balanceadas(TP + TN) / Total
PrecisionFalsos positivos costososTP / (TP + FP)
RecallFalsos negativos costososTP / (TP + FN)
F1 ScoreBalance precision-recall2 * P * R / (P + R)

Más Allá del Accuracy

  • Evaluación por segmentos: Rendimiento por subgrupos de datos
  • Edge cases: Inputs adversariales, datos fuera de distribución
  • Testing de regresión: Nueva versión no peor que la anterior
  • Robustez: Pequeñas perturbaciones no deben cambiar outputs drásticamente

Testing de Sesgo y Equidad

  • Paridad demográfica: Tasas de predicción positiva similares entre grupos
  • Igualdad de oportunidad: Tasas de verdaderos positivos similares
  • Calibración: Probabilidades predichas precisas para todos los grupos
  • Impacto dispar: Tasas de decisión adversa no desproporcionadas

Testing Avanzado de ML

Monitoreo de Data Drift

  • Feature drift: Distribuciones de features cambian
  • Concept drift: La relación features-target cambia
  • Tests estadísticos (Kolmogorov-Smirnov, PSI)
  • Alertas automatizadas y pipelines de reentrenamiento

Testing de Serving

  • Latencia de inferencia (P50, P95, P99) bajo carga
  • Throughput (predicciones por segundo)
  • Versionamiento y rollout gradual
  • A/B testing entre versiones
  • Fallback a modelo anterior

Seguridad ML

  • Ataques adversariales
  • Extracción de modelo
  • Envenenamiento de datos
  • Privacidad y membership inference

Ejercicio Práctico

Diseña un plan de testing para un modelo ML de scoring crediticio:

  1. Calidad de datos: Verificar completitud, buscar sesgo histórico
  2. Accuracy: Evaluar precision, recall y AUC en conjunto de test
  3. Sesgo: Verificar resultados justos por edad, género y código postal
  4. Robustez: Edge cases (ingreso cero, límite de crédito extremo)
  5. Monitoreo: Definir métricas de drift y triggers de reentrenamiento
Guía de Solución

Tests de sesgo:

  • Tasas de aprobación por género: diferencia < 5%
  • Tasas de aprobación por grupo de edad: ningún grupo con > 2x tasa de rechazo
  • Verificar que explicaciones del modelo (SHAP) no dependan de atributos protegidos

Tests de robustez:

  • Ingreso = $0: manejo correcto, sin crash
  • Utilización de crédito = 100%: score razonable (probablemente bajo)

Tips Profesionales

  1. Testea datos antes de testear modelos — la mayoría de bugs ML son bugs de datos
  2. Monitorea rendimiento en producción continuamente — el accuracy degrada silenciosamente
  3. Siempre testea sesgo con datos demográficos reales — datos sintéticos pueden no revelar sesgos
  4. Versiona todo — datos, features, modelos y configuraciones deben ser trazables
  5. Compara nuevos modelos contra baselines — un modelo más simple puede ser preferible

Conclusiones Clave

  1. El testing ML requiere testear todo el pipeline: datos, features, modelo, serving y monitoreo
  2. Accuracy sola es insuficiente — equidad, robustez e interpretabilidad importan igualmente
  3. Data drift es el asesino silencioso de modelos ML — monitoreo continuo es esencial
  4. El testing de sesgo ML no es opcional — tiene implicaciones legales, éticas y de negocio