Panorama del Pipeline ML
Los sistemas ML son fundamentalmente diferentes del software tradicional. En lugar de reglas programadas explícitas, los modelos ML aprenden patrones de datos, creando desafíos de testing únicos.
graph LR
A[Recolección de Datos] --> B[Procesamiento]
B --> C[Ingeniería de Features]
C --> D[Entrenamiento]
D --> E[Evaluación]
E --> F[Deployment]
F --> G[Monitoreo]
G -->|Data Drift| A
Testing de Calidad de Datos
| Test | Qué Verificar |
|---|---|
| Completitud | Valores faltantes, tasas de nulos por feature |
| Consistencia | Misma entidad tiene misma representación |
| Frescura | Datos suficientemente recientes |
| Distribución | Distribuciones coinciden con rangos esperados |
| Duplicados | Sin registros duplicados no intencionales |
| Etiquetas | Labels de entrenamiento precisos y consistentes |
Testing de Ingeniería de Features
- Valores dentro de rangos esperados
- Computación determinista
- Sin data leakage
- Feature importance alineado con conocimiento del dominio
Evaluación del Modelo
Métricas Estándar
| Métrica | Caso de Uso | Fórmula |
|---|---|---|
| Accuracy | Clases balanceadas | (TP + TN) / Total |
| Precision | Falsos positivos costosos | TP / (TP + FP) |
| Recall | Falsos negativos costosos | TP / (TP + FN) |
| F1 Score | Balance precision-recall | 2 * P * R / (P + R) |
Más Allá del Accuracy
- Evaluación por segmentos: Rendimiento por subgrupos de datos
- Edge cases: Inputs adversariales, datos fuera de distribución
- Testing de regresión: Nueva versión no peor que la anterior
- Robustez: Pequeñas perturbaciones no deben cambiar outputs drásticamente
Testing de Sesgo y Equidad
- Paridad demográfica: Tasas de predicción positiva similares entre grupos
- Igualdad de oportunidad: Tasas de verdaderos positivos similares
- Calibración: Probabilidades predichas precisas para todos los grupos
- Impacto dispar: Tasas de decisión adversa no desproporcionadas
Testing Avanzado de ML
Monitoreo de Data Drift
- Feature drift: Distribuciones de features cambian
- Concept drift: La relación features-target cambia
- Tests estadísticos (Kolmogorov-Smirnov, PSI)
- Alertas automatizadas y pipelines de reentrenamiento
Testing de Serving
- Latencia de inferencia (P50, P95, P99) bajo carga
- Throughput (predicciones por segundo)
- Versionamiento y rollout gradual
- A/B testing entre versiones
- Fallback a modelo anterior
Seguridad ML
- Ataques adversariales
- Extracción de modelo
- Envenenamiento de datos
- Privacidad y membership inference
Ejercicio Práctico
Diseña un plan de testing para un modelo ML de scoring crediticio:
- Calidad de datos: Verificar completitud, buscar sesgo histórico
- Accuracy: Evaluar precision, recall y AUC en conjunto de test
- Sesgo: Verificar resultados justos por edad, género y código postal
- Robustez: Edge cases (ingreso cero, límite de crédito extremo)
- Monitoreo: Definir métricas de drift y triggers de reentrenamiento
Guía de Solución
Tests de sesgo:
- Tasas de aprobación por género: diferencia < 5%
- Tasas de aprobación por grupo de edad: ningún grupo con > 2x tasa de rechazo
- Verificar que explicaciones del modelo (SHAP) no dependan de atributos protegidos
Tests de robustez:
- Ingreso = $0: manejo correcto, sin crash
- Utilización de crédito = 100%: score razonable (probablemente bajo)
Tips Profesionales
- Testea datos antes de testear modelos — la mayoría de bugs ML son bugs de datos
- Monitorea rendimiento en producción continuamente — el accuracy degrada silenciosamente
- Siempre testea sesgo con datos demográficos reales — datos sintéticos pueden no revelar sesgos
- Versiona todo — datos, features, modelos y configuraciones deben ser trazables
- Compara nuevos modelos contra baselines — un modelo más simple puede ser preferible
Conclusiones Clave
- El testing ML requiere testear todo el pipeline: datos, features, modelo, serving y monitoreo
- Accuracy sola es insuficiente — equidad, robustez e interpretabilidad importan igualmente
- Data drift es el asesino silencioso de modelos ML — monitoreo continuo es esencial
- El testing de sesgo ML no es opcional — tiene implicaciones legales, éticas y de negocio