El Imperativo del Testing de Equidad
Los modelos de machine learning toman decisiones que afectan las vidas de las personas—aprobaciones de préstamos, recomendaciones de contratación, diagnósticos médicos, sentencias criminales. Cuando estos modelos codifican sesgos de datos de entrenamiento o decisiones de diseño, pueden perpetuar discriminación a escala.
La detección de sesgos no es solo un imperativo ético—es una necesidad legal y empresarial. Regulaciones como el EU AI (como se discute en AI-Assisted Bug Triaging: Intelligent Defect Prioritization at Scale) Act y legislación propuesta en EEUU exigen evaluaciones de equidad.
Tipos de Sesgo en ML
1. Sesgo en Datos
Sesgo Histórico: Los datos de entrenamiento reflejan desigualdades societal existentes.
# Ejemplo: Datos históricos de contratación muestran desequilibrio de género
training_data = pd.read_csv('contrataciones_historicas.csv')
print(training_data['genero'] (como se discute en [AI Code Smell Detection: Finding Problems in Test Automation with ML](/blog/ai-code-smell-detection)).value_counts())
# Masculino: 8500 (85%)
# Femenino: 1500 (15%)
Sesgo de Representación: Algunos grupos están subrepresentados.
# Ejemplo: Dataset de reconocimiento facial
distribucion_dataset = {
'Blanco': 0.70,
'Asiático': 0.15,
'Negro': 0.10,
'Hispano': 0.05
}
Métricas de Equidad
1. Paridad Demográfica
def paridad_demografica(y_pred, atributo_sensible):
"""
Calcular diferencia de paridad demográfica
Idealmente debería estar cerca de 0
"""
grupos = np.unique(atributo_sensible)
tasas_positivas = []
for grupo in grupos:
mascara_grupo = atributo_sensible == grupo
tasa_positiva = y_pred[mascara_grupo].mean()
tasas_positivas.append(tasa_positiva)
diferencia_pd = max(tasas_positivas) - min(tasas_positivas)
return {
'diferencia_paridad_demografica': diferencia_pd,
'tasas_positivas_grupo': dict(zip(grupos, tasas_positivas)),
'es_justo': diferencia_pd < 0.1
}
equidad = paridad_demografica(y_pred, X_test['genero'])
print(f"Diferencia paridad demográfica: {equidad['diferencia_paridad_demografica']:.3f}")
2. Probabilidades Equalizadas
from sklearn.metrics import confusion_matrix
def probabilidades_equalizadas(y_true, y_pred, atributo_sensible):
"""Calcular diferencias TPR y FPR entre grupos"""
grupos = np.unique(atributo_sensible)
lista_tpr, lista_fpr = [], []
for grupo in grupos:
mascara_grupo = atributo_sensible == grupo
tn, fp, fn, tp = confusion_matrix(
y_true[mascara_grupo],
y_pred[mascara_grupo]
).ravel()
tpr = tp / (tp + fn) if (tp + fn) > 0 else 0
fpr = fp / (fp + tn) if (fp + tn) > 0 else 0
lista_tpr.append(tpr)
lista_fpr.append(fpr)
diferencia_tpr = max(lista_tpr) - min(lista_tpr)
diferencia_fpr = max(lista_fpr) - min(lista_fpr)
return {
'diferencia_tpr': diferencia_tpr,
'diferencia_fpr': diferencia_fpr,
'es_justo': diferencia_tpr < 0.1 and diferencia_fpr < 0.1
}
Herramientas de Detección de Sesgos
1. AI Fairness 360 (AIF360)
from aif360.datasets import BinaryLabelDataset
from aif360 (como se discute en [AI-powered Test Generation: The Future Is Already Here](/blog/ai-powered-test-generation)).metrics import BinaryLabelDatasetMetric
dataset = BinaryLabelDataset(
df=datos,
label_names=['contratado'],
protected_attribute_names=['genero']
)
metrica = BinaryLabelDatasetMetric(
dataset,
privileged_groups=[{'genero': 1}],
unprivileged_groups=[{'genero': 0}]
)
print(f"Impacto dispar: {metrica.disparate_impact():.3f}")
# < 0.8 indica sesgo
2. Fairlearn
from fairlearn.metrics import MetricFrame, selection_rate
marco_metricas = MetricFrame(
metrics={
'precision': accuracy_score,
'tasa_seleccion': selection_rate
},
y_true=y_test,
y_pred=y_pred,
sensitive_features=X_test['genero']
)
print(marco_metricas.by_group)
Estrategias de Mitigación de Sesgos
1. Pre-procesamiento: Balanceo de Dataset
from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state=42)
X_remuestreado, y_remuestreado = smote.fit_resample(X_train, y_train)
2. In-procesamiento: Restricciones de Equidad
from fairlearn.reductions import GridSearch, EqualizedOdds
busqueda = GridSearch(
estimator=LogisticRegression(),
constraints=EqualizedOdds(),
grid_size=20
)
busqueda.fit(X_train, y_train, sensitive_features=X_train['genero'])
3. Post-procesamiento: Optimización de Umbrales
from fairlearn.postprocessing import ThresholdOptimizer
postprocesador = ThresholdOptimizer(
estimator=modelo_entrenado,
constraints='equalized_odds',
objective='accuracy_score'
)
postprocesador.fit(X_train, y_train, sensitive_features=X_train['genero'])
y_pred_justo = postprocesador.predict(X_test, sensitive_features=X_test['genero'])
Suite de Testing de Equidad
class SuiteTestEquidad:
def __init__(self, modelo, atributos_sensibles):
self.modelo = modelo
self.attrs_sensibles = atributos_sensibles
def ejecutar_todos_tests(self, X_test, y_test):
resultados = {}
for attr in self.attrs_sensibles:
y_pred = self.modelo.predict(X_test)
resultados[attr] = {
'paridad_demografica': paridad_demografica(y_pred, X_test[attr]),
'probabilidades_equalizadas': probabilidades_equalizadas(y_test, y_pred, X_test[attr])
}
return self.generar_reporte(resultados)
suite_equidad = SuiteTestEquidad(
modelo=mi_modelo,
atributos_sensibles=['genero', 'raza', 'grupo_edad']
)
reporte = suite_equidad.ejecutar_todos_tests(X_test, y_test)
Casos de Estudio del Mundo Real
Caso 1: COMPAS Reincidencia
Investigación de ProPublica reveló sesgo racial en COMPAS:
- Hallazgo: Acusados negros etiquetados alto riesgo a 2x tasa de acusados blancos
- Causa raíz: Datos históricos de arrestos reflejaban sesgo policial
- Métrica violada: Paridad de tasa de falsos positivos
Caso 2: Herramienta de Contratación de Amazon
Amazon descartó herramienta ML de reclutamiento que mostró sesgo de género:
- Hallazgo: Penalizaba currículums conteniendo “mujeres” (ej: “club de ajedrez de mujeres”)
- Causa raíz: Entrenado en 10 años de aplicaciones dominadas por hombres
- Resultado: Sistema descontinuado
Mejores Prácticas
Práctica | Descripción |
---|---|
Testear Temprano | Evaluar equidad en fase de exploración de datos |
Múltiples Métricas | Ninguna métrica única captura todas las nociones de equidad |
Interseccionalidad | Testear combinaciones (ej: mujeres negras) |
Input de Stakeholders | Involucrar comunidades afectadas en definir equidad |
Documentar Trade-offs | Reconocer tensiones precisión-equidad |
Monitoreo Continuo | El sesgo puede derivar al cambiar distribuciones de datos |
Conclusión
La detección de sesgos no es un ejercicio de checkbox sino un compromiso continuo con IA ética. A medida que los sistemas ML escalan, también lo hace su potencial de daño. Testing riguroso de equidad, múltiples métricas complementarias, compromiso de stakeholders y decisiones transparentes de trade-offs son esenciales.
El futuro del testing ML debe balancear rendimiento técnico con impacto societal—construyendo sistemas que no solo sean precisos, sino justos.