Detección de Sesgos en Modelos ML: Testing Ético de IA

El Imperativo del Testing de Equidad

Los modelos de machine learning toman decisiones que afectan las vidas de las personas—aprobaciones de préstamos, recomendaciones de contratación, diagnósticos médicos, sentencias criminales. Cuando estos modelos codifican sesgos de datos de entrenamiento o decisiones de diseño, pueden perpetuar discriminación a escala.

La detección de sesgos no es solo un imperativo ético—es una necesidad legal y empresarial. Regulaciones como el EU AI (como se discute en AI-Assisted Bug Triaging: Intelligent Defect Prioritization at Scale) Act y legislación propuesta en EEUU exigen evaluaciones de equidad.

Tipos de Sesgo en ML

1. Sesgo en Datos

Sesgo Histórico: Los datos de entrenamiento reflejan desigualdades societal existentes.

# Ejemplo: Datos históricos de contratación muestran desequilibrio de género
training_data = pd.read_csv('contrataciones_historicas.csv')
print(training_data['genero'] (como se discute en [AI Code Smell Detection: Finding Problems in Test Automation with ML](/blog/ai-code-smell-detection)).value_counts())
# Masculino: 8500 (85%)
# Femenino: 1500 (15%)

Sesgo de Representación: Algunos grupos están subrepresentados.

# Ejemplo: Dataset de reconocimiento facial
distribucion_dataset = {
    'Blanco': 0.70,
    'Asiático': 0.15,
    'Negro': 0.10,
    'Hispano': 0.05
}

Métricas de Equidad

1. Paridad Demográfica

def paridad_demografica(y_pred, atributo_sensible):
    """
    Calcular diferencia de paridad demográfica
    Idealmente debería estar cerca de 0
    """
    grupos = np.unique(atributo_sensible)
    tasas_positivas = []

    for grupo in grupos:
        mascara_grupo = atributo_sensible == grupo
        tasa_positiva = y_pred[mascara_grupo].mean()
        tasas_positivas.append(tasa_positiva)

    diferencia_pd = max(tasas_positivas) - min(tasas_positivas)

    return {
        'diferencia_paridad_demografica': diferencia_pd,
        'tasas_positivas_grupo': dict(zip(grupos, tasas_positivas)),
        'es_justo': diferencia_pd < 0.1
    }

equidad = paridad_demografica(y_pred, X_test['genero'])
print(f"Diferencia paridad demográfica: {equidad['diferencia_paridad_demografica']:.3f}")

2. Probabilidades Equalizadas

from sklearn.metrics import confusion_matrix

def probabilidades_equalizadas(y_true, y_pred, atributo_sensible):
    """Calcular diferencias TPR y FPR entre grupos"""
    grupos = np.unique(atributo_sensible)
    lista_tpr, lista_fpr = [], []

    for grupo in grupos:
        mascara_grupo = atributo_sensible == grupo
        tn, fp, fn, tp = confusion_matrix(
            y_true[mascara_grupo],
            y_pred[mascara_grupo]
        ).ravel()

        tpr = tp / (tp + fn) if (tp + fn) > 0 else 0
        fpr = fp / (fp + tn) if (fp + tn) > 0 else 0

        lista_tpr.append(tpr)
        lista_fpr.append(fpr)

    diferencia_tpr = max(lista_tpr) - min(lista_tpr)
    diferencia_fpr = max(lista_fpr) - min(lista_fpr)

    return {
        'diferencia_tpr': diferencia_tpr,
        'diferencia_fpr': diferencia_fpr,
        'es_justo': diferencia_tpr < 0.1 and diferencia_fpr < 0.1
    }

Herramientas de Detección de Sesgos

1. AI Fairness 360 (AIF360)

from aif360.datasets import BinaryLabelDataset
from aif360 (como se discute en [AI-powered Test Generation: The Future Is Already Here](/blog/ai-powered-test-generation)).metrics import BinaryLabelDatasetMetric

dataset = BinaryLabelDataset(
    df=datos,
    label_names=['contratado'],
    protected_attribute_names=['genero']
)

metrica = BinaryLabelDatasetMetric(
    dataset,
    privileged_groups=[{'genero': 1}],
    unprivileged_groups=[{'genero': 0}]
)

print(f"Impacto dispar: {metrica.disparate_impact():.3f}")
# < 0.8 indica sesgo

2. Fairlearn

from fairlearn.metrics import MetricFrame, selection_rate

marco_metricas = MetricFrame(
    metrics={
        'precision': accuracy_score,
        'tasa_seleccion': selection_rate
    },
    y_true=y_test,
    y_pred=y_pred,
    sensitive_features=X_test['genero']
)

print(marco_metricas.by_group)

Estrategias de Mitigación de Sesgos

1. Pre-procesamiento: Balanceo de Dataset

from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
X_remuestreado, y_remuestreado = smote.fit_resample(X_train, y_train)

2. In-procesamiento: Restricciones de Equidad

from fairlearn.reductions import GridSearch, EqualizedOdds

busqueda = GridSearch(
    estimator=LogisticRegression(),
    constraints=EqualizedOdds(),
    grid_size=20
)

busqueda.fit(X_train, y_train, sensitive_features=X_train['genero'])

3. Post-procesamiento: Optimización de Umbrales

from fairlearn.postprocessing import ThresholdOptimizer

postprocesador = ThresholdOptimizer(
    estimator=modelo_entrenado,
    constraints='equalized_odds',
    objective='accuracy_score'
)

postprocesador.fit(X_train, y_train, sensitive_features=X_train['genero'])
y_pred_justo = postprocesador.predict(X_test, sensitive_features=X_test['genero'])

Suite de Testing de Equidad

class SuiteTestEquidad:
    def __init__(self, modelo, atributos_sensibles):
        self.modelo = modelo
        self.attrs_sensibles = atributos_sensibles

    def ejecutar_todos_tests(self, X_test, y_test):
        resultados = {}

        for attr in self.attrs_sensibles:
            y_pred = self.modelo.predict(X_test)

            resultados[attr] = {
                'paridad_demografica': paridad_demografica(y_pred, X_test[attr]),
                'probabilidades_equalizadas': probabilidades_equalizadas(y_test, y_pred, X_test[attr])
            }

        return self.generar_reporte(resultados)

suite_equidad = SuiteTestEquidad(
    modelo=mi_modelo,
    atributos_sensibles=['genero', 'raza', 'grupo_edad']
)

reporte = suite_equidad.ejecutar_todos_tests(X_test, y_test)

Casos de Estudio del Mundo Real

Caso 1: COMPAS Reincidencia

Investigación de ProPublica reveló sesgo racial en COMPAS:

Hallazgo: Acusados negros etiquetados alto riesgo a 2x tasa de acusados blancos
Causa raíz: Datos históricos de arrestos reflejaban sesgo policial
Métrica violada: Paridad de tasa de falsos positivos

Caso 2: Herramienta de Contratación de Amazon

Amazon descartó herramienta ML de reclutamiento que mostró sesgo de género:

Hallazgo: Penalizaba currículums conteniendo “mujeres” (ej: “club de ajedrez de mujeres”)
Causa raíz: Entrenado en 10 años de aplicaciones dominadas por hombres
Resultado: Sistema descontinuado

Mejores Prácticas

Práctica	Descripción
Testear Temprano	Evaluar equidad en fase de exploración de datos
Múltiples Métricas	Ninguna métrica única captura todas las nociones de equidad
Interseccionalidad	Testear combinaciones (ej: mujeres negras)
Input de Stakeholders	Involucrar comunidades afectadas en definir equidad
Documentar Trade-offs	Reconocer tensiones precisión-equidad
Monitoreo Continuo	El sesgo puede derivar al cambiar distribuciones de datos

Conclusión

La detección de sesgos no es un ejercicio de checkbox sino un compromiso continuo con IA ética. A medida que los sistemas ML escalan, también lo hace su potencial de daño. Testing riguroso de equidad, múltiples métricas complementarias, compromiso de stakeholders y decisiones transparentes de trade-offs son esenciales.

El futuro del testing ML debe balancear rendimiento técnico con impacto societal—construyendo sistemas que no solo sean precisos, sino justos.