Testing de Edge AI: Validando IA en Dispositivos con Recursos Limitados

El Desafío del Edge AI

El Edge AI despliega modelos de machine learning directamente en dispositivos—smartphones, sensores IoT, vehículos autónomos, cámaras inteligentes. A diferencia del AI (como se discute en AI-Assisted Bug Triaging: Intelligent Defect Prioritization at Scale) en la nube, los modelos edge enfrentan restricciones severas: CPU/GPU limitada, memoria mínima, energía de batería y requisitos de latencia en tiempo real.

Testear edge AI (como se discute en AI Code Smell Detection: Finding Problems in Test Automation with ML) requiere validar no solo precisión, sino rendimiento bajo restricciones de recursos, robustez entre variaciones de dispositivos y degradación elegante cuando los recursos son escasos.

Áreas de Testing Core

1. Testing de Optimización de Modelos

import tensorflow as tf
import numpy as np

class TestadorOptimizacionModelo:
    def __init__(self, modelo_original, datos_test):
        self.modelo_original = modelo_original
        self.datos_test = datos_test

    def testear_cuantizacion(self):
        """Testear impacto de cuantización INT8"""
        # Convertir a TFLite con cuantización
        convertidor = tf.lite.TFLiteConverter.from_keras_model(self.modelo_original)
        convertidor.optimizations = [tf.lite.Optimize.DEFAULT]

        def dataset_representativo():
            for datos in self.datos_test.take(100):
                yield [tf.dtypes.cast(datos, tf.float32)]

        convertidor.representative_dataset = dataset_representativo
        convertidor.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS_INT8]

        modelo_cuantizado = convertidor.convert()

        # Evaluar precisión
        interprete = tf.lite.Interpreter(model_content=modelo_cuantizado)
        interprete.allocate_tensors()

        detalles_entrada = interprete.get_input_details()
 (como se discute en [AI Copilot for Test Automation: GitHub Copilot, Amazon CodeWhisperer and the Future of QA](/blog/ai-copilot-testing))        detalles_salida = interprete.get_output_details()

        correctos = 0
        total = 0

        for imagenes, etiquetas in self.datos_test:
            escala, punto_cero = detalles_entrada[0]['quantization']
            entrada_cuantizada = (imagenes / escala + punto_cero).astype(np.int8)

            interprete.set_tensor(detalles_entrada[0]['index'], entrada_cuantizada)
            interprete.invoke()

            salida = interprete.get_tensor(detalles_salida[0]['index'])

            escala, punto_cero = detalles_salida[0]['quantization']
            salida_descuantizada = (salida.astype(np.float32) - punto_cero) * escala

            predicciones = np.argmax(salida_descuantizada, axis=1)
            correctos += np.sum(predicciones == etiquetas.numpy())
            total += len(etiquetas)

        precision_cuantizada = correctos / total
        _, precision_original = self.modelo_original.evaluate(self.datos_test)

        return {
            'precision_original': precision_original,
            'precision_cuantizada': precision_cuantizada,
            'caida_precision': precision_original - precision_cuantizada,
            'aceptable': (precision_original - precision_cuantizada) < 0.02
        }

2. Testing de Rendimiento en Dispositivo

import time
import psutil

class TestadorRendimientoEnDispositivo:
    def __init__(self, ruta_modelo):
        self.interprete = tf.lite.Interpreter(model_path=ruta_modelo)
        self.interprete.allocate_tensors()

    def benchmark_inferencia(self, entradas_test, num_ejecuciones=100):
        """Benchmark de inferencia en dispositivo"""
        detalles_entrada = self.interprete.get_input_details()

        # Calentamiento
        for _ in range(10):
            self.interprete.set_tensor(detalles_entrada[0]['index'], entradas_test[0])
            self.interprete.invoke()

        # Benchmark
        latencias = []

        for i in range(num_ejecuciones):
            inicio = time.perf_counter()
            self.interprete.set_tensor(detalles_entrada[0]['index'], entradas_test[i % len(entradas_test)])
            self.interprete.invoke()
            fin = time.perf_counter()

            latencia_ms = (fin - inicio) * 1000
            latencias.append(latencia_ms)

        return {
            'latencia_ms': {
                'media': np.mean(latencias),
                'p50': np.percentile(latencias, 50),
                'p95': np.percentile(latencias, 95),
                'p99': np.percentile(latencias, 99)
            },
            'throughput_fps': 1000 / np.mean(latencias),
            'cumple_requisito_tiempo_real': np.percentile(latencias, 95) < 50
        }

3. Testing de Impacto en Batería

class TestadorImpactoBateria:
    def medir_consumo_energia(self, duracion_segundos=60):
        """Medir drenaje de batería durante inferencia"""
        import subprocess

        # Resetear estadísticas de batería
        subprocess.run(['adb', 'shell', 'dumpsys', 'batterystats', '--reset'])

        # Ejecutar modelo continuamente
        tiempo_inicio = time.time()
        conteo_inferencia = 0

        while time.time() - tiempo_inicio < duracion_segundos:
            interprete = tf.lite.Interpreter(model_path=self.ruta_modelo)
            interprete.allocate_tensors()
            interprete.invoke()
            conteo_inferencia += 1

        # Obtener estadísticas de batería
        resultado = subprocess.run(
            ['adb', 'shell', 'dumpsys', 'batterystats'],
            capture_output=True,
            text=True
        )

        return {
            'conteo_inferencia': conteo_inferencia,
            'inferencias_por_1000mah': 1000 / poder_por_inferencia_mah if poder_por_inferencia_mah > 0 else float('inf')
        }

4. Testing Cross-Dispositivo

class TestadorCrossDispositivo:
    def __init__(self, ruta_modelo):
        self.ruta_modelo = ruta_modelo
        self.dispositivos = []

    def agregar_dispositivo(self, id_dispositivo, especificaciones):
        """Registrar dispositivo para testing"""
        self.dispositivos.append({
            'id': id_dispositivo,
            'especificaciones': especificaciones,
            'resultados': None
        })

    def testear_todos_dispositivos(self, datos_test):
        """Ejecutar tests en todos los dispositivos registrados"""
        for dispositivo in self.dispositivos:
            print(f"Testeando en {dispositivo['especificaciones']['nombre']}...")

            self.desplegar_a_dispositivo(dispositivo['id'], self.ruta_modelo)

            resultados_rendimiento = self.ejecutar_benchmark_dispositivo(dispositivo['id'], datos_test)
            precision = self.ejecutar_test_precision(dispositivo['id'], datos_test)

            dispositivo['resultados'] = {
                'rendimiento': resultados_rendimiento,
                'precision': precision
            }

        return self.analizar_resultados_cross_dispositivo()

    def analizar_resultados_cross_dispositivo(self):
        """Analizar varianza de resultados entre dispositivos"""
        latencias = [d['resultados']['rendimiento']['latencia_ms']['p95'] for d in self.dispositivos]
        precisiones = [d['resultados']['precision'] for d in self.dispositivos]

        return {
            'varianza_latencia': {
                'min': min(latencias),
                'max': max(latencias),
                'consistente': (max(latencias) - min(latencias)) / min(latencias) < 0.3
            },
            'varianza_precision': {
                'min': min(precisiones),
                'max': max(precisiones),
                'consistente': (max(precisiones) - min(precisiones)) < 0.02
            }
        }

Testing Ambiental

class TestadorAmbiental:
    def testear_impacto_temperatura(self, modelo, temperaturas=[0, 25, 45, 60]):
        """Testear rendimiento del modelo a diferentes temperaturas"""
        resultados = {}

        for temp in temperaturas:
            print(f"Testeando a {temp}°C...")

            rendimiento = self.ejecutar_test_rendimiento(modelo)
            precision = self.ejecutar_test_precision(modelo)

            resultados[f'{temp}C'] = {
                'latencia_ms': rendimiento['latencia_ms']['p95'],
                'precision': precision,
                'throttled_termico': rendimiento['frecuencia_cpu'] < rendimiento['frecuencia_cpu_max'] * 0.8
            }

        return resultados

Mejores Prácticas

Práctica	Descripción
Testear en Hardware Objetivo	Siempre validar en dispositivos de despliegue reales
Validación de Cuantización	Verificar <2% caída de precisión
Requisitos Tiempo Real	Testear latencia P95/P99, no solo promedio
Impacto Batería	Medir mAh por inferencia
Offline Primero	Asegurar que modelo funciona sin conectividad
Rango Ambiental	Testear temperatura, iluminación, movimiento
Degradación Elegante	Definir comportamiento fallback

Checklist de Despliegue

✅ Pre-Despliegue

Modelo cuantizado testeado
Testeado en dispositivo spec mínimo
Impacto batería medido
Capacidad offline verificada
Mecanismo actualización OTA testeado

✅ Validación

Consistencia cross-dispositivo verificada
Rango ambiental testeado
Uso memoria dentro límites
Throttling CPU manejado elegantemente
Manejo de errores para agotamiento recursos

✅ Monitoreo

Telemetría en dispositivo implementada
Rendimiento modelo rastreado por tipo dispositivo
Monitoreo drenaje batería activo
Reportes crash configurados

Conclusión

El testing de edge AI va más allá de validación de modelos en la nube—requiriendo testing consciente de hardware, validación de restricciones de recursos, robustez ambiental y consistencia cross-dispositivo.

Empieza con validación de cuantización, benchmark en hardware objetivo, mide impacto de batería y testea entre variaciones de dispositivos. El objetivo: IA confiable que corre rápido, eficiente y offline—en cualquier lugar, en cualquier momento.