ChatGPT y LLM en Pruebas: Oportunidades y Riesgos

Introducción

La aparición de ChatGPT y otros Modelos de Lenguaje Grandes (LLM) en 2022-2023 creó una nueva ola de entusiasmo alrededor de IA en pruebas. Las promesas son tentadoras: IA genera pruebas, datos, encuentra bugs, escribe documentación. ¿Pero qué funciona realmente ahora, y qué permanece como marketing?

En este artículo, exploraremos aplicación práctica de LLMs (como se discute en Test Automation with Claude and GPT-4: Real Integration Cases and Practical Implementation) en QA: dónde realmente ayudan, cómo usarlos efectivamente, y — críticamente importante — dónde pueden causar daño. Después de un año de usar activamente GPT-4, Claude y otros modelos en procesos QA de producción, tenemos suficientes datos para un análisis honesto.

Qué son los LLMs y Por Qué Importan para QA

Large Language Models Explicados

LLM (Large Language Model) es una red neuronal entrenada en cantidades masivas de texto para predecir la siguiente palabra.

Modelos clave en 2025:

GPT-4 (OpenAI) (como se discute en AI Copilot for Test Automation: GitHub Copilot, Amazon CodeWhisperer and the Future of QA): Más potente, mejor razonamiento
Claude 3 (Anthropic): Ventana de contexto grande (200K tokens), bueno para código
Gemini Pro (Google): Multimodal, integración con Google Workspace
Llama 3 (Meta): Open-source, se puede ejecutar localmente

Por Qué LLMs = Game Changer para QA

1. Comprensión de Lenguaje Natural:

Humano: "Crea pruebas para flujo de login con validación de email"

LLM: ✓ Entiende contexto ("flujo de login")
     ✓ Sabe qué es validación de email
     ✓ Puede generar código en cualquier lenguaje

2. Generación de Código:

Escribe pruebas en Selenium (como se discute en Prompt Engineering for QA: Mastering Effective AI Queries), Cypress, Playwright
Genera datos de prueba
Crea respuestas mock

3. Análisis Consciente del Contexto:

Analiza código y sugiere casos extremos
Encuentra bugs potenciales en lógica
Genera documentación

Pero: LLMs no “piensan”, predicen estadísticamente. Importante recordar.

Generación de Datos de Prueba

Generación de Datos de Prueba Realistas

Problema: Crear datos de prueba realistas manualmente toma horas.

Solución con LLM:

# Prompt para ChatGPT
"""
Genera 50 usuarios de prueba realistas para plataforma e-commerce.
Incluye: nombre, email, edad, país, método_pago, nivel_lealtad.
Haz datos diversos (diferentes países, grupos de edad).
Salida como array JSON.
"""

# Respuesta GPT-4:
[
  {
    "name": "Maria Garcia",
    "email": "m.garcia82@gmail.com",
    "age": 34,
    "country": "Spain",
    "payment_method": "credit_card",
    "loyalty_tier": "gold"
  },
  {
    "name": "Kenji Tanaka",
    "email": "kenji.t@yahoo.co.jp",
    "age": 28,
    "country": "Japan",
    "payment_method": "paypal",
    "loyalty_tier": "silver"
  },
  // ... 48 usuarios más realistas
]

Beneficios:

Datos diversos y realistas
Considera especificidades culturales (nombres japoneses, apellidos españoles)
Generación en segundos en lugar de horas

Avanzado: Datos de prueba contextuales

# Usando LangChain para generación programática
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate

llm = ChatOpenAI(model="gpt-4", temperature=0.7)

prompt = PromptTemplate(
    input_variables=["scenario", "count"],
    template="""
    Genera {count} entradas de datos de prueba para escenario: {scenario}

    Requisitos:
    - Datos deben ser realistas y diversos
    - Incluir casos extremos (strings vacíos, caracteres especiales, valores muy largos)
    - Cubrir casos de prueba positivos y negativos
    - Salida como JSON
    """
)

# Generar datos para escenario específico
test_data = llm.predict(
    prompt.format(
        scenario="Registro de usuario con números de teléfono internacionales",
        count=30
    )
)

Resultado:

[
  {"phone": "+1-555-0123", "country": "US", "valid": true},
  {"phone": "+44 20 7946 0958", "country": "UK", "valid": true},
  {"phone": "+81-3-1234-5678", "country": "Japan", "valid": true},
  {"phone": "not-a-phone", "country": "US", "valid": false},
  {"phone": "", "country": "US", "valid": false},
  {"phone": "+1" + "5"*100, "country": "US", "valid": false},  // Caso extremo
  // ...
]

Creación de Casos de Prueba con IA

De Requisitos a Pruebas

Proceso tradicional:

Leer requisitos (30 min)
Pensar casos de prueba (1-2 horas)
Escribir pruebas (2-3 horas)

Con LLM:

Prompt:
---
Historia de Usuario:
"Como usuario, quiero restablecer mi contraseña por email para recuperar acceso si la olvido."

Criterios de Aceptación:
- Usuario ingresa dirección de email
- Sistema envía enlace de restablecimiento a email
- Enlace expira después de 24 horas
- Usuario establece nueva contraseña (mín 8 caracteres, 1 mayúscula, 1 número)
- Contraseña antigua ya no funciona

Genera casos de prueba completos cubriendo escenarios positivos, negativos y casos extremos.
---

Salida GPT-4:

Casos de Prueba:

ESCENARIOS POSITIVOS:
TC1: Flujo válido de restablecimiento de contraseña
  Pasos:
    1. Navegar a página "Olvidé Contraseña"
    2. Ingresar email registrado válido
    3. Click "Enviar Enlace de Restablecimiento"
    4. Verificar bandeja de entrada
    5. Click enlace de restablecimiento
    6. Ingresar nueva contraseña válida: "NewPass123"
    7. Confirmar contraseña
    8. Enviar
  Esperado: Restablecimiento exitoso, puede iniciar sesión con nueva contraseña

TC2: Enlace funciona dentro de ventana 24h
  Pasos: [Similar a TC1, pero verificar enlace funciona en marca 23:59]
  Esperado: Enlace aún funcional

ESCENARIOS NEGATIVOS:
TC3: Email no registrado
  Pasos: Ingresar email no en sistema
  Esperado: Mensaje genérico "Si email existe, enlace enviado" (seguridad)

TC4: Enlace expirado (>24h)
  Pasos: Usar enlace después de período 24 horas
  Esperado: Error "Enlace expirado. Solicite nuevo enlace"

TC5: Validación de contraseña débil
  Datos de prueba:
    - "pass" (muy corta)
    - "password" (sin mayúscula/número)
    - "PASSWORD" (sin minúscula/número)
    - "12345678" (sin letras)
  Esperado: Mensaje de error para cada uno

CASOS EXTREMOS:
TC6: Múltiples solicitudes de restablecimiento
  Pasos: Solicitar restablecimiento 5 veces para mismo email
  Esperado: Solo último enlace funciona, anteriores invalidados

SEGURIDAD:
TC9: Protección de fuerza bruta
  Pasos: Intentar 10 restablecimientos en 1 minuto
  Esperado: Limitación de tasa aplicada

Propuesta de valor:

10 casos de prueba completos en 30 segundos
Cubre escenarios fáciles de perder
Se puede usar como base y expandir

Revisión de Código con IA

Revisión de Código Automatizada

Caso de uso: Pull request con nuevas pruebas

# Prompt para GPT-4
"""
Revisa este código de prueba Selenium para problemas:

```python
def test_login():
    driver.get("http://app.com/login")
    driver.find_element(By.ID, "user").send_keys("admin")
    driver.find_element(By.ID, "pass").send_keys("admin123")
    driver.find_element(By.ID, "btn").click()
    time.sleep(5)
    assert "Dashboard" in driver.page_source

Enfócate en:

Fiabilidad de prueba (potencial de inestabilidad)
Violaciones de mejores prácticas
Problemas de mantenibilidad """


**Revisión GPT-4:**

```markdown
## Problemas de Revisión de Código

### 🔴 Problemas Críticos

1. **Sleep codificado (línea 5)**
   - Problema: `time.sleep(5)` causa pruebas inestables
   - Impacto: Prueba puede fallar en sistemas lentos o pasar en rápidos
   - Fix:
   ```python
   from selenium.webdriver.support.ui import WebDriverWait
   from selenium.webdriver.support import expected_conditions as EC

   WebDriverWait(driver, 10).until(
       EC.presence_of_element_located((By.ID, "dashboard"))
   )

Aserción frágil (línea 6)
- Problema: Verificar todo page_source es poco confiable
- Impacto: Puede romperse con cambios de espacios en blanco/formato
- Fix:
```
dashboard_element = driver.find_element(By.ID, "dashboard")
assert dashboard_element.is_displayed()
```

🟡 Problemas Medios

URL codificada
- Problema: URL embebida en prueba
- Fix: Usar variables de config/entorno
```
driver.get(f"{config.BASE_URL}/login")
```
Sin manejo de errores
- Falta: ¿Qué si login falla?
- Añadir: Espera explícita para mensaje éxito/error
Selectores débiles
- By.ID, "btn" - muy genérico
- Mejor: By.CSS_SELECTOR, "[data-testid='login-button']"


**Valor:**
- Encuentra problemas que humanos fácilmente pierden
- Sugiere fixes específicos
- Enseña mejores prácticas

## Riesgos y Limitaciones

### Alucinaciones

**Problema #1:** LLM "inventa" APIs no existentes

```python
# Prompt: "Genera prueba Cypress para subida de archivo"

# GPT podría generar:
cy.uploadFile('test.pdf')  // ❌ ¡Este método no existe!

# Correcto:
cy.get('input[type="file"]').selectFile('test.pdf')  // ✅

Por qué es peligroso:

Código parece plausible
QA junior podría no notarlo
Desperdicio de tiempo depurando

Mitigación:

Siempre verificar código generado
Usar IDE con autocompletado para validación
Revisión de código es obligatoria

Conocimiento Desactualizado

Problema #2: Fecha límite de conocimiento

GPT-4 entrenado con datos hasta Abr 2023. Nuevos frameworks/bibliotecas no conoce.

# Prompt: "Genera prueba Playwright"

# GPT podría usar sintaxis antigua:
await page.click('#button')  // Obsoleto

# Nueva sintaxis (2024):
await page.locator('#button').click()  // Mejor práctica actual

Mitigación:

Especificar versiones en prompt: “Genera prueba Playwright 1.40”
Verificar contra documentación actual
Usar plugins con datos actuales (si disponibles)

Riesgos de Seguridad

Problema #3: Fuga de datos sensibles

# ❌ NUNCA hacer esto:
prompt = f"""
Revisa este código:
{code_with_api_keys}  # ¡Enviando secretos a OpenAI!
"""

Mejores prácticas:

Sanitizar código antes de enviar a LLM
Usar LLM local para código sensible (Llama 3)
Redactar credenciales/secretos

# ✅ Correcto:
import re

def sanitize_code(code):
    # Eliminar API keys
    code = re.sub(r'api_key\s*=\s*["\'][^"\']+["\']', 'api_key="REDACTED"', code)
    # Eliminar contraseñas
    code = re.sub(r'password\s*=\s*["\'][^"\']+["\']', 'password="REDACTED"', code)
    return code

clean_code = sanitize_code(original_code)
# Ahora seguro enviar a LLM

Mejores Prácticas para Usar LLMs en QA

1. Prompting Efectivo

Mal prompt:

Genera pruebas para login

Buen prompt:

Genera pruebas Cypress para funcionalidad login.

Contexto:
- App: Sitio e-commerce
- Framework: Cypress 13.x
- Patrón: Page Object Model
- Autenticación: JWT tokens

Requisitos:
- Cubrir escenarios positivos y negativos
- Incluir casos extremos (caracteres especiales en contraseña, etc)
- Añadir esperas apropiadas (sin sleeps codificados)
- Usar selectores data-testid
- Añadir comentarios claros

Salida: Archivo de prueba completo con imports y fixtures

Resultado: Calidad de código significativamente mejor

2. Refinamiento Iterativo

Usuario: Genera prueba API para registro de usuario

GPT: [genera prueba básica]

Usuario: Añade validación para:
- Formato de email
- Requisitos de fuerza de contraseña (8+ caracteres, 1 mayúscula, 1 número)
- Manejo de email duplicado

GPT: [refina prueba]

Usuario: Convertir a pytest con fixtures y parametrize para múltiples datos de prueba

GPT: [versión final]

Cada iteración mejora resultado.

3. Usar LLM como Herramienta de Aprendizaje

Prompt: Explica qué hace este código de prueba, línea por línea:

[pegar prueba compleja]

Luego sugiere mejoras y explica por qué son mejores.

Valor: Aprendizaje + revisión de código en uno

4. Human-in-the-loop

Flujo de trabajo:
1. LLM genera prueba → Borrador
2. Revisor QA → Ajusta y aprueba
3. CI/CD ejecuta prueba → Valida
4. Bucle de retroalimentación → Mejora prompts

Nunca completamente automatizado — siempre revisión humana.

Casos de Uso del Mundo Real

Caso 1: Generación de Suite de Pruebas de Regresión

Compañía: E-commerce SaaS (500K LOC)

Desafío: Código legado sin pruebas, necesita 80% cobertura

Solución:

Extraer lista de todos endpoints API

Para cada endpoint → prompt GPT-4:

Genera pruebas API completas para:
POST /api/orders

[Incluir spec Swagger]

Cubrir: operaciones CRUD, validación, auth, casos extremos

Generadas 2,300 pruebas en 2 días
Revisión humana + correcciones → 1 semana
Final: 1,800 pruebas funcionando (78% auto-generadas)

ROI:

Escritura manual: ~6 meses
Con GPT-4: 2 semanas
Ahorro: ~$120K

El Futuro de LLMs en Pruebas

Tendencias 2025-2027

1. LLMs especializados en QA:

Modelos entrenados específicamente en datos QA
Mejor comprensión de patrones de prueba
Menos alucinaciones para tareas de pruebas

2. Flujos de trabajo agénticos:

# Agente IA autónomamente:
1. Analizar requisitos
2. Generar pruebas
3. Ejecutar pruebas
4. Analizar fallos
5. Arreglar pruebas inestables
6. Reportar resultados

# Humano solo aprueba/guía

3. Pruebas multimodales:

LLM + Visión por Computadora para pruebas UI
“Mira screenshot y dime qué está roto”

Conclusión

ChatGPT y LLMs son herramientas poderosas para QA, pero no una bala de plata.

Donde LLMs son genuinamente útiles:

✅ Generación de datos de prueba (90% tiempo ahorrado)

✅ Creación de casos de prueba básicos (70% más rápido)

✅ Revisión de código (encuentra 60-70% de problemas obvios)

✅ Generación de documentación (95% automatización)

✅ Aprendizaje y mejora de habilidades (mentor sin fin)

Donde LLMs NO reemplazan humanos:

❌ Pensamiento crítico (casos extremos requieren conocimiento del dominio)

❌ Estrategia de pruebas (qué probar y por qué)

❌ Investigación de bugs (análisis de causa raíz)

❌ Comprensión de contexto (especificidades del negocio)

Regla de Oro:

LLM es un QA junior súper-inteligente. Genera rápido, pero requiere supervisión. No confíes ciegamente. Siempre verifica.

Recomendaciones prácticas:

Comenzar pequeño: Usar para generación de datos de prueba
Construir biblioteca de prompts: Guardar prompts exitosos
Establecer barreras: Sanitización, proceso de revisión
Medir impacto: Rastrear tiempo ahorrado, métricas de calidad
Capacitar equipo: No todos saben cómo hacer prompts efectivamente

LLMs en pruebas — este es el futuro que ya está aquí. La pregunta no es “si usar”, sino “cómo usar efectiva y seguramente”.