Анализ логов: ELK Stack и Grafana

Анализ логов приложений для QA с помощью ELK Stack и Grafana. Построение дашбордов, создание запросов и корреляция логов с тестовыми сбоями.

ELK Stack для QA

ELK — Elasticsearch, Logstash и Kibana — три open-source инструмента, формирующих платформу управления логами.

Компоненты

Elasticsearch: Поисковый движок, хранящий и индексирующий логи
Logstash: Пайплайн обработки данных, загружающий логи из разных источников
Kibana: Слой визуализации с веб-интерфейсом для поиска логов и дашбордов
Filebeat: Легковесный шиппер логов, установленный на серверах

Kibana для расследования логов

Поиск логов

# Ошибки в платёжном сервисе за последний час
service: "payment-service" AND level: "ERROR"

# Ошибки таймаута
message: "timeout" OR message: "timed out"

# Ошибки для конкретного пользователя
userId: "usr_12345" AND level: "ERROR"

Рабочий процесс корреляции

При падении теста:

Зафиксируйте точное время сбоя
Ищите ошибки в этом временном окне (+-5 минут)
Фильтруйте по сервису для сужения источника
Раскройте запись для деталей (stack trace, request ID)
Ищите по request ID для отслеживания между сервисами

Grafana для дашбордов метрик

Grafana отлично визуализирует time-series метрики из Prometheus, InfluxDB, Elasticsearch и других источников.

QA-дашборд

Панель 1: Тренд выполнения тестов (pass/fail во времени)
Панель 2: Процент нестабильных тестов
Панель 3: Длительность пайплайна по этапам
Панель 4: Процент успешных деплоев
Панель 5: Error rate приложения после деплоя

Аннотации

Отмечайте деплои на графиках для корреляции изменений метрик с релизами.

Практические паттерны анализа

Паттерн: Постдеплойная валидация

После каждого деплоя автоматически ищите: новые типы ошибок, изменения error rate, предупреждения о медленных запросах.

Паттерн: Причина сбоя теста

Когда E2E-тест падает с общей ошибкой, реальная причина часто на бэкенде.

Упражнение: Расследуйте продакшен-инцидент

Сценарий: После деплоя в 14:00 пользователи сообщают о медленном checkout. Error rate вырос с 0.5% до 3%.

Решение

Шаг 1: Поиск ошибок после деплоя в Kibana Результат: 247 ошибок, в основном от “order-service”

Шаг 2: Фильтрация ошибок order-service Результат: “Connection timeout to inventory-service” (180 раз)

Шаг 3: Проверка логов inventory-service Результат: “Database connection pool exhausted”

Шаг 4: Проверка метрик БД в Grafana

Пул соединений: 50/50 (исчерпан)
Медленные запросы: 35 занимают >5с

Причина: Новый деплой ввёл запрос без индекса. Под продакшен-нагрузкой исчерпывает пул соединений.

Исправление: Добавить недостающий индекс. Откатить деплой до готовности фикса.

Ключевые выводы

ELK необходим для расследования логов QA
Grafana визуализирует общую картину
Коррелируйте timestamps — сопоставляйте время сбоев с записями логов
Отмечайте деплои на дашбордах
Создавайте переиспользуемые запросы в Kibana

Анализ логов: ELK Stack и Grafana

Чему вы научитесь

ELK Stack для QA

Компоненты

Kibana для расследования логов

Поиск логов

Рабочий процесс корреляции

Grafana для дашбордов метрик

QA-дашборд

Аннотации

Практические паттерны анализа

Паттерн: Постдеплойная валидация

Паттерн: Причина сбоя теста

Упражнение: Расследуйте продакшен-инцидент

Ключевые выводы

Проверка знаний

Анализ логов: ELK Stack и Grafana

Чему вы научитесь

ELK Stack для QA #

Компоненты #

Kibana для расследования логов #

Поиск логов #

Рабочий процесс корреляции #

Grafana для дашбордов метрик #

QA-дашборд #

Аннотации #

Практические паттерны анализа #

Паттерн: Постдеплойная валидация #

Паттерн: Причина сбоя теста #

Упражнение: Расследуйте продакшен-инцидент #

Ключевые выводы #

Проверка знаний

ELK Stack для QA

Компоненты

Kibana для расследования логов

Поиск логов

Рабочий процесс корреляции

Grafana для дашбордов метрик

QA-дашборд

Аннотации

Практические паттерны анализа

Паттерн: Постдеплойная валидация

Паттерн: Причина сбоя теста

Упражнение: Расследуйте продакшен-инцидент

Ключевые выводы