Тестирование AI/ML систем: новые вызовы QA

Введение

Тестирование систем на базе искусственного интеллекта и машинного обучения — это совершенно новая территория для QA. Традиционные подходы к тестированию, основанные на детерминированных входах и предсказуемых выходах, здесь не работают. Когда результат работы системы зависит от вероятностей, а не от четких правил, как определить, что система работает корректно?

По данным Gartner, к 2025 году 75% enterprise-приложений будут использовать ML-компоненты (как обсуждается в AI-Assisted Bug Triaging: Intelligent Defect Prioritization at Scale). Это означает, что каждый QA инженер рано или поздно столкнется с задачей тестирования AI/ML (как обсуждается в AI Code Smell Detection: Finding Problems in Test Automation with ML) систем. В этой статье мы разберем фундаментальные отличия тестирования ML (как обсуждается в AI-powered Test Generation: The Future Is Already Here) от традиционного софта и практические подходы к обеспечению качества.

Почему тестирование ML отличается от обычного тестирования

Недетерминированность

Традиционное ПО:

def calculate_discount(price, code):
    if code == "SAVE20":
        return price * 0.8
    return price

# Тест: всегда предсказуемый результат
assert calculate_discount(100, "SAVE20") == 80

ML система:

def predict_customer_churn(customer_data):
    # ML модель возвращает вероятность
    prediction = model.predict(customer_data)
    return prediction  # 0.73 или 0.68 или 0.81?

# Тест: результат варьируется!
# Как тестировать вероятность?

Зависимость от данных

В ML системах данные = код. Изменение training dataset может радикально изменить поведение модели, даже если сам код не менялся.

Проблемы:

Data drift: данные в продакшн отличаются от training data
Label quality: ошибки в разметке приводят к неправильным предсказаниям
Data bias: модель воспроизводит предвзятость данных

Отсутствие явной бизнес-логики

Традиционный код содержит явные правила:

if age < 18:
    return "Access denied"

ML модель — это black box:

# Где логика? В весах нейросети!
prediction = neural_network.forward(input_data)

Как тестировать то, что нельзя прочитать?

Метрики качества не бинарные

Традиционный тест: PASS ✅ или FAIL ❌
ML тест: Accuracy 94.3%, Precision 0.87, Recall 0.91, F1 0.89

Какой threshold приемлем? Это бизнес-решение, а не технический вопрос.

Data Validation: фундамент качества ML

Почему data quality критичен

Правило ML: Garbage in = Garbage out × 100

Плохие данные в традиционном софте могут привести к ошибке или краше. В ML они приводят к модели, которая систематически принимает плохие решения.

Pipeline data validation

Этапы валидации данных:

# 1. Schema validation
from great_expectations import DataContext

context = DataContext()
suite = context.create_expectation_suite("ml_data_validation")

# Проверка структуры данных
batch.expect_column_to_exist("customer_age")
batch.expect_column_values_to_be_between("customer_age", min_value=18, max_value=120)
batch.expect_column_values_to_be_in_set("country", ["US", "UK", "CA", "AU"])

# 2. Data distribution checks
batch.expect_column_mean_to_be_between("purchase_amount", min_value=50, max_value=500)
batch.expect_column_stdev_to_be_between("purchase_amount", min_value=10, max_value=200)

# 3. Referential integrity
batch.expect_column_values_to_not_be_null("user_id")
batch.expect_compound_columns_to_be_unique(["user_id", "transaction_id"])

Data drift detection

Проблема: Training data из 2023 года может не отражать реальность 2025 года.

Решение: Continuous monitoring data distribution

from evidently.dashboard import Dashboard
from evidently.tabs import DataDriftTab

# Сравниваем production данные с training dataset
dashboard = Dashboard(tabs=[DataDriftTab()])
dashboard.calculate(reference_data=train_df, current_data=production_df)

# Метрики drift:
# - Wasserstein distance для numerical features
# - Population Stability Index (PSI)
# - Jensen-Shannon divergence для categorical

Пример drift detection:

Feature Drift Report:
  customer_age:
    drift_detected: false
    drift_score: 0.03

  purchase_amount:
    drift_detected: true ⚠️
    drift_score: 0.47
    reason: "Mean shifted from $150 to $89"
    action: "Retrain model or investigate business change"

  device_type:
    drift_detected: true ⚠️
    drift_score: 0.62
    reason: "Mobile traffic increased from 40% to 78%"

Действия при обнаружении drift:

Investigate причину (бизнес-изменения vs data quality issue)
Retrain модель на новых данных
A/B test новой модели vs старой
Gradual rollout при успешном тесте

Label quality validation

Проблема: Если 10% labels неправильные, модель научится ошибкам.

Стратегии проверки:

1. Cross-validation разметки:

# Несколько аннотаторов размечают одни данные
from sklearn.metrics import cohen_kappa_score

annotator1_labels = [1, 0, 1, 1, 0, 1]
annotator2_labels = [1, 0, 1, 0, 0, 1]

# Kappa > 0.8 = хорошее согласие
kappa = cohen_kappa_score(annotator1_labels, annotator2_labels)

if kappa < 0.7:
    print("⚠️ Аннотаторы не согласны! Требуется уточнение guidelines")

2. Outlier detection в labels:

# Находим подозрительные метки
from cleanlab import find_label_issues

# Модель предсказывает вероятности для каждого класса
predicted_probs = model.predict_proba(X_train)

# Cleanlab находит likely mislabeled examples
label_issues = find_label_issues(
    labels=y_train,
    pred_probs=predicted_probs,
    return_indices_ranked_by='self_confidence'
)

print(f"Found {len(label_issues)} potentially mislabeled examples")
# Manually review топ-100 и исправить

3. Active learning для улучшения quality:

# Модель сама запрашивает разметку для uncertain examples
from modAL.uncertainty import uncertainty_sampling

learner = ActiveLearner(
    estimator=RandomForestClassifier(),
    query_strategy=uncertainty_sampling
)

# Модель выбирает 100 наиболее uncertain примеров
query_idx, query_instance = learner.query(X_unlabeled, n_instances=100)

# Человек размечает только эти 100 вместо всех данных
# Эффективность разметки повышается в 5-10 раз

Model Testing and Validation

Unit testing для ML моделей

Да, unit тесты возможны даже для ML!

Тестируем data preprocessing:

def test_feature_engineering():
    # Given
    raw_data = pd.DataFrame({
        'date': ['2025-01-01', '2025-01-02'],
        'amount': [100, 200]
    })

    # When
    features = preprocess_features(raw_data)

    # Then
    assert 'day_of_week' in features.columns
    assert 'amount_log' in features.columns
    assert features['amount_log'].iloc[0] == pytest.approx(4.605, 0.01)
    assert features['day_of_week'].iloc[0] == 2  # Wednesday

Тестируем model inference logic:

def test_model_prediction_shape():
    # Given
    model = load_model('churn_predictor_v2.pkl')
    test_input = np.random.rand(10, 20)  # 10 samples, 20 features

    # When
    predictions = model.predict(test_input)

    # Then
    assert predictions.shape == (10,)  # One prediction per sample
    assert np.all((predictions >= 0) & (predictions <= 1))  # Valid probabilities

Тестируем model behavior на edge cases:

def test_model_handles_missing_values():
    # Given
    model = load_model('recommender.pkl')
    input_with_nan = pd.DataFrame({
        'age': [25, np.nan, 30],
        'income': [50000, 60000, np.nan]
    })

    # When/Then
    # Модель не должна крашиться на NaN
    predictions = model.predict(input_with_nan)
    assert len(predictions) == 3
    assert not np.any(np.isnan(predictions))

Integration testing ML pipeline

End-to-end тест ML pipeline:

@pytest.mark.integration
def test_ml_pipeline_end_to_end():
    # 1. Load data
    raw_data = load_test_dataset('test_data.csv')

    # 2. Preprocess
    preprocessed = preprocessing_pipeline.transform(raw_data)
    assert preprocessed.shape[1] == 50  # Expected number of features

    # 3. Feature engineering
    features = feature_engineering_pipeline.transform(preprocessed)
    assert 'feature_interaction_1' in features.columns

    # 4. Model prediction
    predictions = model.predict(features)
    assert len(predictions) == len(raw_data)

    # 5. Postprocessing
    final_output = postprocess_predictions(predictions)
    assert final_output['confidence'].min() >= 0
    assert final_output['confidence'].max() <= 1

Model performance testing

Метрики для разных типов задач:

Classification:

from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score

def test_model_classification_performance():
    y_true = test_labels
    y_pred = model.predict(X_test)
    y_proba = model.predict_proba(X_test)[:, 1]

    # Accuracy должен быть выше baseline
    accuracy = (y_pred == y_true).mean()
    assert accuracy > 0.85, f"Accuracy {accuracy} below threshold"

    # AUC-ROC для оценки ranking quality
    auc = roc_auc_score(y_true, y_proba)
    assert auc > 0.90, f"AUC {auc} below threshold"

    # Проверяем precision/recall для каждого класса
    report = classification_report(y_true, y_pred, output_dict=True)

    # Класс "fraud" критичен - высокий recall обязателен
    assert report['fraud']['recall'] > 0.95, "Missing too many fraud cases!"

    # False positives дорогие - нужен хороший precision
    assert report['fraud']['precision'] > 0.80, "Too many false fraud alerts!"

Regression:

from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

def test_model_regression_performance():
    y_true = test_target
    y_pred = model.predict(X_test)

    # MAE в допустимых пределах
    mae = mean_absolute_error(y_true, y_pred)
    assert mae < 50, f"MAE {mae} too high (avg error ${mae})"

    # R² показывает объяснительную силу модели
    r2 = r2_score(y_true, y_pred)
    assert r2 > 0.85, f"R² {r2} - model explains too little variance"

    # MAPE для относительной ошибки
    mape = np.mean(np.abs((y_true - y_pred) / y_true)) * 100
    assert mape < 10, f"MAPE {mape}% - predictions off by {mape}% on average"

Invariance testing

Проблема: Модель должна быть устойчива к незначительным изменениям входа.

Примеры invariance tests:

def test_invariance_to_feature_order():
    """Перестановка колонок не должна влиять на результат"""
    original_pred = model.predict(X_test)

    # Shuffle column order
    shuffled_columns = X_test.sample(frac=1, axis=1)
    shuffled_pred = model.predict(shuffled_columns)

    np.testing.assert_array_almost_equal(original_pred, shuffled_pred)

def test_invariance_to_text_case():
    """Модель NLP не должна менять предсказания от регистра"""
    texts = ["This is SPAM!", "this is spam!", "THIS IS SPAM!"]
    predictions = [spam_classifier.predict(t) for t in texts]

    # Все три варианта должны дать одинаковый результат
    assert len(set(predictions)) == 1

def test_directional_expectation():
    """Увеличение income должно снижать вероятность churn"""
    base_customer = pd.DataFrame({
        'age': [30], 'income': [50000], 'tenure': [12]
    })

    base_churn_prob = model.predict_proba(base_customer)[0][1]

    # Увеличиваем income вдвое
    rich_customer = base_customer.copy()
    rich_customer['income'] = 100000

    rich_churn_prob = model.predict_proba(rich_customer)[0][1]

    # Вероятность churn должна уменьшиться
    assert rich_churn_prob < base_churn_prob, \
        "Higher income should reduce churn probability"

Bias Detection: этика и fairness

Почему bias — это критическая проблема

Реальные примеры bias в ML:

Amazon hiring ML (2018): Модель дискриминировала женщин, т.к. обучалась на резюме, где 90% были мужчины
COMPAS (Criminal justice): Модель предсказания рецидивизма показывала racial bias
Apple Card (2019): Алгоритм давал женщинам кредитные лимиты в 10-20 раз ниже мужчин при равном доходе

Последствия:

Юридические риски (дискриминация защищена законом)
Репутационный ущерб
Этические проблемы
Усиление социального неравенства

Types of bias

1. Data bias:

Training data не репрезентативна для всех групп
Historical bias (модель учится на дискриминации прошлого)
Sampling bias (некоторые группы underrepresented)

2. Model bias:

Feature engineering усиливает bias
Proxy features (ZIP code коррелирует с race)
Optimization metric не учитывает fairness

3. Deployment bias:

Модель используется не по назначению
Feedback loops усиливают bias

Detecting bias

Fairness metrics:

from aif360.metrics import BinaryLabelDatasetMetric, ClassificationMetric
from aif360.datasets import StandardDataset

# Подготовка данных с защищенным атрибутом
dataset = StandardDataset(
    df=data,
    label_name='approved',
    protected_attribute_names=['gender'],
    privileged_classes=[['male']],
    unprivileged_classes=[['female']]
)

# Метрика 1: Statistical Parity Difference
# Должна быть близка к 0 (равная вероятность positive outcome)
metric = BinaryLabelDatasetMetric(dataset)
spd = metric.statistical_parity_difference()

assert abs(spd) < 0.1, f"Statistical parity violation: {spd}"
# Если > 0.1: модель чаще предсказывает positive для привилегированной группы

# Метрика 2: Equal Opportunity Difference
# True positive rate должен быть одинаков для всех групп
predictions = model.predict(X_test)
metric = ClassificationMetric(
    dataset_true=test_dataset,
    dataset_pred=predictions,
    privileged_groups=[{'gender': 'male'}],
    unprivileged_groups=[{'gender': 'female'}]
)

eod = metric.equal_opportunity_difference()
assert abs(eod) < 0.1, f"Equal opportunity violation: {eod}"

# Метрика 3: Disparate Impact
# Ratio положительных исходов между группами
di = metric.disparate_impact()
assert 0.8 <= di <= 1.25, f"Disparate impact: {di} (legal threshold)"
# По 4/5 rule: ratio < 0.8 = вероятная дискриминация

Intersectional fairness:

# Проверяем fairness для пересечений групп
for gender in ['male', 'female']:
    for race in ['white', 'black', 'asian', 'hispanic']:
        for age_group in ['<30', '30-50', '>50']:
            subset = data[(data.gender == gender) &
                         (data.race == race) &
                         (data.age_group == age_group)]

            if len(subset) < 30:
                continue  # Недостаточно данных

            approval_rate = (model.predict(subset) == 1).mean()

            # Проверяем, что approval rate не отклоняется сильно от общего
            overall_rate = (model.predict(data) == 1).mean()

            if abs(approval_rate - overall_rate) > 0.15:
                print(f"⚠️ Bias detected for {gender}/{race}/{age_group}")
                print(f"   Approval rate: {approval_rate:.2%} vs overall {overall_rate:.2%}")

Mitigating bias

Подходы к уменьшению bias:

1. Pre-processing (fix data):

from aif360.algorithms.preprocessing import Reweighing

# Reweighing: назначаем веса примерам для балансировки групп
rw = Reweighing(
    unprivileged_groups=[{'gender': 'female'}],
    privileged_groups=[{'gender': 'male'}]
)

dataset_transformed = rw.fit_transform(dataset)

# Теперь обучаем модель на reweighted data
model.fit(dataset_transformed.features,
         dataset_transformed.labels,
         sample_weight=dataset_transformed.instance_weights)

2. In-processing (fair model training):

from aif360.algorithms.inprocessing import PrejudiceRemover

# Модель оптимизирует и accuracy, и fairness одновременно
fair_model = PrejudiceRemover(
    sensitive_attr='gender',
    eta=1.0  # Trade-off между accuracy и fairness
)

fair_model.fit(X_train, y_train)

3. Post-processing (adjust predictions):

from aif360.algorithms.postprocessing import EqOddsPostprocessing

# Корректируем threshold для разных групп
eop = EqOddsPostprocessing(
    unprivileged_groups=[{'gender': 'female'}],
    privileged_groups=[{'gender': 'male'}]
)

# Обучаем на validation set
eop.fit(val_dataset, predictions_val)

# Применяем к test predictions
fair_predictions = eop.predict(predictions_test)

Тестирование fairness в CI/CD:

@pytest.mark.fairness
def test_model_fairness():
    """Fail build если модель показывает bias"""

    # Load protected test set
    test_data = load_fairness_test_set()

    for protected_attr in ['gender', 'race', 'age_group']:
        # Compute fairness metrics
        metrics = compute_fairness_metrics(
            model=model,
            data=test_data,
            protected_attribute=protected_attr
        )

        # Assert fairness thresholds
        assert abs(metrics['statistical_parity']) < 0.1, \
            f"Statistical parity violation for {protected_attr}"

        assert metrics['disparate_impact'] > 0.8, \
            f"Disparate impact violation for {protected_attr}"

        assert abs(metrics['equal_opportunity']) < 0.1, \
            f"Equal opportunity violation for {protected_attr}"

A/B Testing для ML моделей

Почему нельзя просто deploy новую модель

Проблемы offline evaluation:

Test set может не отражать production distribution
Offline метрики не всегда коррелируют с business metrics
Model может иметь unexpected edge case behavior

Единственный способ узнать истинное качество = тест в production на реальных пользователях.

Designing ML A/B tests

Базовая архитектура:

class MLABTestFramework:
    def __init__(self, control_model, treatment_model):
        self.control = control_model
        self.treatment = treatment_model
        self.assignment_cache = {}

    def get_prediction(self, user_id, features):
        # Consistent assignment: один user всегда в одной группе
        if user_id not in self.assignment_cache:
            self.assignment_cache[user_id] = self._assign_variant(user_id)

        variant = self.assignment_cache[user_id]

        if variant == 'control':
            prediction = self.control.predict(features)
            self._log_prediction('control', user_id, prediction)
        else:
            prediction = self.treatment.predict(features)
            self._log_prediction('treatment', user_id, prediction)

        return prediction

    def _assign_variant(self, user_id):
        # Hash-based assignment для consistency
        hash_val = int(hashlib.md5(str(user_id).encode()).hexdigest(), 16)
        return 'treatment' if hash_val % 100 < 50 else 'control'

Metrics для ML A/B tests

Multi-level metrics:

1. Model metrics (sanity checks):

# Проверяем, что treatment модель работает как ожидалось
control_accuracy = evaluate_model(control_predictions, labels)
treatment_accuracy = evaluate_model(treatment_predictions, labels)

assert treatment_accuracy >= control_accuracy * 0.95, \
    "Treatment model significantly worse - stop test!"

2. User engagement metrics:

# Recommendation model пример
metrics = {
    'control': {
        'click_through_rate': 0.12,
        'time_on_site': 8.5,  # minutes
        'items_viewed': 4.2
    },
    'treatment': {
        'click_through_rate': 0.14,  # +16.7% 🎉
        'time_on_site': 9.1,          # +7.1%
        'items_viewed': 4.8           # +14.3%
    }
}

# Statistical significance test
from scipy.stats import ttest_ind

control_ctr = get_user_ctr_data('control')
treatment_ctr = get_user_ctr_data('treatment')

t_stat, p_value = ttest_ind(treatment_ctr, control_ctr)

if p_value < 0.05 and treatment_ctr.mean() > control_ctr.mean():
    print("✅ Treatment показывает статистически значимое улучшение!")

3. Business metrics (north star):

# Конечная цель - revenue/conversions
business_metrics = {
    'control': {
        'revenue_per_user': 45.30,
        'conversion_rate': 0.032,
        'ltv_30d': 120.50
    },
    'treatment': {
        'revenue_per_user': 48.20,  # +6.4%
        'conversion_rate': 0.035,   # +9.4%
        'ltv_30d': 125.80          # +4.4%
    }
}

# Экономическая значимость
users_per_month = 100000
revenue_lift = (48.20 - 45.30) * users_per_month
# = $290,000/month дополнительного revenue!

Guardrail metrics

Проблема: Treatment может улучшить одни метрики, но ухудшить другие.

guardrail_metrics = {
    'latency_p99': {
        'control': 250,  # ms
        'treatment': 280,  # ms - приемлемо?
        'threshold': 300,
        'status': 'PASS'
    },
    'error_rate': {
        'control': 0.001,
        'treatment': 0.0015,
        'threshold': 0.002,
        'status': 'WARNING'  # Требует расследования
    },
    'user_complaints': {
        'control': 12,  # за неделю
        'treatment': 45,  # 🚨 Тревожный рост!
        'threshold': 20,
        'status': 'FAIL'
    }
}

# Automatic kill switch
if guardrail_metrics['user_complaints']['status'] == 'FAIL':
    rollback_experiment('ml_model_v2')
    alert_team('Treatment model causing user complaints spike!')

Shadow mode testing

Безопасный способ тестировать новую модель:

class ShadowModeFramework:
    def get_prediction(self, user_id, features):
        # Production использует ТОЛЬКО control model
        production_prediction = self.control_model.predict(features)

        # Treatment модель работает "в тени"
        # Её предсказания логируются, но не используются
        shadow_prediction = self.treatment_model.predict(features)

        # Сравниваем предсказания
        self._log_comparison(
            user_id=user_id,
            control_pred=production_prediction,
            treatment_pred=shadow_prediction,
            agreement=(production_prediction == shadow_prediction)
        )

        # Возвращаем ТОЛЬКО control prediction
        return production_prediction

Анализ shadow mode results:

shadow_analysis = {
    'agreement_rate': 0.94,  # 94% предсказаний совпадают
    'treatment_higher_confidence': 0.68,  # Treatment чаще более уверен

    # Случаи расхождения
    'disagreements': [
        {
            'user_id': 12345,
            'control_pred': 0.45,    # Borderline
            'treatment_pred': 0.72,  # Confident positive
            'actual_outcome': 1,     # Treatment был прав!
        },
        # ...
    ]
}

# Если treatment показывает лучшие результаты в shadow mode
# → Переходим к полноценному A/B тесту

Interleaving experiments

Для ranking/recommendation систем:

def interleaved_search_results(query, user_id):
    # Получаем результаты от обеих моделей
    control_results = control_ranker.rank(query)  # [A, B, C, D, E]
    treatment_results = treatment_ranker.rank(query)  # [B, A, E, C, F]

    # Team-Draft Interleaving: чередуем результаты
    interleaved = []
    c_idx, t_idx = 0, 0

    for position in range(10):
        if position % 2 == hash(user_id) % 2:
            # Control's turn
            while control_results[c_idx] in interleaved:
                c_idx += 1
            interleaved.append(control_results[c_idx])
            c_idx += 1
        else:
            # Treatment's turn
            while treatment_results[t_idx] in interleaved:
                t_idx += 1
            interleaved.append(treatment_results[t_idx])
            t_idx += 1

    # Результаты: [B, A, C, E, D, F, ...]
    # Tracking: какие результаты от какой модели получают клики
    return interleaved

Преимущества:

Более чувствителен к малым изменениям quality
Требует меньше traffic для statistical significance
Каждый user видит результаты обеих моделей

Continuous Model Monitoring

Почему monitoring критичен

ML модели “тухнут” со временем:

Data drift: мир меняется, модель устаревает
Concept drift: relationships между features и target меняются
Upstream changes: API изменения ломают feature generation

Без monitoring вы узнаете о проблеме, когда пользователи пожалуются (поздно).

Key monitoring metrics

1. Model performance metrics:

# Daily monitoring
daily_metrics = {
    'date': '2025-10-01',
    'predictions_count': 1.2M,
    'avg_confidence': 0.78,  # Снизилась с 0.85 - тревожный знак

    # Ground truth metrics (когда доступны labels)
    'accuracy': 0.89,  # Было 0.94 неделю назад
    'precision': 0.85,
    'recall': 0.91,

    # Alerts
    'alerts': [
        'Accuracy dropped 5% in last 7 days',
        'Average confidence declining trend'
    ]
}

2. Data quality metrics:

data_quality_dashboard = {
    'missing_values': {
        'age': 0.02,      # OK
        'income': 0.15,   # 🚨 Выросло с 0.03
    },
    'out_of_range_values': {
        'age': 3,  # 3 cases of age > 120
    },
    'new_categorical_values': {
        'country': ['XX'],  # Unknown country code
    }
}

3. Prediction distribution:

import matplotlib.pyplot as plt

# Сравниваем distribution предсказаний с baseline
plt.hist(baseline_predictions, alpha=0.5, label='Training')
plt.hist(production_predictions, alpha=0.5, label='Production')

# Должны быть похожи!
# Если production predictions сильно отличаются = drift

Automated alerts

class ModelMonitoringSystem:
    def check_model_health(self, model_id, time_window='24h'):
        metrics = self.get_metrics(model_id, time_window)

        alerts = []

        # Accuracy degradation
        if metrics['accuracy'] < self.baseline_accuracy * 0.95:
            alerts.append({
                'severity': 'HIGH',
                'type': 'accuracy_degradation',
                'message': f"Accuracy dropped to {metrics['accuracy']:.2%}",
                'action': 'Consider retraining model'
            })

        # Data drift
        if metrics['data_drift_score'] > 0.3:
            alerts.append({
                'severity': 'MEDIUM',
                'type': 'data_drift',
                'message': 'Significant data drift detected',
                'action': 'Investigate feature distributions'
            })

        # Prediction latency
        if metrics['p99_latency'] > 500:  # ms
            alerts.append({
                'severity': 'LOW',
                'type': 'performance',
                'message': f"P99 latency: {metrics['p99_latency']}ms",
                'action': 'Optimize model inference'
            })

        if alerts:
            self.send_alerts(alerts)

        return alerts

Заключение

Тестирование AI/ML систем требует фундаментально нового подхода:

Ключевые выводы:

✅ Data quality — это 80% успеха ML системы. Валидация данных критична на всех этапах.

✅ Bias detection — не опциональная фича, а обязательное требование для production ML.

✅ A/B testing — единственный способ истинной валидации модели в production.

✅ Continuous monitoring — ML модели требуют постоянного наблюдения, не set-and-forget.

Практические рекомендации:

Автоматизируйте data validation в каждом pipeline
Тестируйте fairness как часть CI/CD
Не доверяйте offline метрикам — тестируйте в production
Мониторьте модели 24/7 — они деградируют со временем
Документируйте все — какие данные, какие предположения, какие ограничения

ML тестирование — это не просто новый навык, это новая дисциплина. Те QA инженеры, кто освоит её сейчас, будут востребованы в следующем десятилетии.