M

Momby Admin

Ana Sayfa/AI Yönetimi/Evaluation & Test Suites

Momby Admin

Evaluation & Test Suites

Test Tipleri

Offline + Online + Safety + Regression

Her değişiklik, risk seviyesine göre farklı evaluation katmanlarından geçer ve sonuçlar CI/CD pipeline'ında raporlanır.

Offline Evaluation

Her model/prompt değişikliğinde

Golden dataset ile accuracy, hallucination ve latency delta ölçümleri.

Metrikler

  • Accuracy
  • BLEU/ROUGE
  • Hallucination Rate
  • Latency Delta

Online Evaluation

Sürekli (real-time)

Production telemetry (CSAT, thumbs up/down, retention) ile gerçek zamanlı takip.

Metrikler

  • CSAT
  • User Rating
  • Escalation Rate

Safety Evaluation

Günlük + release öncesi

Toxicity, self-harm, medikal risk ve compliance testleri.

Metrikler

  • Safety Score
  • False Positive/Negative
  • Medical Compliance

Regression Suite

CI/CD pipeline'ı (PR başına)

Kritik use-case YAML senaryoları, expected vs actual diff ve SLA takibi.

Metrikler

  • Pass/Fail
  • Response Diff
  • SLA Delta

Pipeline

CI/CD Entegrasyonu

Evaluation pipeline her pull request ve production release öncesinde otomatik çalışır.

  1. 1.Static checks (lint, schema validation) tetiklenir.
  2. 2.Offline evaluation golden dataset üzerinden çalışır.
  3. 3.Safety suite toxicity ve medikal red flag testlerini yürütür.
  4. 4.Regression suite kritik YAML senaryolarını doğrular.
  5. 5.Opsiyonel shadow traffic ile online test yapılır.
  6. 6.Dual-approval gerektiren değişikliklerde approval gate açılır.
  7. 7.Evaluation raporu immutable log'a eklenir ve deploy gerçekleşir.