Momby Admin
Evaluation & Test Suites
Test Tipleri
Offline + Online + Safety + Regression
Her değişiklik, risk seviyesine göre farklı evaluation katmanlarından geçer ve sonuçlar CI/CD pipeline'ında raporlanır.
Offline Evaluation
Her model/prompt değişikliğindeGolden dataset ile accuracy, hallucination ve latency delta ölçümleri.
Metrikler
- •Accuracy
- •BLEU/ROUGE
- •Hallucination Rate
- •Latency Delta
Online Evaluation
Sürekli (real-time)Production telemetry (CSAT, thumbs up/down, retention) ile gerçek zamanlı takip.
Metrikler
- •CSAT
- •User Rating
- •Escalation Rate
Safety Evaluation
Günlük + release öncesiToxicity, self-harm, medikal risk ve compliance testleri.
Metrikler
- •Safety Score
- •False Positive/Negative
- •Medical Compliance
Regression Suite
CI/CD pipeline'ı (PR başına)Kritik use-case YAML senaryoları, expected vs actual diff ve SLA takibi.
Metrikler
- •Pass/Fail
- •Response Diff
- •SLA Delta
Pipeline
CI/CD Entegrasyonu
Evaluation pipeline her pull request ve production release öncesinde otomatik çalışır.
- 1.Static checks (lint, schema validation) tetiklenir.
- 2.Offline evaluation golden dataset üzerinden çalışır.
- 3.Safety suite toxicity ve medikal red flag testlerini yürütür.
- 4.Regression suite kritik YAML senaryolarını doğrular.
- 5.Opsiyonel shadow traffic ile online test yapılır.
- 6.Dual-approval gerektiren değişikliklerde approval gate açılır.
- 7.Evaluation raporu immutable log'a eklenir ve deploy gerçekleşir.