Answer Evaluation — Ukur Kualitas Jawaban Bot
Purpose
Halaman ini menjelaskan cara menggunakan Answer Evaluation untuk mengukur kualitas jawaban chatbot UPH secara kuantitatif. Cocok untuk admin yang ingin memvalidasi perubahan persona/FAQ/KB sebelum rilis, atau memantau mutu secara berkala.
Dashboard ini menjalankan sekumpulan golden questions (pertanyaan ujian dengan jawaban benar yang diketahui) melalui chatbot, lalu menggunakan LLM judge (Claude Haiku) untuk menilai setiap jawaban berdasarkan 4 metrik.
Prerequisites
- Role super_admin, system_admin, atau faculty_admin
- Akses ke
https://admin.huph.val.id - Budget ~$0.05-0.10 per eval run (dibayar oleh anggaran API Anthropic)
- Golden questions sudah terisi (ID: 62, EN: 43 per 2026-04-23)
Konsep metrik
Setiap jawaban dinilai 4 dimensi:
| Metrik | Arti | Target |
|---|---|---|
| Faithfulness | Jawaban ter-ground pada knowledge base? | ≥ 0.70 |
| Answer Relevancy | Jawaban relevan dengan pertanyaan? | ≥ 0.70 |
| Context Precision | Retrieval chunks relevan? | ≥ 0.70 |
| Context Recall | Retrieval menangkap info yang dibutuhkan? | ≥ 0.70 |
Pass criterion: faithfulness ≥ 0.70 AND answer_relevancy ≥ 0.70.
Pass rate = % pertanyaan yang lolos kriteria.
Steps
1. Buka dashboard
Sidebar: KNOWLEDGE → Answer Eval. URL: /knowledge/eval/dashboard.
Halaman menampilkan: - Latest Run card: hasil eval terbaru + metrik pass rate - Runs list: riwayat eval sebelumnya, dengan status, durasi, pass rate - Golden Questions tab: kelola corpus pertanyaan ujian
2. Memahami hasil latest run
Contoh tampilan:
┌─ Latest Run: phase-a5-v2-baseline-id ──────────────┐
│ Status: ✓ Completed • Duration: 8m 30s │
│ Questions: 62 • Passed: 44 • Pass rate: 70.97%│
│ │
│ Avg Faithfulness: 0.782 │
│ Avg Answer Relevancy: 0.910 │
│ Avg Context Precision: 0.814 │
│ Avg Context Recall: 0.798 │
└────────────────────────────────────────────────────┘
3. Lihat detail per pertanyaan
Klik pada run → halaman detail menampilkan tabel: setiap pertanyaan dengan jawaban bot, score per metrik, dan reasoning judge.
Filter: - Status: passed / failed - Category: admission / fee / scholarship / program / general - Language: ID / EN
Gunakan filter ini untuk mengidentifikasi kategori yang lemah (misal: semua pertanyaan "biaya" gagal → KB soal biaya perlu diperkaya).
4. Kelola golden questions
Tab Golden Questions:
- Tambah pertanyaan: tulis pertanyaan + jawaban benar yang diharapkan + kategori + difficulty (easy/medium/hard)
- Edit/deaktivasi: soal yang usang (misal biaya per semester sudah berubah) nonaktifkan supaya tidak bias hasil eval
- Import CSV: untuk bulk-add dari spreadsheet
Pilih pertanyaan representatif
Golden set yang baik = campuran difficulty + campuran kategori. Hindari terlalu banyak variasi pertanyaan yang sama (e.g. 10 pertanyaan tentang "biaya Kedokteran" — satu saja cukup).
5. Jalankan eval baru
Klik Run New Eval di kanan atas.
Modal konfigurasi: - Name: label untuk run ini (misal "post-cass-kb-update-2026-04-23") - Language: ID, EN, atau both - Category (opsional): batasi ke satu kategori - Top K: berapa chunks retrieval (default 5)
Klik Start. Run berjalan di background (3–15 menit tergantung jumlah pertanyaan). Kamu bisa menutup halaman, hasil tetap tersimpan.
6. Bandingkan dua run
Ikon GitCompare di runs list. Pilih 2 run → dashboard menampilkan: - Delta per metrik (↑/↓/━) - Pertanyaan yang flip (pass→fail atau fail→pass) - Reasoning judge untuk flip cases
Gunakan ini setiap kali kamu: - Update FAQ → run baru + bandingkan ke baseline - Ubah persona chatbot → cek regresi - Upload dokumen KB baru → validasi coverage
7. Export CSV untuk laporan
Di halaman detail run, klik Download CSV. File berisi: - Question, bot_answer, expected_answer - Semua 5 metrik - Reasoning judge - Latency per pertanyaan
Cocok untuk laporan mingguan/bulanan ke direksi UPH.
Example scenarios
Validasi sebelum rilis FAQ batch besar. Admin marketing menulis 20 FAQ baru tentang beasiswa. Sebelum mengaktifkan, jalankan eval pada golden set kategori "scholarship". Jika pass rate ≥ 70%, aman publish. Jika < 70%, review pertanyaan yang gagal — mungkin FAQ yang ditulis perlu diperbaiki.
Audit rutin bulanan. Setiap akhir bulan, super_admin menjalankan eval full corpus (ID + EN). Hasil di-export CSV, masuk laporan ke Director of Admission. Trend pass rate bulan-ke-bulan jadi sinyal operasional.
Debugging penurunan mutu. User complaint muncul tentang "bot jawabnya ngawur". Admin buka eval dashboard → bandingkan run terbaru dengan 2 minggu lalu. Jika pass rate turun > 5pp, cari kategori yang regress → fokus perbaikan.
Troubleshooting
Eval run stuck di "running" > 30 menit. Gejala: status tidak
berubah meski waktu normal sudah lewat. Penyebab: Anthropic API
throttling atau Dify backend stall. Perbaikan: cek logs huph-api
(docker logs huph-api --tail 100). Kalau ada error 429 (rate limit),
tunggu 10 menit lalu coba lagi. Kalau error lain, escalate ke
developer.
Pass rate drop mendadak. Gejala: run baru 30% lebih rendah dari sebelumnya tanpa perubahan FAQ. Penyebab: corpus golden berubah (ada pertanyaan baru yang sulit ditambah) atau retrieval context berubah (KB di-update). Perbaikan: bandingkan dengan run terakhir via GitCompare, lihat pertanyaan mana yang flip — itu akar penyebabnya.
Metrik Faithfulness rendah tapi Relevancy tinggi. Artinya: bot menjawab sesuai topik tapi mengarang fakta. Perbaikan: periksa KB untuk chunks yang missing, tambah dokumen/FAQ supaya retrieval punya grounding. Jangan mengandalkan prompt saja.
See also
- Knowledge Gaps — deteksi otomatis area yang belum tersedia di KB
- FAQ — cara menambah/edit FAQ yang muncul di golden set
- Knowledge base — kelola dokumen sumber
- Bot configuration — persona dan rules