Answer Evaluation — Ukur Kualitas Jawaban Bot

Purpose

Halaman ini menjelaskan cara menggunakan Answer Evaluation untuk mengukur kualitas jawaban chatbot UPH secara kuantitatif. Cocok untuk admin yang ingin memvalidasi perubahan persona/FAQ/KB sebelum rilis, atau memantau mutu secara berkala.

Dashboard ini menjalankan sekumpulan golden questions (pertanyaan ujian dengan jawaban benar yang diketahui) melalui chatbot, lalu menggunakan LLM judge (Claude Haiku) untuk menilai setiap jawaban berdasarkan 4 metrik.

Prerequisites

Role super_admin, system_admin, atau faculty_admin
Akses ke https://admin.huph.val.id
Budget ~$0.05-0.10 per eval run (dibayar oleh anggaran API Anthropic)
Golden questions sudah terisi (ID: 62, EN: 43 per 2026-04-23)

Konsep metrik

Setiap jawaban dinilai 4 dimensi:

Metrik	Arti	Target
Faithfulness	Jawaban ter-ground pada knowledge base?	≥ 0.70
Answer Relevancy	Jawaban relevan dengan pertanyaan?	≥ 0.70
Context Precision	Retrieval chunks relevan?	≥ 0.70
Context Recall	Retrieval menangkap info yang dibutuhkan?	≥ 0.70

Pass criterion: faithfulness ≥ 0.70 AND answer_relevancy ≥ 0.70. Pass rate = % pertanyaan yang lolos kriteria.

Steps

1. Buka dashboard

Sidebar: KNOWLEDGE → Answer Eval. URL: /knowledge/eval/dashboard.

Halaman menampilkan: - Latest Run card: hasil eval terbaru + metrik pass rate - Runs list: riwayat eval sebelumnya, dengan status, durasi, pass rate - Golden Questions tab: kelola corpus pertanyaan ujian

2. Memahami hasil latest run

Contoh tampilan:

Text Only

 ┌─ Latest Run: phase-a5-v2-baseline-id ──────────────┐
 │  Status: ✓ Completed  •  Duration: 8m 30s          │
 │  Questions: 62  •  Passed: 44  •  Pass rate: 70.97%│
 │                                                    │
 │  Avg Faithfulness:       0.782                     │
 │  Avg Answer Relevancy:   0.910                     │
 │  Avg Context Precision:  0.814                     │
 │  Avg Context Recall:     0.798                     │
 └────────────────────────────────────────────────────┘

3. Lihat detail per pertanyaan

Klik pada run → halaman detail menampilkan tabel: setiap pertanyaan dengan jawaban bot, score per metrik, dan reasoning judge.

Filter: - Status: passed / failed - Category: admission / fee / scholarship / program / general - Language: ID / EN

Gunakan filter ini untuk mengidentifikasi kategori yang lemah (misal: semua pertanyaan "biaya" gagal → KB soal biaya perlu diperkaya).

4. Kelola golden questions

Tab Golden Questions:

Tambah pertanyaan: tulis pertanyaan + jawaban benar yang diharapkan + kategori + difficulty (easy/medium/hard)
Edit/deaktivasi: soal yang usang (misal biaya per semester sudah berubah) nonaktifkan supaya tidak bias hasil eval
Import CSV: untuk bulk-add dari spreadsheet

Pilih pertanyaan representatif

Golden set yang baik = campuran difficulty + campuran kategori. Hindari terlalu banyak variasi pertanyaan yang sama (e.g. 10 pertanyaan tentang "biaya Kedokteran" — satu saja cukup).

5. Jalankan eval baru

Klik Run New Eval di kanan atas.

Modal konfigurasi: - Name: label untuk run ini (misal "post-cass-kb-update-2026-04-23") - Language: ID, EN, atau both - Category (opsional): batasi ke satu kategori - Top K: berapa chunks retrieval (default 5)

Klik Start. Run berjalan di background (3–15 menit tergantung jumlah pertanyaan). Kamu bisa menutup halaman, hasil tetap tersimpan.

6. Bandingkan dua run

Ikon GitCompare di runs list. Pilih 2 run → dashboard menampilkan: - Delta per metrik (↑/↓/━) - Pertanyaan yang flip (pass→fail atau fail→pass) - Reasoning judge untuk flip cases

Gunakan ini setiap kali kamu: - Update FAQ → run baru + bandingkan ke baseline - Ubah persona chatbot → cek regresi - Upload dokumen KB baru → validasi coverage

7. Export CSV untuk laporan

Di halaman detail run, klik Download CSV. File berisi: - Question, bot_answer, expected_answer - Semua 5 metrik - Reasoning judge - Latency per pertanyaan

Cocok untuk laporan mingguan/bulanan ke direksi UPH.

Example scenarios

Validasi sebelum rilis FAQ batch besar. Admin marketing menulis 20 FAQ baru tentang beasiswa. Sebelum mengaktifkan, jalankan eval pada golden set kategori "scholarship". Jika pass rate ≥ 70%, aman publish. Jika < 70%, review pertanyaan yang gagal — mungkin FAQ yang ditulis perlu diperbaiki.

Audit rutin bulanan. Setiap akhir bulan, super_admin menjalankan eval full corpus (ID + EN). Hasil di-export CSV, masuk laporan ke Director of Admission. Trend pass rate bulan-ke-bulan jadi sinyal operasional.

Debugging penurunan mutu. User complaint muncul tentang "bot jawabnya ngawur". Admin buka eval dashboard → bandingkan run terbaru dengan 2 minggu lalu. Jika pass rate turun > 5pp, cari kategori yang regress → fokus perbaikan.

Troubleshooting

Eval run stuck di "running" > 30 menit. Gejala: status tidak berubah meski waktu normal sudah lewat. Penyebab: Anthropic API throttling atau Dify backend stall. Perbaikan: cek logs huph-api (docker logs huph-api --tail 100). Kalau ada error 429 (rate limit), tunggu 10 menit lalu coba lagi. Kalau error lain, escalate ke developer.

Pass rate drop mendadak. Gejala: run baru 30% lebih rendah dari sebelumnya tanpa perubahan FAQ. Penyebab: corpus golden berubah (ada pertanyaan baru yang sulit ditambah) atau retrieval context berubah (KB di-update). Perbaikan: bandingkan dengan run terakhir via GitCompare, lihat pertanyaan mana yang flip — itu akar penyebabnya.

Metrik Faithfulness rendah tapi Relevancy tinggi. Artinya: bot menjawab sesuai topik tapi mengarang fakta. Perbaikan: periksa KB untuk chunks yang missing, tambah dokumen/FAQ supaya retrieval punya grounding. Jangan mengandalkan prompt saja.