Knowledge Base — Konten Chatbot
Tujuan
Halaman ini menjelaskan cara mengelola Knowledge Base (KB) HUPH: dari mana chatbot Aria mengambil jawabannya, cara menambah sumber baru (crawl website atau upload dokumen), cara evaluasi kualitas jawaban, dan cara mendeteksi gap konten. Target pembaca: counselor, marketing, dan tim content curation.
Prasyarat
- Login dengan role counselor, marketing, atau admin
- Paham beda FAQ (exact-match, ~300 ms) vs KB (semantic search, ~6 detik tapi lebih fleksibel)
3 Entry Path
KB menerima konten dari tiga sumber:
- Web Sources — crawl otomatis dari website (contoh: uph.edu)
- Documents — upload manual PDF/DOCX/TXT
- FAQ — kurasi manual (ditangani di halaman FAQ, tidak di-index ke vector DB)
Status crawl saat ini: ~308+ halaman dari uph.edu sudah ter-index (page-sitemap, programs, about, academic, Indonesian pages).
Langkah-langkah
1. Buka Knowledge Base
Klik Knowledge base di sidebar. Anda akan lihat 4 tab: Documents, Web Sources, Evaluation, Gaps.
2. Tambah sumber web (crawl)
Tab Web Sources → tombol + Add Source. Isi:
- URL — contoh:
https://www.uph.edu/program/kedokteran - Type — pilih:
- Single Page — hanya URL itu saja
- Sitemap — crawl berdasarkan
sitemap.xml - Full Site — crawl rekursif dari URL awal (hati-hati, bisa banyak halaman)
- Schedule — sekali-saja (one-time) atau berkala (weekly)
Klik Save, lalu Sync Now untuk langsung crawl. Crawler berjalan di background dengan retry logic (3 percobaan, exponential backoff, timeout 180s per halaman).
3. Upload dokumen manual
Tab Documents → tombol + Upload. Pilih file:
- PDF — brosur resmi, handbook, dokumen persyaratan
- DOCX — draft dokumen internal
- TXT/MD — transkrip wawancara, Q&A manual
Klik Upload. Dokumen akan di-proses, di-split menjadi chunks, dan di-embed ke vector DB dalam ~5–30 detik tergantung ukuran.
4. Status indexing
Setiap dokumen/halaman punya status:
- Pending — menunggu giliran crawling/embedding
- Crawling / Indexing — sedang di-proses
- Indexed (hijau) — siap dipakai chatbot
- Failed (merah) — error; hover untuk lihat alasan
Kalau stuck di Pending lebih dari 10 menit, lihat troubleshooting.
5. Evaluation — cek kualitas jawaban
Tab Evaluation punya dua fitur:
Retrieval Sandbox: ketik pertanyaan user → lihat dokumen mana yang akan diambil Aria untuk menjawab. Berguna untuk debug ketika user complain jawaban kurang akurat.
Golden QA Dataset: 21 pertanyaan test dengan expected answer. Klik Run Eval untuk eksekusi semua. Eval pakai Claude sebagai judge untuk faithfulness, relevancy, dan context precision. Baseline saat ini: 95.2% pass rate (20/21), avg faithfulness 0.94, relevancy 0.93.
6. Gap Detection
Tab Gaps menampilkan topik yang sering ditanyakan user tapi tidak ter-cover dengan baik oleh KB. Sistem deteksi gap memakai clustering otomatis — percakapan dengan jawaban berkualitas rendah dikelompokkan dan di-surface di sini.
Contoh: tab Gaps menunjukkan topik "biaya magister" disebut 12x minggu ini dengan avg relevancy 0.4. Actionable: tambah dokumen/web source yang cover topik itu, atau buat FAQ baru.
Contoh kasus
Tambah sumber program studi baru. UPH buka prodi baru
"Animation". Counselor ke Web Sources → add source
https://uph.edu/program/animation → Full Site crawl → Sync Now.
~5 menit kemudian, dokumen terindex. Test di Retrieval Sandbox:
"Apa prodi animasi UPH?" → lihat dokumen baru muncul di hasil
retrieval → lapor ke marketing "KB sudah ter-update".
Investigasi complaint user. User komplain: "Aria salah jawab tentang beasiswa prestasi, bilang minimum IPK 3.5 padahal 3.2". Counselor ke Evaluation Sandbox → ketik "minimum IPK beasiswa prestasi" → lihat dokumen yang diambil → ternyata ada brochure lama yang menyebut 3.5. Solusi: hapus/update dokumen lama, upload yang terbaru, re-index.
Troubleshooting
Crawl stuck di Pending lebih dari 10 menit. Gejala: dokumen tidak
progress. Penyebab: crawler worker stuck atau embedding API lambat
(OpenAI embeddings bisa 5–10 detik per dokumen). Solusi: tunggu 5
menit lagi; kalau masih, hubungi dev team untuk cek
docker logs huph-crawler-worker --tail 20.
Dokumen status "Failed". Gejala: red indicator di list. Penyebab: PDF corrupt, encoding aneh, atau file > 50 MB. Solusi: hover untuk lihat error message. Kalau encoding issue, convert ke PDF standar (Adobe) dan upload ulang. Kalau oversize, split jadi beberapa file.
Eval pass rate turun dari 95%. Gejala: setelah crawl besar, eval dari 95.2% turun ke 80%. Penyebab: dokumen baru mungkin mengandung info kontradiktif dengan golden dataset. Solusi: hubungi tim eval untuk investigasi; jangan otomatis hapus dokumen baru sebelum paham penyebabnya.
Gap detection tidak update. Gejala: tab Gaps kosong walaupun ada user complain. Penyebab: gap detection berjalan via batch job harian — tidak real-time. Solusi: tunggu sampai hari berikutnya, atau trigger manual via dev team.
Lihat juga
- FAQ — kapan pakai FAQ vs KB
- Troubleshooting — masalah lain di dashboard