Knowledge Base — Konten Chatbot

Tujuan

Halaman ini menjelaskan cara mengelola Knowledge Base (KB) HUPH: dari mana chatbot Aria mengambil jawabannya, cara menambah sumber baru (crawl website atau upload dokumen), cara evaluasi kualitas jawaban, dan cara mendeteksi gap konten. Target pembaca: counselor, marketing, dan tim content curation.

Prasyarat

Login dengan role counselor, marketing, atau admin
Paham beda FAQ (exact-match, ~300 ms) vs KB (semantic search, ~6 detik tapi lebih fleksibel)

3 Entry Path

KB menerima konten dari tiga sumber:

Web Sources — crawl otomatis dari website (contoh: uph.edu)
Documents — upload manual PDF/DOCX/TXT
FAQ — kurasi manual (ditangani di halaman FAQ, tidak di-index ke vector DB)

Status crawl saat ini: ~308+ halaman dari uph.edu sudah ter-index (page-sitemap, programs, about, academic, Indonesian pages).

Langkah-langkah

1. Buka Knowledge Base

Klik Knowledge base di sidebar. Anda akan lihat 4 tab: Documents, Web Sources, Evaluation, Gaps.

2. Tambah sumber web (crawl)

Tab Web Sources → tombol + Add Source. Isi:

URL — contoh: https://www.uph.edu/program/kedokteran
Type — pilih:
Single Page — hanya URL itu saja
Sitemap — crawl berdasarkan sitemap.xml
Full Site — crawl rekursif dari URL awal (hati-hati, bisa banyak halaman)
Schedule — sekali-saja (one-time) atau berkala (weekly)

Klik Save, lalu Sync Now untuk langsung crawl. Crawler berjalan di background dengan retry logic (3 percobaan, exponential backoff, timeout 180s per halaman).

3. Upload dokumen manual

Tab Documents → tombol + Upload. Pilih file:

PDF — brosur resmi, handbook, dokumen persyaratan
DOCX — draft dokumen internal
TXT/MD — transkrip wawancara, Q&A manual

Klik Upload. Dokumen akan di-proses, di-split menjadi chunks, dan di-embed ke vector DB dalam ~5–30 detik tergantung ukuran.

4. Status indexing

Setiap dokumen/halaman punya status:

Pending — menunggu giliran crawling/embedding
Crawling / Indexing — sedang di-proses
Indexed (hijau) — siap dipakai chatbot
Failed (merah) — error; hover untuk lihat alasan

Kalau stuck di Pending lebih dari 10 menit, lihat troubleshooting.

5. Evaluation — cek kualitas jawaban

Tab Evaluation punya dua fitur:

Retrieval Sandbox: ketik pertanyaan user → lihat dokumen mana yang akan diambil Aria untuk menjawab. Berguna untuk debug ketika user complain jawaban kurang akurat.

Golden QA Dataset: 21 pertanyaan test dengan expected answer. Klik Run Eval untuk eksekusi semua. Eval pakai Claude sebagai judge untuk faithfulness, relevancy, dan context precision. Baseline saat ini: 95.2% pass rate (20/21), avg faithfulness 0.94, relevancy 0.93.

6. Gap Detection

Tab Gaps menampilkan topik yang sering ditanyakan user tapi tidak ter-cover dengan baik oleh KB. Sistem deteksi gap memakai clustering otomatis — percakapan dengan jawaban berkualitas rendah dikelompokkan dan di-surface di sini.

Contoh: tab Gaps menunjukkan topik "biaya magister" disebut 12x minggu ini dengan avg relevancy 0.4. Actionable: tambah dokumen/web source yang cover topik itu, atau buat FAQ baru.

Contoh kasus

Tambah sumber program studi baru. UPH buka prodi baru "Animation". Counselor ke Web Sources → add source https://uph.edu/program/animation → Full Site crawl → Sync Now. ~5 menit kemudian, dokumen terindex. Test di Retrieval Sandbox: "Apa prodi animasi UPH?" → lihat dokumen baru muncul di hasil retrieval → lapor ke marketing "KB sudah ter-update".

Investigasi complaint user. User komplain: "Aria salah jawab tentang beasiswa prestasi, bilang minimum IPK 3.5 padahal 3.2". Counselor ke Evaluation Sandbox → ketik "minimum IPK beasiswa prestasi" → lihat dokumen yang diambil → ternyata ada brochure lama yang menyebut 3.5. Solusi: hapus/update dokumen lama, upload yang terbaru, re-index.

Troubleshooting

Crawl stuck di Pending lebih dari 10 menit. Gejala: dokumen tidak progress. Penyebab: crawler worker stuck atau embedding API lambat (OpenAI embeddings bisa 5–10 detik per dokumen). Solusi: tunggu 5 menit lagi; kalau masih, hubungi dev team untuk cek docker logs huph-crawler-worker --tail 20.

Dokumen status "Failed". Gejala: red indicator di list. Penyebab: PDF corrupt, encoding aneh, atau file > 50 MB. Solusi: hover untuk lihat error message. Kalau encoding issue, convert ke PDF standar (Adobe) dan upload ulang. Kalau oversize, split jadi beberapa file.

Eval pass rate turun dari 95%. Gejala: setelah crawl besar, eval dari 95.2% turun ke 80%. Penyebab: dokumen baru mungkin mengandung info kontradiktif dengan golden dataset. Solusi: hubungi tim eval untuk investigasi; jangan otomatis hapus dokumen baru sebelum paham penyebabnya.

Gap detection tidak update. Gejala: tab Gaps kosong walaupun ada user complain. Penyebab: gap detection berjalan via batch job harian — tidak real-time. Solusi: tunggu sampai hari berikutnya, atau trigger manual via dev team.

Lihat juga

FAQ — kapan pakai FAQ vs KB
Troubleshooting — masalah lain di dashboard