Cara Menguji Asisten Keuangan AI: 7 Pertanyaan Sebelum Kamu Percaya

Tim Moneysaurus · 2026-07-04

Hampir semua aplikasi keuangan sekarang mengklaim punya "asisten AI". Ada yang berbentuk maskot lucu, ada yang menempel di WhatsApp, ada juga yang sekadar chatbot di pojok aplikasi. Masalahnya, persona dan marketing itu gampang. Yang susah adalah retrieval dan hitungan yang benar. Dan kamu baru sadar bedanya setelah berbulan-bulan datamu tercatat di sana.

Kabar baiknya, kamu tidak perlu jadi engineer untuk mengujinya. Cukup ajukan tujuh pertanyaan ini di minggu pertama, sebelum kamu telanjur percaya.

1. Pertanyaan level-item: "Kapan terakhir aku beli nasi goreng?"

Ini pertanyaan uji terbaik karena hanya bisa dijawab dengan mencari kata spesifik di seluruh riwayat transaksimu, lalu mengurutkan berdasarkan tanggal.

Jawaban agent sungguhan: definitif dan berbasis query. "Terakhir 28 Juni, Rp25.000 di wallet Jajan." Atau kalau memang tidak ada: "Aku sudah cari di seluruh riwayatmu, tidak ada transaksi dengan kata itu."
Jawaban chatbot berkedok: mengelak dan menyuruhmu yang bekerja. Saat kami menguji salah satu asisten AI populer dengan pertanyaan persis ini, jawabannya kira-kira: "Sepertinya kamu belum pernah mencatatnya. Coba deh cek lagi, mungkin ada di transaksi lama yang belum tercatat?" Perhatikan kontradiksinya: kalau dia benar-benar memeriksa database, untuk apa menyuruh kamu mengecek ulang? Itu tebakan model bahasa, bukan hasil pencarian.

2. Tes tanya dua kali: "Total pengeluaran makan bulan lalu?"

Tanyakan, catat jawabannya, lalu tanyakan lagi lima menit kemudian dengan kalimat berbeda. Total yang dihitung sistem dari database akan identik sampai rupiah terakhir. Total yang "diingat-ingat" model bahasa bisa bergeser. Kalau dua jawabannya beda, kamu sedang bicara dengan prediksi teks, bukan dengan pembukuanmu. Penjelasan teknisnya ada di artikel kami soal kenapa mencatat lewat Meta AI/ChatGPT lama-lama ngaco.

3. Tes memori panjang: tanyakan transaksi tiga bulan lalu

Chatbot umum membaca ulang percakapan dengan jendela konteks terbatas, jadi transaksi lama perlahan "terlupakan". Agent yang benar menyimpan semuanya di database, sehingga transaksi Januari sama mudahnya diambil dengan transaksi kemarin. Kalau asistenmu mulai samar-samar soal data lama, itu tanda datanya hidup di log chat, bukan di penyimpanan terstruktur.

4. Tes tanggal: "Kemarin kopi 20rb"

Catat transaksi dengan kata "kemarin" atau "hari Senin lalu". Agent yang baik memahami referensi waktu dan menyimpan tanggal yang benar secara otomatis. Chatbot yang lemah mencatatnya hari ini, atau tidak mencatat tanggal sama sekali. Pengguna Meta AI di r/finansial sudah mengeluhkan persis ini: "jeleknya ga bisa input tanggal otomatis."

5. Tes koreksi: "Eh salah, tadi 15rb bukan 25rb"

Salah catat itu pasti terjadi. Ujilah apakah asistenmu bisa menemukan transaksi yang dimaksud dan mengubah nominalnya, bukan sekadar minta maaf lalu mencatat transaksi baru (sehingga sekarang ada dua entri salah). Kemampuan koreksi menandakan ada operasi update sungguhan ke database di baliknya.

6. Tes kejujuran: tanyakan barang yang tidak pernah kamu beli

Tanyakan "berapa total pengeluaranku untuk sushi?" padahal kamu tidak pernah mencatat sushi. Jawaban yang benar hanya satu: "tidak ada". Model bahasa yang dibiarkan menebak justru berbahaya di sini, karena dia bisa mengarang angka yang terdengar wajar. Untuk aplikasi keuangan, mengarang angka adalah dosa terbesar.

7. Tes pintu keluar: "Bisa ekspor semua dataku?"

Apa pun jawabannya hari ini, suatu saat kamu mungkin ingin pindah. Pastikan datamu bisa keluar dalam bentuk yang berguna (CSV, Excel, atau PDF). Ini juga tes tidak langsung: aplikasi yang bisa mengekspor data terstruktur berarti memang menyimpan data terstruktur.

Kenapa banyak asisten gagal di tes-tes ini

Polanya hampir selalu sama dan sudah kami bedah di artikel tentang chatbot vs agent dedicated: asisten yang gagal biasanya hanya menempelkan model bahasa di depan data, tanpa tool pencarian dan tanpa penjumlahan yang dihitung sistem. AI-nya pintar bicara, tapi tidak punya akses query yang benar ke datamu.

Moneysaurus AI kami rancang untuk lulus ketujuh tes di atas, dan beberapa di antaranya butuh rekayasa yang tidak kelihatan dari luar. Contohnya tes nomor 1: mesin pencarian riwayat kami sengaja dibangun dengan pelonggaran filter bertahap, supaya saat kata kuncimu tidak persis sama dengan catatan (misalnya "nasgor" vs "nasi goreng"), sistem melebarkan pencarian dulu sebelum berani menjawab "tidak ada". Prinsipnya sederhana: lebih baik repot mencari daripada salah mengklaim datamu kosong.

Penutup

Asisten keuangan AI akan makin banyak, dan sebagian besar akan terlihat meyakinkan di demo. Tujuh pertanyaan di atas murah, cepat, dan tidak butuh keahlian teknis, tapi cukup untuk memisahkan yang benar-benar membaca datamu dari yang sekadar pandai mengarang. Uji dulu, baru percaya. Kalau mau tahu aplikasi mana saja yang layak diuji, mulai dari perbandingan berbasis riset kami.

Referensi diskusi komunitas dan artikel terkait tercantum di dalam tulisan. Hasil uji asisten pihak lain berdasarkan pengujian langsung per Juli 2026 dan dapat berubah seiring pembaruan aplikasi masing-masing.