Saat menambahkan data anda sendiri, terkadang anda akan menghadapi masalah di mana jawaban ai anda tidak berdasarkan data yang diinginkan.
Hal ini biasanya terjadi ketika data anda terkait satu sama lain, namun sangat mirip.
Misalnya satu data tentang register, satu data tentang login, satu data tentang reset password.
terkadang skor ai memilih data "login" padahal obrolan sebenarnya tentang "tidak bisa login".
oleh karena itu, data "reset kata sandi" adalah data aktual yang anda harapkan mendapat skor tertinggi.
mari kita gali lebih dalam.
Data pendek vs panjang
menggunakan kasus sebelumnya, mengapa saya harus memisahkannya menjadi 3 data?
saya dapat menggabungkannya dan menggunakan 1 data sebagai gantinya!
ya, ini adalah salah satu pendekatan yang benar.
dengan data yang lebih panjang, berarti jangkauan datanya lebih luas.
ini hanya membahas topik keseluruhan, jadi anda tidak perlu terlalu khawatir.
tapi tetap saja, jika anda masih memiliki data lain yang memiliki topik serupa, masalah akan tetap ada.
solusi ini hanya akan berfungsi, jika anda menggabungkan semua konten terkait menjadi satu data.
Namun, hal ini juga menimbulkan masalah lain, biaya anda mungkin akan meningkat.
jadi solusi kedua adalah memotongnya menjadi data pendek yang super spesifik.
hanya sekitar 200-500 karakter.
datanya harus super spesifik dan tidak tumpang tindih dengan data lain.
misalnya, "daftar", "login", "setel ulang kata sandi".
ini berbagi topik umum: akun.
oleh karena itu, anda perlu menyusun ulang data anda menjadi sangat spesifik untuk setiap data tentang "daftar", "login" dan "setel ulang kata sandi".
Panjang | Pendek |
---|---|
+ Pertahankan konteksnya | - konteks terpisah |
+ dengan mudah melakukan perbandingan dan mendapatkan data terkait | - tidak dapat melakukan perbandingan dan data terkait sulit didapat |
+ lebih mudah untuk dipertahankan | - lebih sulit untuk dipertahankan |
- kurang tepat | + lebih tepat |
- biaya lebih banyak | + biaya lebih sedikit |
- respons yang lebih lambat | +respons lebih cepat |
Ketika data pendek bagus:
- Konten sensitif yang mengutamakan kebenaran.
- Skenario yang jawabannya harus sangat spesifik
- obrolan terfokus yang hanya memerlukan bagian informasi yang sangat spesifik.
contoh : daftar, login, reset password
ketika data panjang bagus:
- Data anda harus terkait satu sama lain meskipun subdata/bagiannya berbeda.
- Topik yang memerlukan banyak konteks agar akurat satu sama lain.
- Perbandingan atau data global yang subdatanya tidak ada artinya (seperti "Apa perbedaan antara X dan Y? atau semua data parameter api").
contoh : harga, dokumentasi api, data langkah demi langkah
Tambahkan deskripsi dan kategori
setelah mempersingkat datanya, anda juga dapat menambahkan beberapa informasi tambahan dan mengkategorikannya.
dengan tindakan ini, data anda akan memperoleh konteks tambahan dan ai akan lebih memahaminya.
di dalam data, anda juga dapat menambahkan beberapa kata kunci yang terkait dengan data tersebut.
misalnya : Daripada "paket lite kami", gunakan "paket lite kami mencakup dukungan API dan webhook.
hindari ambiguitas di dalam data.
hindari "semua paket memiliki fitur dasar", sebagai gantinya gunakan: "semua paket menyertakan dukungan API dan webhook".
Tambahkan Contoh
anda juga dapat menambahkan lebih banyak contoh sehingga AI dapat menyempurnakannya berdasarkan model contoh anda.
misalnya dalam dokumentasi, fonnte menawarkan beberapa contoh dalam PHP.
ini dapat dimasukkan sebagai contoh.
hal lainnya adalah menambahkan contoh pesan masuk.
sehingga anda dapat menambahkan sesuatu seperti:
contoh pertanyaan : "bagaimana cara pesannya?","berapa harga kuota ai?"
Kesimpulan
kita tidak bisa meminta ai untuk selalu menggunakan data spesifik dari kumpulan data kita dengan benar.
ai bekerja menggunakan kekuatan statistik, yang artinya semuanya tentang probabilitas.
apa yang dapat kita lakukan adalah meningkatkan probabilitas dengan menggunakan praktik terbaik yang diketahui di atas dan membiarkan statistik bekerja apa adanya.