Berita Blues AI – O'Reilly

Sebuah berita baru-baru ini artikel di Computerworld berpendapat bahwa output dari sistem AI generatif, seperti GPT dan Gemini, tidak sebaik dulu. Ini bukan pertama kalinya saya mendengar keluhan ini, meskipun saya tidak tahu seberapa luas pendapat itu diterima. Namun saya bertanya-tanya: apakah itu benar? Dan mengapa?

Saya pikir ada beberapa hal yang terjadi di dunia AI. Pertama, pengembang sistem AI mencoba meningkatkan output sistem mereka. Mereka (menurut dugaan saya) lebih ingin memuaskan pelanggan perusahaan yang dapat melaksanakan kontrak besar daripada individu yang membayar $20 per bulan. Jika saya melakukan itu, saya akan menyesuaikan model saya untuk menghasilkan prosa bisnis yang lebih formal. (Itu bukan prosa yang bagus, tetapi begitulah adanya.) Kita dapat mengatakan “jangan hanya menempelkan output AI ke dalam laporan Anda” sesering yang kita inginkan, tetapi itu tidak berarti orang tidak akan melakukannya—dan itu berarti pengembang AI akan mencoba memberi mereka apa yang mereka inginkan.

Table of Contents

Belajar lebih cepat. Gali lebih dalam. Lihat lebih jauh.

Pengembang AI tentu saja berusaha menciptakan model yang lebih akurat. Tingkat kesalahan telah menurun secara signifikan, meskipun masih jauh dari nol. Namun, menyempurnakan model untuk tingkat kesalahan yang rendah mungkin berarti membatasi kemampuannya untuk menghasilkan jawaban yang tidak biasa yang menurut kami brilian, berwawasan, atau mengejutkan. Itu berguna. Saat Anda mengurangi deviasi standar, Anda memotong ekornya. Harga yang Anda bayar untuk meminimalkan halusinasi dan kesalahan lainnya adalah meminimalkan outlier yang benar dan “baik”. Saya tidak akan membantah bahwa pengembang tidak boleh meminimalkan halusinasi, tetapi Anda harus membayar harganya.

“AI Blues” juga dikaitkan dengan model runtuhSaya pikir keruntuhan model akan menjadi fenomena nyata—saya bahkan telah melakukan hal yang sama percobaan non-ilmiah—tetapi masih terlalu dini untuk melihatnya dalam model bahasa besar yang kami gunakan. Model-model tersebut tidak cukup sering dilatih ulang dan jumlah konten yang dihasilkan AI dalam data pelatihannya masih relatif sangat kecil, terutama jika model-model tersebut terlibat dalam pelanggaran hak cipta dalam skala besar.

Namun, ada kemungkinan lain yang sangat manusiawi dan tidak ada hubungannya dengan model bahasa itu sendiri. ChatGPT telah ada selama hampir dua tahun. Ketika dirilis, kami semua kagum dengan betapa bagusnya itu. Satu atau dua orang menunjuk pada pernyataan profetik Samuel Johnson dari abad ke-18: “Tuan, hasil ChatGPT seperti anjing yang berjalan dengan kaki belakangnya. Itu tidak dilakukan dengan baik; tetapi Anda terkejut saat menemukannya berhasil.”¹ Ya, kami semua tercengang—kesalahan, halusinasi, dan sebagainya. Kami tercengang saat mengetahui bahwa komputer benar-benar dapat terlibat dalam percakapan—cukup lancar—bahkan bagi kami yang telah mencoba GPT-2.

Namun kini, hampir dua tahun berlalu. Kita sudah terbiasa dengan ChatGPT dan sejenisnya: Gemini, Claude, Llama, Mistral, dan banyak lagi. Kita mulai menggunakannya untuk pekerjaan nyata—dan rasa takjub itu sudah memudar. Kita kurang toleran terhadap kata-katanya yang obsesif (yang mungkin telah meningkat); kita tidak menganggapnya berwawasan dan orisinal (tetapi kita tidak benar-benar tahu apakah itu pernah terjadi). Meskipun mungkin saja kualitas keluaran model bahasa telah memburuk selama dua tahun terakhir, saya pikir kenyataannya adalah kita menjadi kurang pemaaf.

Apa kenyataannya? Saya yakin banyak orang yang telah mengujinya jauh lebih ketat daripada saya, tetapi saya telah menjalankan dua pengujian pada sebagian besar model bahasa sejak awal:

Menulis soneta Petrarchan. (Soneta Petrarchan memiliki skema rima yang berbeda dari soneta Shakespeare.)
Menerapkan algoritma yang terkenal tetapi sulit dipahami dengan benar dalam Python. (Saya biasanya menggunakan uji Miller-Rabin untuk bilangan prima.)

Hasil untuk kedua pengujian tersebut secara mengejutkan serupa. Hingga beberapa bulan lalu, LLM utama tidak dapat menulis soneta Petrarchan; mereka dapat mendeskripsikan soneta Petrarchan dengan benar, tetapi jika Anda memintanya untuk menulisnya, skema rima akan gagal, dan biasanya Anda akan mendapatkan soneta Shakespeare. Mereka gagal bahkan jika Anda menyertakan skema rima Petrarchan dalam perintah. Mereka gagal bahkan jika Anda mencobanya dalam bahasa Italia (sebuah eksperimen yang dilakukan salah satu kolega saya.) Tiba-tiba, sekitar masa Claude 3, para model belajar cara melakukan Petrarch dengan benar. Keadaannya menjadi lebih baik: beberapa hari yang lalu, saya pikir saya akan mencoba dua bentuk puisi yang lebih sulit: sestina dan villanelle.Villanelles melibatkan pengulangan dua baris dengan cara yang cerdas, selain mengikuti skema rima. sestina (memerlukan penggunaan kembali kata-kata berirama yang sama.) Mereka bisa melakukannya! Mereka tidak sebanding dengan penyanyi Provençal, tetapi mereka berhasil!

Saya memperoleh hasil yang sama dengan meminta model untuk membuat program yang akan mengimplementasikan algoritma Miller-Rabin untuk menguji apakah bilangan besar adalah bilangan prima. Ketika GPT-3 pertama kali keluar, ini adalah kegagalan total: program akan menghasilkan kode yang berjalan tanpa kesalahan, tetapi program akan memberi tahu saya bahwa bilangan seperti 21 adalah bilangan prima. Gemini juga sama—meskipun setelah beberapa kali mencoba, program tersebut dengan tidak sopan menyalahkan pustaka Python untuk komputasi dengan bilangan besar. (Saya rasa program tersebut tidak menyukai pengguna yang berkata, “Maaf, itu salah lagi. Apa yang Anda lakukan yang salah?”) Sekarang mereka mengimplementasikan algoritma dengan benar—setidaknya pada saat terakhir saya mencoba. (Hasil yang Anda peroleh mungkin berbeda.)

Keberhasilan saya tidak berarti tidak ada ruang untuk frustrasi. Saya telah bertanya kepada ChatGPT cara meningkatkan program yang bekerja dengan benar, tetapi memiliki masalah yang diketahui. Dalam beberapa kasus, saya mengetahui masalah dan solusinya; dalam beberapa kasus, saya memahami masalahnya tetapi tidak memahami cara memperbaikinya. Pertama kali Anda mencobanya, Anda mungkin akan terkesan: meskipun “masukkan lebih banyak program ke dalam fungsi dan gunakan nama variabel yang lebih deskriptif” mungkin bukan yang Anda cari, itu tidak pernah menjadi saran yang buruk. Namun, pada kali kedua atau ketiga, Anda akan menyadari bahwa Anda selalu mendapatkan saran yang sama dan, meskipun sedikit orang yang tidak setuju, saran itu tidak benar-benar berwawasan luas. “Terkejut karena berhasil melakukannya” dengan cepat berubah menjadi “tidak dilakukan dengan baik.”

Pengalaman ini mungkin mencerminkan keterbatasan mendasar model bahasa. Bagaimanapun, model bahasa tidak “cerdas” seperti itu. Sampai kita tahu sebaliknya, model bahasa hanya memprediksi apa yang akan terjadi selanjutnya berdasarkan analisis data pelatihan. Seberapa banyak kode di GitHub atau di StackOverflow benar-benar menunjukkan praktik pengodean yang baik? Seberapa banyak kode yang biasa-biasa saja, seperti kode saya sendiri? Saya berani bertaruh kelompok terakhir mendominasi—dan itulah yang tercermin dalam keluaran LLM. Berpikir kembali ke anjing Johnson, saya memang terkejut menemukannya dilakukan sama sekali, meskipun mungkin bukan karena alasan yang diharapkan kebanyakan orang. Jelas, ada banyak hal di internet yang tidak salah. Tetapi ada banyak hal yang tidak sebaik yang seharusnya, dan itu seharusnya tidak mengejutkan siapa pun. Yang disayangkan adalah bahwa volume konten “cukup bagus, tetapi tidak sebaik yang seharusnya” cenderung mendominasi keluaran model bahasa.

Itulah masalah besar yang dihadapi pengembang model bahasa. Bagaimana kita mendapatkan jawaban yang berwawasan, menyenangkan, dan lebih baik daripada rata-rata jawaban yang ada di internet? Kejutan awal sudah hilang dan AI dinilai berdasarkan kelebihannya. Akankah AI terus memenuhi janjinya atau kita hanya akan berkata “itu AI yang membosankan,” bahkan saat outputnya merayap ke setiap aspek kehidupan kita? Mungkin ada benarnya gagasan bahwa kita mengorbankan jawaban yang menyenangkan demi jawaban yang dapat diandalkan, dan itu bukan hal yang buruk. Namun, kita juga membutuhkan kesenangan dan wawasan. Bagaimana AI akan memberikannya?