Berita Blues AI – O'Reilly

gomerdeka

Berita Blues AI – O'Reilly

Sebuah berita baru-baru ini artikel di Computerworld berpendapat bahwa output dari sistem AI generatif, seperti GPT dan Gemini, tidak sebaik dulu. Ini bukan pertama kalinya saya mendengar keluhan ini, meskipun saya tidak tahu seberapa luas pendapat itu diterima. Namun saya bertanya-tanya: apakah itu benar? Dan mengapa?

Saya pikir ada beberapa hal yang terjadi di dunia AI. Pertama, pengembang sistem AI mencoba meningkatkan output sistem mereka. Mereka (menurut dugaan saya) lebih ingin memuaskan pelanggan perusahaan yang dapat melaksanakan kontrak besar daripada individu yang membayar $20 per bulan. Jika saya melakukan itu, saya akan menyesuaikan model saya untuk menghasilkan prosa bisnis yang lebih formal. (Itu bukan prosa yang bagus, tetapi begitulah adanya.) Kita dapat mengatakan “jangan hanya menempelkan output AI ke dalam laporan Anda” sesering yang kita inginkan, tetapi itu tidak berarti orang tidak akan melakukannya—dan itu berarti pengembang AI akan mencoba memberi mereka apa yang mereka inginkan.

Belajar lebih cepat. Gali lebih dalam. Lihat lebih jauh.

Pengembang AI tentu saja berusaha menciptakan model yang lebih akurat. Tingkat kesalahan telah menurun secara signifikan, meskipun masih jauh dari nol. Namun, menyempurnakan model untuk tingkat kesalahan yang rendah mungkin berarti membatasi kemampuannya untuk menghasilkan jawaban yang tidak biasa yang menurut kami brilian, berwawasan, atau mengejutkan. Itu berguna. Saat Anda mengurangi deviasi standar, Anda memotong ekornya. Harga yang Anda bayar untuk meminimalkan halusinasi dan kesalahan lainnya adalah meminimalkan outlier yang benar dan “baik”. Saya tidak akan membantah bahwa pengembang tidak boleh meminimalkan halusinasi, tetapi Anda harus membayar harganya.

“AI Blues” juga dikaitkan dengan model runtuhSaya pikir keruntuhan model akan menjadi fenomena nyata—saya bahkan telah melakukan hal yang sama percobaan non-ilmiah—tetapi masih terlalu dini untuk melihatnya dalam model bahasa besar yang kami gunakan. Model-model tersebut tidak cukup sering dilatih ulang dan jumlah konten yang dihasilkan AI dalam data pelatihannya masih relatif sangat kecil, terutama jika model-model tersebut terlibat dalam pelanggaran hak cipta dalam skala besar.

Namun, ada kemungkinan lain yang sangat manusiawi dan tidak ada hubungannya dengan model bahasa itu sendiri. ChatGPT telah ada selama hampir dua tahun. Ketika dirilis, kami semua kagum dengan betapa bagusnya itu. Satu atau dua orang menunjuk pada pernyataan profetik Samuel Johnson dari abad ke-18: “Tuan, hasil ChatGPT seperti anjing yang berjalan dengan kaki belakangnya. Itu tidak dilakukan dengan baik; tetapi Anda terkejut saat menemukannya berhasil.”1 Ya, kami semua tercengang—kesalahan, halusinasi, dan sebagainya. Kami tercengang saat mengetahui bahwa komputer benar-benar dapat terlibat dalam percakapan—cukup lancar—bahkan bagi kami yang telah mencoba GPT-2.

Namun kini, hampir dua tahun berlalu. Kita sudah terbiasa dengan ChatGPT dan sejenisnya: Gemini, Claude, Llama, Mistral, dan banyak lagi. Kita mulai menggunakannya untuk pekerjaan nyata—dan rasa takjub itu sudah memudar. Kita kurang toleran terhadap kata-katanya yang obsesif (yang mungkin telah meningkat); kita tidak menganggapnya berwawasan dan orisinal (tetapi kita tidak benar-benar tahu apakah itu pernah terjadi). Meskipun mungkin saja kualitas keluaran model bahasa telah memburuk selama dua tahun terakhir, saya pikir kenyataannya adalah kita menjadi kurang pemaaf.

Apa kenyataannya? Saya yakin banyak orang yang telah mengujinya jauh lebih ketat daripada saya, tetapi saya telah menjalankan dua pengujian pada sebagian besar model bahasa sejak awal:

  • Menulis soneta Petrarchan. (Soneta Petrarchan memiliki skema rima yang berbeda dari soneta Shakespeare.)
  • Menerapkan algoritma yang terkenal tetapi sulit dipahami dengan benar dalam Python. (Saya biasanya menggunakan uji Miller-Rabin untuk bilangan prima.)

Hasil untuk kedua pengujian tersebut secara mengejutkan serupa. Hingga beberapa bulan lalu, LLM utama tidak dapat menulis soneta Petrarchan; mereka dapat mendeskripsikan soneta Petrarchan dengan benar, tetapi jika Anda memintanya untuk menulisnya, skema rima akan gagal, dan biasanya Anda akan mendapatkan soneta Shakespeare. Mereka gagal bahkan jika Anda menyertakan skema rima Petrarchan dalam perintah. Mereka gagal bahkan jika Anda mencobanya dalam bahasa Italia (sebuah eksperimen yang dilakukan salah satu kolega saya.) Tiba-tiba, sekitar masa Claude 3, para model belajar cara melakukan Petrarch dengan benar. Keadaannya menjadi lebih baik: beberapa hari yang lalu, saya pikir saya akan mencoba dua bentuk puisi yang lebih sulit: sestina dan villanelle.Villanelles melibatkan pengulangan dua baris dengan cara yang cerdas, selain mengikuti skema rima. sestina (memerlukan penggunaan kembali kata-kata berirama yang sama.) Mereka bisa melakukannya! Mereka tidak sebanding dengan penyanyi Provençal, tetapi mereka berhasil!

Saya memperoleh hasil yang sama dengan meminta model untuk membuat program yang akan mengimplementasikan algoritma Miller-Rabin untuk menguji apakah bilangan besar adalah bilangan prima. Ketika GPT-3 pertama kali keluar, ini adalah kegagalan total: program akan menghasilkan kode yang berjalan tanpa kesalahan, tetapi program akan memberi tahu saya bahwa bilangan seperti 21 adalah bilangan prima. Gemini juga sama—meskipun setelah beberapa kali mencoba, program tersebut dengan tidak sopan menyalahkan pustaka Python untuk komputasi dengan bilangan besar. (Saya rasa program tersebut tidak menyukai pengguna yang berkata, “Maaf, itu salah lagi. Apa yang Anda lakukan yang salah?”) Sekarang mereka mengimplementasikan algoritma dengan benar—setidaknya pada saat terakhir saya mencoba. (Hasil yang Anda peroleh mungkin berbeda.)

Keberhasilan saya tidak berarti tidak ada ruang untuk frustrasi. Saya telah bertanya kepada ChatGPT cara meningkatkan program yang bekerja dengan benar, tetapi memiliki masalah yang diketahui. Dalam beberapa kasus, saya mengetahui masalah dan solusinya; dalam beberapa kasus, saya memahami masalahnya tetapi tidak memahami cara memperbaikinya. Pertama kali Anda mencobanya, Anda mungkin akan terkesan: meskipun “masukkan lebih banyak program ke dalam fungsi dan gunakan nama variabel yang lebih deskriptif” mungkin bukan yang Anda cari, itu tidak pernah menjadi saran yang buruk. Namun, pada kali kedua atau ketiga, Anda akan menyadari bahwa Anda selalu mendapatkan saran yang sama dan, meskipun sedikit orang yang tidak setuju, saran itu tidak benar-benar berwawasan luas. “Terkejut karena berhasil melakukannya” dengan cepat berubah menjadi “tidak dilakukan dengan baik.”

Pengalaman ini mungkin mencerminkan keterbatasan mendasar model bahasa. Bagaimanapun, model bahasa tidak “cerdas” seperti itu. Sampai kita tahu sebaliknya, model bahasa hanya memprediksi apa yang akan terjadi selanjutnya berdasarkan analisis data pelatihan. Seberapa banyak kode di GitHub atau di StackOverflow benar-benar menunjukkan praktik pengodean yang baik? Seberapa banyak kode yang biasa-biasa saja, seperti kode saya sendiri? Saya berani bertaruh kelompok terakhir mendominasi—dan itulah yang tercermin dalam keluaran LLM. Berpikir kembali ke anjing Johnson, saya memang terkejut menemukannya dilakukan sama sekali, meskipun mungkin bukan karena alasan yang diharapkan kebanyakan orang. Jelas, ada banyak hal di internet yang tidak salah. Tetapi ada banyak hal yang tidak sebaik yang seharusnya, dan itu seharusnya tidak mengejutkan siapa pun. Yang disayangkan adalah bahwa volume konten “cukup bagus, tetapi tidak sebaik yang seharusnya” cenderung mendominasi keluaran model bahasa.

Itulah masalah besar yang dihadapi pengembang model bahasa. Bagaimana kita mendapatkan jawaban yang berwawasan, menyenangkan, dan lebih baik daripada rata-rata jawaban yang ada di internet? Kejutan awal sudah hilang dan AI dinilai berdasarkan kelebihannya. Akankah AI terus memenuhi janjinya atau kita hanya akan berkata “itu AI yang membosankan,” bahkan saat outputnya merayap ke setiap aspek kehidupan kita? Mungkin ada benarnya gagasan bahwa kita mengorbankan jawaban yang menyenangkan demi jawaban yang dapat diandalkan, dan itu bukan hal yang buruk. Namun, kita juga membutuhkan kesenangan dan wawasan. Bagaimana AI akan memberikannya?


Catatan kaki

Dari Boswell Kehidupan Johnson (1791); mungkin sedikit dimodifikasi.

Sumber

https://open.spotify.com/episode/1bF36gVIlc57iaiYPUwzHA
https://open.spotify.com/episode/1GZ6K0glQ9PeFBjP7t1hhk
https://open.spotify.com/episode/2G2MMbnTpHC2UiZJ1BeLru
https://open.spotify.com/episode/7J12oMFR9EcjaISZ0zNd4x
https://open.spotify.com/episode/13IhPTeWc1CR06dWtXwNzL
https://open.spotify.com/episode/43YeaP3a8S77OLnWtSy3AX
https://open.spotify.com/episode/4YyzeUwqUj3AF6SSFIk4IG
https://open.spotify.com/episode/5WfYA2OgTnhpX5ooYkve8N
https://open.spotify.com/episode/35ZG9hN4YkYcTQUYYolpdO
https://open.spotify.com/episode/543hwARvtYUo7xUvaWuJsz
https://open.spotify.com/episode/0sM98b77c7bK3ooUnuddjO
https://open.spotify.com/episode/1v4zyJYbqUhPR9FfGXU0Xv
https://open.spotify.com/episode/4ZaeLlPybx8HgLbgAAV8zA
https://open.spotify.com/episode/2FnmoMf0fyx63qkJ5Dh1Pc
https://open.spotify.com/episode/1KVSGjXIVz0bt2ZSVoKH1E
https://open.spotify.com/episode/2jirpc7EoanglPc0cXiFhd
https://open.spotify.com/episode/0ZJqOd4Cu8VifV0riRk7BN
https://open.spotify.com/episode/1IRNkW6E84gta0PEtgs2DO
https://open.spotify.com/episode/38ZR1SF26Vezhr7RZsEFiD
https://open.spotify.com/episode/3wekrFxWwfJYxHUueiERD5
https://open.spotify.com/episode/7bdWgIR5gsSidvI6bCuHp8
https://open.spotify.com/episode/6nkIUUBx4Po1MmjgEf2UyR
https://open.spotify.com/episode/1okcgJ6aBDXlw3LP3NF40B
https://open.spotify.com/episode/2omf5C7IeyZs9gggj4vdS8
https://open.spotify.com/episode/6c0UaN9bPfwebF9moYYNbX
https://open.spotify.com/episode/3CMrVCQGjXf8YnFI5r9SS9
https://open.spotify.com/episode/4Lb6AMcCpTTQWFA5VHxEUy
https://open.spotify.com/episode/61E5l2hwexFc1WK3bF23QA
https://open.spotify.com/episode/3DGoliY3RBl05C9h7W5GSs
https://open.spotify.com/episode/6y3iohFzlX5vBgNnnkuwPB
https://open.spotify.com/episode/2iZ5tcLdkVCBTOgZcSEdOC
https://open.spotify.com/episode/7y7zOAsxErrWO9SAfojUTd
https://open.spotify.com/episode/62P0p0AbslvrnwESupOHAA
https://open.spotify.com/episode/4O8qxI2Oa1zoBQmfOVWSdX
https://open.spotify.com/episode/4A8KfNaAiABanYcnHmi5bz
https://open.spotify.com/episode/19m9Os75ENqExqY66YBNoh
https://open.spotify.com/episode/6cdiECpePkpSjyrH6fVyHS
https://open.spotify.com/episode/2HfFPc5xvoGPEL5ayCedTz
https://open.spotify.com/episode/7vbMh9HnXUwUsJFdFhua7b
https://open.spotify.com/episode/0NTTt6xKcS4Hq8Aa13kxVB
https://open.spotify.com/episode/1kU6iem99pAZPKsvdBCfcK
https://open.spotify.com/episode/47Vviw2KnIJtKHYBOctut1
https://open.spotify.com/episode/3fwvGxJyWQGDg23IJk4Yis
https://open.spotify.com/episode/1MxcrajmrfpwPcMJoolttJ
https://open.spotify.com/episode/6AWc1sL8fF1junYwVjr8H0
https://open.spotify.com/episode/6TRoife1REkhZBoChjgloZ
https://open.spotify.com/episode/4icnMKNFP4lbqOz9rSFsds
https://open.spotify.com/episode/2htzOscXZlv48JeXnk2oKu
https://open.spotify.com/episode/6Ys1HPIhXfzRtGy3rOTcZR
https://open.spotify.com/episode/1mhtpGQ0sMtgY6eYmTZ3K4
https://open.spotify.com/episode/2RJEBMcHeWlAMFQy8sYuzZ
https://open.spotify.com/episode/7qLIeJtyMtEq2M5VYxrl0B
https://open.spotify.com/episode/3QGhJW1Z4Ji2xpBY7pxdJ7
https://open.spotify.com/episode/7GQPBuIKNgCOY1P0j1EWoI
https://open.spotify.com/episode/7n6UbHtwnDrTOSfyP8advO
https://open.spotify.com/episode/7yrZKEyoPy3jHMopnRq9G7
https://open.spotify.com/episode/0ZAlp6OVvy6NRjR2ikl6uj
https://open.spotify.com/episode/3cRFBg0kB0oXOUQZ8NzHzu
https://open.spotify.com/episode/5f3erdR2tdbH4437ilPfX6
https://open.spotify.com/episode/5fvmn48ngR8Mr3zSwaaO7Y
https://open.spotify.com/episode/4TPj6IMZ07jTozyFQawzXw
https://open.spotify.com/episode/7pMmKb0lkqteLBygxh5RF5
https://open.spotify.com/episode/1FjBLt2vi2HOOaiTjeaELo
https://open.spotify.com/episode/2RA0uwYQ4JfLaMkcikqzKF
https://open.spotify.com/episode/6bCTs78G9OZHjEMcju40Ht
https://open.spotify.com/episode/6AzqCfYafRgQERFGWpd25L
https://open.spotify.com/episode/0SNlkoatJMoI6eewkplzhi
https://open.spotify.com/episode/1onR5BqowM0byzo7myJdHf
https://open.spotify.com/episode/6eTL6Hx7HrtvfkOJAld2vJ
https://open.spotify.com/episode/7fzOQpqsH46aAK3rdyAzs5
https://open.spotify.com/episode/3gAq7G584OGYmKml7dv6yy

Mohon maaf, Foto memang tidak relevan. Jika keberatan atau harus diedit baik Artikel maupun foto Silahkan Klik Laporkan. Terima Kasih

Also Read

Tags

url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url url