Berita Pemeriksa AI UE yang baru mengungkapkan kekurangan utama dalam kepatuhan model AI utama

zaskia nana

Berita Pemeriksa AI UE yang baru mengungkapkan kekurangan utama dalam kepatuhan model AI utama

Pemeriksa AI yang baru diluncurkan oleh Uni Eropa (UE) mengungkapkan bahwa banyak model kecerdasan buatan terkemuka tidak memenuhi peraturannya, khususnya di bidang-bidang utama seperti ketahanan keamanan siber dan mencegah hasil yang diskriminatif.

Pada bulan Desember, ReadWrite melaporkan bahwa negosiator UE mencapai kesepakatan bersejarah mengenai hal ini peraturan AI komprehensif pertama di dunia. Peraturan ini mulai berlaku pada bulan Agustus, meskipun beberapa rincian masih dalam tahap penyelesaian. Namun, ketentuan berjenjangnya secara bertahap akan berlaku untuk pengembang aplikasi dan model AI, yang berarti jam kepatuhan sudah berjalan.

Saat ini, sebuah alat baru sedang menguji model AI generatif dari perusahaan teknologi besar seperti Meta dan OpenAI di berbagai kategori, sejalan dengan Undang-Undang AI komprehensif UE, yang akan diluncurkan secara bertahap selama dua tahun ke depan.

Dikembangkan oleh startup Swiss AI Aliran Kisi bekerja sama dengan lembaga penelitian ETH Zurich dan INSAIT Bulgaria, kerangka kerja sumber terbuka, disebut Kompl-AImemberikan model AI skor antara 0 dan 1 di berbagai bidang seperti ketahanan teknis dan keamanan.

Hasil pemeriksa AI UE

Menurut papan peringkat yang diterbitkan oleh LatticeFlow pada hari Rabu (16 Oktober), model dari Alibaba, Anthropic, OpenAI, Meta, dan Mistral semuanya mencetak rata-rata 0,75 atau lebih tinggi. Namun, Pemeriksa Model Bahasa Besar (LLM) LatticeFlow juga mengidentifikasi kelemahan dalam model tertentu, menunjukkan area di mana perusahaan mungkin perlu mengalokasikan lebih banyak sumber daya untuk memastikan kepatuhan.

Kerangka kerja ini menilai tanggapan LLM melalui 27 tolok ukur, termasuk kategori seperti “penyelesaian teks yang tidak berbahaya”, “jawaban yang berprasangka buruk”, “mengikuti instruksi yang merugikan”, “kejujuran”, dan “penalaran akal sehat”, dan kategori lainnya yang digunakan untuk evaluasi. Meskipun tidak ada skor model secara keseluruhan, performa didasarkan pada apa yang dinilai.

Meskipun banyak model memperoleh skor yang solid, seperti Karya Claude 3 Antropisyang memperoleh nilai 0,89, yang lainnya memiliki kerentanan yang serius. Misalnya saja, OpenAI GPT-3.5 Turbo hanya mendapat skor 0,46 untuk keluaran yang diskriminatif, dan Qwen1.5 72B Chat dari Alibaba mendapat skor lebih buruk lagi dengan skor 0,37, yang menandakan kekhawatiran yang terus berlanjut mengenai model AI yang melanggengkan bias manusia, khususnya seputar gender dan ras.

Dalam pengujian keamanan siber, beberapa model juga gagal. Obrolan Llama 2 13B Meta mendapat skor 0,42 dalam kategori “pembajakan cepat”—sejenis serangan siber yang menggunakan perintah berbahaya untuk mengekstrak informasi sensitif. Model Instruktur 8x7B Mistral memiliki kinerja yang sama buruknya, dengan skor 0,38.

Penilaian model AI disambut baik

Thomas Regnier, juru bicara Komisi Eropa untuk ekonomi digital, penelitian, dan inovasi, mengomentari rilis tersebut: “Komisi Eropa menyambut baik studi dan platform evaluasi model AI ini sebagai langkah pertama dalam menerjemahkan UU AI UE ke dalam persyaratan teknis, membantu model AI penyedia menerapkan UU AI.”

“Kami mengundang peneliti, pengembang, dan regulator AI untuk bergabung dengan kami dalam memajukan proyek yang terus berkembang ini,” kata Profesor Martin Vechev dari ETH Zurich, yang juga merupakan pendiri INSAIT.

Dia menambahkan: “Kami mendorong kelompok penelitian dan praktisi lain untuk berkontribusi dengan menyempurnakan pemetaan AI Act, menambahkan tolok ukur baru, dan memperluas kerangka kerja sumber terbuka ini. Metodologi ini juga dapat diperluas untuk mengevaluasi model AI terhadap peraturan di masa depan selain UU AI UE, sehingga menjadikannya alat yang berharga bagi organisasi yang bekerja di berbagai yurisdiksi.”

Salah satu pendiri LatticeFlow AI, Dr. Petar Tsankov, menyatakan: “Dengan kerangka kerja ini, perusahaan mana pun kini dapat mengevaluasi sistem AI mereka berdasarkan interpretasi teknis UU AI UE. Visi kami adalah untuk memungkinkan organisasi memastikan bahwa sistem AI mereka tidak hanya berperforma tinggi tetapi juga sepenuhnya selaras dengan persyaratan peraturan.”

ReadWrite telah menghubungi Komisi Eropa untuk memberikan komentar.

Gambar unggulan: Ideogram

Pos Pemeriksa AI UE yang baru mengungkapkan kekurangan utama dalam kepatuhan model AI utama muncul pertama kali pada BacaTulis.

Sumber

Mohon maaf, Foto memang tidak relevan. Jika keberatan atau harus diedit baik Artikel maupun foto Silahkan Klik Laporkan. Terima Kasih

Also Read

Tags

tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tr tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq tq