Open AI Ungkap Ancaman Jangka Panjang Serangan Prompt Injection pada Peramban AI
Dalam sebuah postingan blog, OpenAI menyatakan, "Prompt injection, layaknya penipuan dan rekayasa sosial di web, kemungkinan tidak akan pernah sepenuhnya 'terpecahkan'." Perusahaan tersebut mengakui bahwa mode agen pada ChatGPT Atlas memperluas permukaan ancaman keamanan. Sebelumnya, peneliti keamanan telah mendemonstrasikan bagaimana sedikit modifikasi teks pada dokumen dapat mengubah perilaku peramban AI.
Strategi OpenAI Melawan Ancaman Berkelanjutan
Ancaman prompt injection bukan hanya menjadi perhatian OpenAI. Badan Keamanan Siber Nasional Inggris juga telah memperingatkan bahwa serangan semacam ini terhadap aplikasi AI generatif "mungkin tidak akan pernah dapat sepenuhnya dimitigasi." Mereka menyarankan profesional siber untuk fokus mengurangi risiko dan dampaknya, alih-alih berupaya menghentikannya secara total. OpenAI sendiri melihat prompt injection sebagai tantangan keamanan AI jangka panjang yang membutuhkan penguatan pertahanan berkelanjutan. Solusi yang mereka terapkan adalah siklus respons cepat yang proaktif untuk mendeteksi strategi serangan baru sebelum dieksploitasi di dunia nyata.
Pendekatan OpenAI tidak jauh berbeda dari pesaing seperti Anthropic dan Google, yang menekankan pertahanan berlapis dan pengujian berkelanjutan. Namun, OpenAI mengambil langkah berbeda dengan mengembangkan "penyerang otomatis berbasis LLM." Penyerang ini adalah bot yang dilatih menggunakan pembelajaran penguatan (reinforcement learning) untuk meniru peran peretas yang mencari cara menyisipkan instruksi berbahaya ke dalam agen AI. Bot ini dapat menguji serangan dalam simulasi, menganalisis respons AI, menyesuaikan serangan, dan mengulanginya. Dengan akses ke penalaran internal AI target, bot OpenAI diharapkan dapat menemukan kerentanan lebih cepat daripada penyerang sungguhan.
Metode ini umum digunakan dalam pengujian keamanan AI, yaitu menciptakan agen untuk menemukan kasus-kasus ekstrem dan mengujinya secara cepat dalam simulasi. OpenAI menjelaskan bahwa penyerang yang dilatih dengan pembelajaran penguatan mereka mampu mengarahkan agen untuk menjalankan alur kerja berbahaya yang kompleks dan berjangka panjang. "Kami juga mengamati strategi serangan baru yang tidak muncul dalam kampanye red teaming manusia kami atau laporan eksternal," tulis OpenAI.
Dalam sebuah demonstrasi, OpenAI menunjukkan bagaimana penyerang otomatis berhasil menyisipkan email berbahaya ke dalam kotak masuk pengguna. Ketika agen AI memindai kotak masuk tersebut, ia mengikuti instruksi tersembunyi dalam email dan mengirimkan pesan pengunduran diri alih-alih balasan otomatis. Namun, setelah pembaruan keamanan, mode agen yang sama berhasil mendeteksi upaya prompt injection dan menandainya kepada pengguna.
Meskipun keamanan terhadap prompt injection sulit dicapai secara sempurna, OpenAI mengandalkan pengujian skala besar dan siklus perbaikan yang lebih cepat untuk memperkuat sistem mereka sebelum serangan terjadi di dunia nyata. Rami McCarthy, peneliti keamanan utama di Wiz, berpendapat bahwa pembelajaran penguatan adalah salah satu cara untuk beradaptasi dengan perilaku penyerang, tetapi itu hanya sebagian dari solusi.
"Peramban agenik cenderung berada di posisi yang menantang dalam ruang risiko: otonomi moderat dikombinasikan dengan akses yang sangat tinggi," kata McCarthy kepada TechCrunch.
Ia menambahkan bahwa banyak rekomendasi saat ini mencerminkan keseimbangan tersebut, seperti membatasi akses masuk atau meminta konfirmasi untuk tindakan tertentu. OpenAI juga menyarankan pengguna untuk memberikan instruksi yang spesifik kepada agen, alih-alih memberikan akses luas ke kotak masuk mereka. OpenAI menyatakan bahwa memberikan keleluasaan yang luas memudahkan konten tersembunyi atau berbahaya untuk memengaruhi agen, bahkan dengan adanya perlindungan.
Sumber : techcrunch.com