Perusahaan seperti OpenAI dan Google telah melakukan ini selama beberapa waktu Mempromosikan kemampuan “penalaran” tingkat lanjut menyukai Langkah besar berikutnya Dalam model kecerdasan buatan terbaru. Namun kini, studi baru yang dilakukan oleh enam insinyur Apple menunjukkan bahwa “inferensi” matematis yang ditunjukkan oleh model bahasa besar yang canggih bisa menjadi sangat rapuh dan tidak dapat diandalkan dalam menghadapi perubahan yang tampaknya sepele pada permasalahan standar umum.
Kerapuhan yang disorot dalam temuan baru ini membantu mendukung penelitian sebelumnya yang menunjukkan bahwa penggunaan MBA untuk pencocokan pola probabilistik menghilangkan pemahaman formal tentang konsep dasar yang diperlukan untuk kemampuan penalaran matematika yang benar-benar andal. “MBA saat ini tidak mampu berpikir logis,” para peneliti berhipotesis berdasarkan temuan ini. “Sebaliknya, mereka mencoba meniru langkah berpikir yang diamati dalam data pelatihan mereka.”
Campurkan itu
Dalam “GSM-Symbolic: Memahami Batasan Inferensi Matematika dalam Model Bahasa Besar” – saat ini tersedia Sebagai kertas pracetak– Enam peneliti Apple memulai dengan Koleksi gabungan GSM8K yang berisi lebih dari 8.000 soal verbal matematika tingkat dasarDan dia memang benar Sering digunakan sebagai standar dengan kemampuan berpikir kompleks LLM modern. Mereka kemudian mengambil pendekatan baru dengan memodifikasi bagian dari rangkaian pengujian ini untuk secara dinamis mengganti nama dan nomor tertentu dengan nilai baru – jadi pertanyaan tentang Sophie yang mendapatkan 31 build untuk keponakannya di GSM8K bisa menjadi pertanyaan tentang Bill yang mendapatkan 19 build untuk saudaranya dalam evaluasi GSM -New Symbolic.
Pendekatan ini membantu menghindari potensi “polusi data” yang mungkin timbul dari pertanyaan statis GSM8K yang dimasukkan langsung ke data pelatihan model AI. Pada saat yang sama, perubahan yang tidak disengaja ini sama sekali tidak mengubah tingkat kesulitan sebenarnya dari penalaran matematis yang melekat, yang berarti bahwa model secara teoritis akan memiliki kinerja yang sama ketika diuji pada GSM-Simbolik seperti GSM8K.
Sebaliknya, ketika para peneliti menguji lebih dari 20 LLM pada sistem GSM-Symbolic, mereka menemukan bahwa akurasi rata-rata menurun dibandingkan dengan GSM8K, dengan penurunan kinerja antara 0,3 persen dan 9,2 persen, tergantung pada modelnya. Hasilnya juga menunjukkan variasi yang signifikan di 50 proses GSM-Symbolic yang terpisah dengan nama dan nilai yang berbeda. Kesenjangan akurasi hingga 15 persen antara proses terbaik dan terburuk adalah hal biasa dalam satu model, dan karena alasan tertentu, mengubah angka menghasilkan akurasi yang lebih buruk daripada mengubah nama.
Variasi semacam ini – baik dalam proses GSM-Symbolic yang berbeda maupun dibandingkan dengan hasil GSM8K – cukup mengejutkan karena, seperti yang ditunjukkan oleh para peneliti, “keseluruhan langkah inferensi yang diperlukan untuk menyelesaikan pertanyaan tetap sama.” Fakta bahwa perubahan kecil tersebut menghasilkan hasil yang bervariasi menunjukkan kepada para peneliti bahwa model ini tidak melakukan penalaran “formal” melainkan “mencoba”[ing] Untuk melakukan jenis pencocokan pola distribusi, mencocokkan pertanyaan yang dipilih dan langkah-langkah solusi dengan pertanyaan serupa yang muncul di data pelatihan.
Jangan terganggu
Namun, varians keseluruhan yang dijelaskan dalam pengujian GSM-Symbolic seringkali relatif kecil dalam skema besar. Misalnya, akurasi ChatGPT-4o OpenAI turun dari 95,2 persen di GSM8K menjadi 94,9 persen di GSM-Symbolic, yang masih mengesankan. Ini adalah tingkat keberhasilan yang sangat tinggi jika menggunakan salah satu kriteria, terlepas dari apakah model itu sendiri menggunakan logika “formal” di belakang layar atau tidak (walaupun keakuratan keseluruhan banyak model turun drastis ketika peneliti hanya menambahkan satu atau dua langkah logika tambahan ke dalam permasalahan) .
Namun, ujian LLM yang diuji memiliki kinerja yang jauh lebih buruk, ketika peneliti Apple memodifikasi standar GSM-Symbolic dengan menambahkan “data yang tampaknya relevan namun pada akhirnya tidak penting” ke dalam pertanyaan. Untuk serangkaian kriteria “GSM-NoOp” (kependekan dari “tidak ada operasi”), pertanyaan tentang berapa banyak kiwi yang dipetik seseorang selama beberapa hari mungkin dimodifikasi untuk menyertakan rincian sesekali bahwa “lima di antaranya [the kiwis] “Dia sedikit lebih kecil dari rata-rata.”
Penambahan artefak merah ini mengakibatkan apa yang para peneliti gambarkan sebagai “penurunan kinerja yang sangat besar” dalam hal akurasi dibandingkan dengan GSM8K, berkisar antara 17,5 persen hingga 65,7 persen, bergantung pada model yang diuji. Penurunan akurasi yang dramatis ini menyoroti keterbatasan yang melekat dalam penggunaan “pencocokan pola” sederhana untuk “mengubah data menjadi operasi tanpa benar-benar memahami maknanya,” tulis para peneliti.
“Penjelajah ramah hipster. Penggemar kopi pemenang penghargaan. Analis. Pemecah masalah. Pembuat masalah.”
More Stories
Microsoft mengatakan Call of Duty: Black Ops 6 mencetak rekor untuk jumlah “penambahan pelanggan Game Pass pada hari peluncuran.”
Unduhan Call of Duty: Black Ops 6 memaksimalkan penggunaan internet Anda
Apple diperkirakan akan meluncurkan MacBook Pro baru hari ini dengan fitur-fitur ini