AI Umum

Dapatkah Model Bahasa Besar (LLM) Berpikir dan Merencanakan?

Pengantar

Model Bahasa Besar (LLM) adalah terobosan terbaru dalam kecerdasan buatan (AI). Dilatih pada sejumlah besar data tekstual dari internet, model n-gram yang sangat canggih ini telah menyerap banyak pengetahuan manusia. Kemampuan mereka dalam menghasilkan bahasa dan melengkapi teks, yang menunjukkan perilaku linguistik dalam sistem pelengkapan teks, telah membuat banyak orang terkesima.

LLM sebagai Memori Non-Veridikal

Untuk memahami LLM, penting untuk menganggapnya sebagai memori non-veridikal yang sangat besar, mirip dengan sistem kognitif eksternal bagi umat manusia. Tidak seperti basis data tradisional yang mengindeks dan mengambil data secara akurat, LLM bekerja secara lebih probabilistik, merekonstruksi kelengkapan kata demi kata untuk petunjuk teks. Teknik yang dikenal sebagai pengambilan perkiraan ini memungkinkan LLM menghasilkan kelengkapan unik berdasarkan input yang diberikan, daripada menghafal seluruh jawaban.

Kemampuan Berpikir dan Merencanakan LLM

Kekhawatiran telah muncul mengenai apakah LLM dapat melampaui produksi bahasa ke tugas-tugas yang melibatkan pemikiran dan perencanaan, yang biasanya dikaitkan dengan proses kognitif tingkat tinggi. Tidak seperti manusia atau sistem AI konvensional, LLM tidak memiliki kecenderungan untuk penalaran berprinsip, yang sering kali melibatkan inferensi komputasi yang rumit dan pencarian selama pelatihan atau operasi.

Sebuah tim peneliti baru-baru ini menyelidiki apakah LLM dapat bernalar dan merencanakan. Wajar untuk mempertanyakan apakah LLM benar-benar mampu bernalar dari prinsip dasar atau hanya meniru penalaran dengan mengingat pola. Membuat perbedaan ini sangat penting karena pengenalan pola tidak sama dengan pemecahan masalah logis. Seiring LLM dilatih pada bank pertanyaan yang besar, semakin sulit untuk membedakan antara pemecahan masalah yang sebenarnya dan menghafal.

Hasil Penelitian

Hasil upaya untuk menilai keterampilan berpikir LLM beragam. Awalnya, pengujian pada masalah perencanaan, seperti yang dihasilkan dari Kompetisi Perencanaan Internasional, membantah klaim anekdotal tentang kemampuan perencanaan LLM. Studi selanjutnya dengan versi LLM yang lebih baru, seperti GPT-3.5 dan GPT-4, menunjukkan beberapa kemajuan dalam pembuatan rencana, meskipun akurasinya bervariasi tergantung pada domain.

Peningkatan Kinerja Perencanaan

Tim tersebut telah berbagi bahwa fine-tuning LLM pada masalah perencanaan, membantu mereka membuat tebakan yang lebih baik, adalah salah satu cara untuk meningkatkan kinerja perencanaan mereka. Namun, pendekatan ini pada dasarnya mengubah masalah perencanaan menjadi latihan dalam pengambilan berbasis memori daripada perencanaan yang sebenarnya.

Metode lain adalah memberikan LLM petunjuk atau rekomendasi sehingga mereka dapat meningkatkan prediksi awal mereka tentang rencana secara iteratif. Meskipun metode ini dapat meningkatkan kinerja, metode ini menimbulkan kekhawatiran mengenai sertifikasi jawaban akhir, perbedaan antara permintaan manual dan otomatis, dan apakah permintaan benar-benar menambah pengetahuan masalah LLM atau hanya memotivasi mereka untuk mencoba lagi.

Verifikasi Eksternal

Tindakan terbaik adalah menggunakan pemverifikasi rencana berbasis model eksternal untuk mengaktifkan LLM dan memvalidasi keakuratan solusi, yang akan memberikan sistem pembuatan-pengujian-kritik yang kuat. Di sisi lain, dorongan manusia yang berulang berisiko menimbulkan efek Clever Hans, di mana masukan manusia memengaruhi estimasi LLM.

Dipertanyakan apakah LLM dapat meningkatkan diri mereka sendiri melalui kritik diri yang berulang karena tidak ada bukti yang mendukung gagasan bahwa LLM lebih mahir dalam memvalidasi solusi daripada membuatnya.

Kesimpulan

Singkatnya, meskipun LLM sangat baik dalam menghasilkan bahasa, hanya ada sedikit bukti yang mendukung klaim bahwa mereka mampu bernalar atau merencanakan secara nyata. Kemampuan mereka untuk menghasilkan ide dan solusi yang mungkin adalah salah satu poin terkuat mereka, dan dapat berguna dalam kerangka kerja terorganisir yang memiliki prosedur verifikasi eksternal.