• AI Umum

    VLM-CaR: Kerangka Pembelajaran Mesin Baru yang Memberdayakan Pembelajaran Penguatan dengan Model Visi-Bahasa

    Pendahuluan Pembelajaran penguatan (RL) adalah bidang pembelajaran mesin yang memungkinkan agen belajar membuat keputusan optimal dalam lingkungan yang tidak pasti. RL telah berhasil diterapkan pada berbagai tugas, termasuk permainan, robotika, dan keuangan. Salah satu tantangan utama dalam RL adalah merancang fungsi hadiah yang efektif. Fungsi hadiah menentukan perilaku agen dengan memberikan hadiah untuk tindakan yang diinginkan dan hukuman untuk tindakan yang tidak diinginkan. Merancang fungsi hadiah yang efektif seringkali merupakan proses manual dan memakan waktu yang lama. VLM-CaR VLM-CaR adalah kerangka kerja baru yang memungkinkan agen RL belajar dari input visual menggunakan model visi-bahasa (VLM). VLM adalah model pembelajaran mesin…

  • AI Umum

    Kerangka Kerja Pembelajaran Mesin yang Memungkinkan Pengguna untuk Menyesuaikan Fungsi Hadiah dan Memungkinkan Penyelarasan Waktu Dekoding LLM

    Tantangan dalam Penyelarasan LLM dengan Nilai Manusia Kemajuan model bahasa besar (LLM) menghadirkan tantangan penting dalam memastikan bahwa keluarannya selaras dengan standar dan niat etika manusia. Meskipun canggih, model-model ini dapat menghasilkan konten yang secara teknis akurat tetapi mungkin tidak sejalan dengan harapan pengguna tertentu atau norma-norma sosial. Ketidakselarasan ini menyoroti perlunya mekanisme yang efektif untuk memandu keluaran LLM ke arah tujuan etika dan praktis yang diinginkan, yang merupakan hambatan signifikan dalam menyelaraskan konten yang dihasilkan mesin dengan nilai dan niat manusia. Pendekatan Tradisional dan Keterbatasannya Metode saat ini untuk mengatasi tantangan penyelarasan ini terutama berfokus pada modifikasi proses pelatihan…

  • AI Umum

    ToolVerifier: Meningkatkan Performa Panggilan Alat untuk LLM dengan Metode Generasi dan Verifikasi Mandiri

    Integrasi Alat Eksternal ke dalam Model Bahasa Integrasi alat eksternal ke dalam model bahasa (LM) merupakan kemajuan penting dalam menciptakan asisten digital yang serbaguna. Integrasi ini meningkatkan fungsionalitas model dan mendorongnya lebih dekat ke visi AI tujuan umum. Namun, ambisi ini menghadapi tantangan yang signifikan: evolusi alat dan API yang cepat mengharuskan LM beradaptasi dengan cepat ke alat baru dan pembaruan parameter tanpa pelatihan ulang yang ekstensif atau campur tangan manusia. Tantangan dalam Generalisasi Kemampuan Penggunaan Alat Kendala utama dalam upaya ini adalah kemampuan model untuk menggeneralisasi kemampuan penggunaan alat mereka ke alat baru yang tidak terlihat berdasarkan contoh terbatas.…

  • AI Umum

    Mitigasi Peretasan dalam Pembelajaran Penguatan dari Umpan Balik Manusia dengan ODIN

    Pendahuluan Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) adalah metode yang semakin penting untuk memanfaatkan potensi Model Bahasa Besar (LLM) yang telah dilatih sebelumnya untuk menghasilkan tanggapan yang lebih bermanfaat, jujur, dan sejalan dengan preferensi manusia. Dalam RLHF, model bahasa dilatih untuk menghasilkan tanggapan yang memaksimalkan imbalan yang dipelajari melalui pembelajaran penguatan, setelah itu model imbalan dilatih berdasarkan preferensi manusia untuk perintah tertentu. Karena pengumpulan peringkat manusia biasanya tidak serumit pengumpulan demo untuk penyetelan halus yang diawasi, pendekatan ini menyederhanakan proses pengumpulan data. Masalah Peretasan Imbalan dalam RLHF Namun, peretasan imbalan adalah masalah yang halus dengan RLHF, di mana kebijakan…

  • AI Umum

    Judul: Menyempurnakan Model Pembelajaran Mesin secara Lebih Efisien: Penelitian Kecerdasan Buatan dari Cohere for AI Mengungkap Bagaimana REINFORCE Mengalahkan PPO dalam Pembelajaran Penguatan dari Umpan Balik Manusia

    Subjudul: Tantangan dalam Menyelaraskan Model Bahasa Besar dengan Preferensi Manusia Pendekatan Baru: Meninjau Kembali Dasar-dasar Pembelajaran Penguatan Hasil: REINFORCE dan RLOO Mengungguli Metode Tradisional Implikasi: Kesederhanaan sebagai Kunci Keberhasilan Isi: Penyelarasan Model Bahasa Besar (LLM) dengan preferensi manusia telah menjadi bidang penelitian yang penting. Seiring dengan meningkatnya kompleksitas dan kemampuan model-model ini, memastikan tindakan dan keluaran mereka selaras dengan nilai-nilai dan niat manusia menjadi sangat penting. Jalur konvensional untuk mencapai penyelarasan ini melibatkan teknik pembelajaran penguatan yang canggih, dengan Proximal Policy Optimization (PPO) sebagai metode terdepan. Meskipun efektif, metode ini memiliki tantangan tersendiri, termasuk tuntutan komputasi yang tinggi dan kebutuhan…

  • AI Umum

    Pemanfaatan Model Umpan Balik Bahasa dalam Pembelajaran Imitasi Lanjutan: Sebuah Inovasi dari Microsoft Research

    Tantangan dalam Mengembangkan Agen Pembelajaran Imitasi Dalam mengembangkan agen yang dapat mengikuti instruksi dalam lingkungan nyata, terdapat sejumlah tantangan yang perlu diatasi, termasuk efisiensi sampel dan generalisasi. Agen-agen ini harus belajar secara efektif dari beberapa demonstrasi sambil tetap mampu beroperasi dengan sukses di lingkungan baru dengan instruksi yang berbeda setelah pelatihan. Teknik-teknik seperti pembelajaran penguatan dan pembelajaran imitasi sering digunakan, tetapi seringkali membutuhkan banyak percobaan atau demonstrasi ahli yang mahal karena ketergantungannya pada metode coba-coba atau bimbingan ahli. Peran Model Umpan Balik Bahasa (LFM) Dalam pembelajaran imitasi yang didasarkan pada bahasa, agen menerima instruksi dan pengamatan parsial di lingkungan, lalu…

  • AI Umum

    MusicMagus: Memaksimalkan Model Difusi untuk Pengeditan Teks-ke-Musik Zero-Shot

    Pengantar Pembuatan musik telah lama menjadi bidang yang menarik, memadukan kreativitas dengan teknologi untuk menghasilkan komposisi yang selaras dengan emosi manusia. Prosesnya melibatkan pembuatan musik yang sejalan dengan tema atau emosi tertentu yang disampaikan melalui deskripsi tekstual. Meskipun pengembangan musik dari teks telah mengalami kemajuan luar biasa, masih ada tantangan yang signifikan: mengedit musik yang dihasilkan untuk menyempurnakan atau mengubah elemen tertentu tanpa memulai dari awal. Tugas ini melibatkan penyesuaian rumit pada atribut musik, seperti mengubah suara instrumen atau suasana keseluruhan musik, tanpa memengaruhi struktur intinya. Model AR dan Difusi Model-model terutama dibagi ke dalam kategori autoregresif (AR) dan berbasis…

  • AI Umum

    Premier-TACO: Representasi Pra-Pelatihan untuk Pembelajaran Kebijakan Few-Shot

    Pendahuluan Pembelajaran keputusan sekuensial (SDM) adalah bidang penting dalam pembelajaran mesin yang berfokus pada pembuatan keputusan dalam lingkungan yang berubah-ubah. SDM memiliki berbagai aplikasi, mulai dari robotika hingga perawatan kesehatan. Model dasar pra-pelatihan telah menunjukkan hasil yang menjanjikan dalam tugas pemrosesan bahasa alami. Namun, SDM menghadirkan tantangan unik yang tidak ditemukan dalam tugas pemrosesan bahasa alami. Premier-TACO Premier-TACO adalah pendekatan baru untuk pra-pelatihan representasi untuk SDM. Premier-TACO menggunakan tujuan pra-pelatihan kontrastif temporal berbasis dinamika tanpa hadiah. Hal ini memungkinkan model untuk mempelajari representasi yang dapat digeneralisasikan ke berbagai tugas hilir. Hasil Eksperimen Premier-TACO menunjukkan hasil yang kuat pada berbagai tolok…

  • AI Umum

    Premis Order Effect: Google DeepMind’s Research Highlights Critical Reasoning Limitations in LLMs

    Unveiling the Frailty of LLMs in Critical Reasoning Tasks Large language models (LLMs), known for their remarkable performance in various reasoning tasks, face a surprising challenge when confronted with premises. Research conducted by Google DeepMind and Stanford University reveals that a deviation from an optimal premise sequence can lead to a significant decline in LLM performance, with accuracy drops exceeding 30% in some cases. R-GSM Benchmark: Evaluating the Impact of Premise Ordering To systematically study this phenomenon, the research team developed a novel benchmark called R-GSM, specifically designed to assess the impact of premise ordering on mathematical reasoning tasks. By…