AI Umum

COULER: Sistem AI untuk Optimalisasi Alur Kerja Pembelajaran Mesin Terpadu di Cloud

Pendahuluan

Alur kerja pembelajaran mesin (ML), yang penting untuk mendorong inovasi berbasis data, telah berkembang dalam kompleksitas dan skala, menantang metode optimalisasi sebelumnya. Alur kerja ini, yang merupakan bagian integral dari berbagai organisasi, membutuhkan sumber daya dan waktu yang besar, meningkatkan biaya operasional saat mereka berkembang untuk mengakomodasi infrastruktur data yang beragam.

Mengatur alur kerja ini melibatkan navigasi melalui berbagai mesin alur kerja yang berbeda, masing-masing dengan Antarmuka Pemrograman Aplikasi (API) yang unik, sehingga mempersulit proses optimalisasi di berbagai platform. Skenario ini memerlukan pergeseran ke pendekatan yang lebih terpadu dan efisien untuk manajemen alur kerja ML.

COULER: Pendekatan Terpadu untuk Manajemen Alur Kerja ML

Sebuah tim peneliti dari Ant Group, Red Hat, Snap Inc., dan Sichuan University mengembangkan COULER, sebuah pendekatan baru untuk manajemen alur kerja ML di cloud. Sistem ini melampaui keterbatasan solusi yang ada dengan memanfaatkan deskripsi bahasa alami (NL) untuk mengotomatiskan pembuatan alur kerja ML. Dengan mengintegrasikan Model Bahasa Besar (LLM) ke dalam proses ini, COULER menyederhanakan interaksi dengan berbagai mesin alur kerja, menyederhanakan pembuatan dan pengelolaan operasi ML yang kompleks. Pendekatan ini mengurangi beban menguasai beberapa API mesin dan membuka jalan baru untuk mengoptimalkan alur kerja di lingkungan cloud.

Fitur Inovatif COULER

Desain COULER berpusat pada tiga peningkatan inti pada alur kerja ML tradisional:

  • Caching Otomatis: Dengan menerapkan caching pada berbagai tahap, COULER mengurangi pengeluaran komputasi yang berlebihan, meningkatkan efisiensi keseluruhan alur kerja ML.
  • Paralelisasi Otomatis: Fitur ini memungkinkan sistem mengoptimalkan eksekusi alur kerja besar, yang selanjutnya meningkatkan kinerja komputasi.
  • Penyetelan Hiperparameter: COULER mengotomatiskan penyetelan hiperparameter, aspek penting dari pelatihan model ML, memastikan kinerja model yang optimal dengan intervensi manusia yang minimal.


Inovasi ini secara kolektif berkontribusi pada peningkatan yang signifikan dalam eksekusi alur kerja.

Implementasi dan Dampak

Diterapkan di lingkungan produksi Ant Group, COULER mengelola sekitar 22.000 alur kerja setiap hari, menunjukkan ketahanan dan efisiensinya. Sistem ini telah mencapai peningkatan lebih dari 15% dalam pemanfaatan CPU/Memori dan peningkatan 17% dalam tingkat penyelesaian alur kerja. Prestasi tersebut menggarisbawahi potensi COULER untuk merevolusi optimalisasi alur kerja ML, menawarkan solusi yang mulus dan hemat biaya bagi organisasi yang memulai inisiatif berbasis data.

Kesimpulan

Munculnya COULER menandai tonggak penting dalam evolusi alur kerja ML, menawarkan solusi terpadu untuk tantangan kompleksitas, intensitas sumber daya, dan konsumsi waktu yang telah lama melanda bidang ini. Penggunaan deskripsi NL yang inovatif untuk pembuatan alur kerja dan integrasi LLM memposisikan COULER sebagai sistem perintis yang menyederhanakan dan mengoptimalkan operasi ML di lingkungan cloud yang beragam. Peningkatan substansial yang diamati dalam penerapan di dunia nyata menyoroti efektivitas COULER dalam meningkatkan efisiensi komputasi dan tingkat penyelesaian alur kerja, yang menandai era baru aplikasi pembelajaran mesin yang mudah diakses dan efisien.