Microsoft Dan Nvidia Kerjasama Kembangkan Teknologi Pembelajaran Video Ai

NESABAMEDIA.COMMicrosoft dan Nvidia melaksanakan kerja sama dalam sejumlah proyek terkait layanan cloud, gaming dan integrasi. Dalam pengembangan terakhir dalam kerja sama itu, Microsoft dan Nvidia memamerkan penelitian mereka yang menciptakan kemampuan untuk memajukan kecepatan pelatihan teknologi AI untuk kebutuhan video.


Dalam sebuah dokumen yang berjudul “Parameter Efficient Multimodal Transformers for Video Representation Learning,” para peneliti berdiskusi ihwal bagaimana cara mereka dalam mengurangi ukuran pembentuk multi modal sampai dengan 97 persen untuk mampu mencapai AI yang sudah ditingkatkan untuk klip video berdurasi 30 detik, dengan sampel 480 frame setiap 16 detik. Ini ialah suatu peningkatan besar dalam model yang sudah ada yang mampu memproses video kurang dari 10 detik.


Microsoft dan Nvidia menjelaskan bahwa mempelajari dan mengerti video ialah salah satu tantangan paling besar dari teknologi AI. Menjadikan AI mampu lebih efisien dalam mempelajari representasi multimodal yaitu suatu pondasi untuk memahami konten dalam video mirip gerakan, objek dan suara. Pembentuk multimodal modern telah menjadi lebih baik dalam mengerti aspek yang ada di dalam video, termasuk di antaranya sudut pandang, bahasa, atau juga pengenalan gambar. 


Tetap saja, kenaikan ini masih menyisakan tantangan besar lainnya, ialah membutuhkan memori yang sungguh besar. Microsoft mengatakan dalam suatu unggahan blog bahwa banyak aspek pembentuk yang ada saat ini cuma bergantung pada versi yang sudah ditawarkan untuk melaksanakan pembelajaran sendiri.


Di sini, Microsoft dan Nvidia sudah menciptakan peningkatan yang signifikan yang memungkinkan sebuah model untuk mempelajari video menjadi lebih efisien lagi. Ada lima unsur dalam model itu ialah, audio dan tampilan Convolutional Neural Networks (CNNs), audio dan pembentuk visual, dan suatu pembentuk multi modal. 


Microsoft mengaku bahwa pembelajaran dalam versi ini masih boros dalam sumber daya memori di GPU, sebab memiliki parameter sebanyak 155 juta, dan tiga pembentuk itu bila diaktifkan secara berbarengan akan menghabiskan sebanyak 128 juta parameter atau 82,6 persen dari total parameter yang ada.


Pada akibatnya, Microsoft dan Nvidia pun memutuskan untuk membagi besaran parameter itu untuk mengurangi ukuran dari model. Secara total, mereka bisa meminimalkan parameter yang diharapkan dari 128 juta menjadi hanya 4 juta.



Sumber mesti di isi

Posting Komentar

Lebih baru Lebih lama