能聽懂人說話的語音基石模型

NExT Forum:多模態基礎模型

【講者】 李宏毅副教授 | 國立臺灣大學電機工程學系 Dr. Hung-Yi Lee, Associate Professor, Department of Electrical Engineering, National Taiwan University

【講題】能聽懂人說話的語音基石模型

【摘要】 隨著深度學習技術突飛猛進,人工智慧的能力越來越強,但多數時候其學習仍需要人類對資料進行適當的標註,但是標註大量資料所費不貲,而語音相關任務繁多,除了語音辨識外,還有語者辨識、情緒辨識、語音增強、語音問答等各式各樣的任務,細數起來有上百個,而且世界上有七千多種語言,要為每一種語言的每一個任務都蒐集大量標註資料是不可能的。於是在語音AI領域掀起了自督導式學習(Self-supervised Learning)的浪潮來解決依賴巨量標注資料的問題,機器只要在日常生活中聽人們對話、上網看大量的影片就可以訓練出語音基石模型(Foundation Model),可以用極少量標註的資料學會語音相關任務。

【議程】 https://forum.hh-ri.com/20230303

主辦單位:鴻海研究院 協辦單位:財團法人人工智慧科技基金會、國立臺灣大學人工智慧技術暨全幅健康照護聯合研究中心

返回頂端