能聽懂人說話的語音基石模型

NExT Forum：多模態基礎模型

【講者】李宏毅副教授 | 國立臺灣大學電機工程學系 Dr. Hung-Yi Lee, Associate Professor, Department of Electrical Engineering, National Taiwan University

【講題】能聽懂人說話的語音基石模型

【摘要】隨著深度學習技術突飛猛進，人工智慧的能力越來越強，但多數時候其學習仍需要人類對資料進行適當的標註，但是標註大量資料所費不貲，而語音相關任務繁多，除了語音辨識外，還有語者辨識、情緒辨識、語音增強、語音問答等各式各樣的任務，細數起來有上百個，而且世界上有七千多種語言，要為每一種語言的每一個任務都蒐集大量標註資料是不可能的。於是在語音AI領域掀起了自督導式學習(Self-supervised Learning)的浪潮來解決依賴巨量標注資料的問題，機器只要在日常生活中聽人們對話、上網看大量的影片就可以訓練出語音基石模型(Foundation Model)，可以用極少量標註的資料學會語音相關任務。

【議程】 https://forum.hh-ri.com/20230303

主辦單位：鴻海研究院協辦單位：財團法人人工智慧科技基金會、國立臺灣大學人工智慧技術暨全幅健康照護聯合研究中心

能聽懂人說話的語音基石模型

About Us

Center

Research

Tech Blog

Event

Video