Building Large Language Models on TWS Experience and Insights

NExT Forum:多模態基礎模型

【講者】陳忠誠協理 | 華碩電腦暨台智雲技術長 Mr. Steve Chen, AVP, ASUS | CTO, TWS

【講題】Building Large Language Models on TWS: Experience and Insights

【摘要】最近ChatGPT 的風潮讓大家見識到了大型語言模型的威力,ChatGPT 使用的語言模型參數量高達1750億個,需要大量的GPU做平行運算,一般企業很難擁有這樣的環境及能力,台智雲目前已經在台灣杉二號超級電腦成功建置與 ChatGPT 相同參數量的大型語言模型 BLOOM(參數量1760億),目前可使用 840張GPU(105 個節點)做訓練,除了效能逼近線性理論值外,訓練的結果也可收斂。如有需要,也可以再增加 GPU 的數目,以線性的方式擴容(scale out)。我們希望在這個基礎上能協助建立下個世代 AI 應用的 Foundation Model,讓台灣能接軌這一波重要的AI發展。

【議程】https://forum.hh-ri.com/20230303

主辦單位:鴻海研究院 協辦單位:財團法人人工智慧科技基金會、國立臺灣大學人工智慧技術暨全幅健康照護聯合研究中心

返回頂端