演講主題:使用多模態基礎模型以達成影片生成與影片理解的近期研究成果(Video Understanding and Generation with Multimodal Foundation Models)
講者: 楊明玄 美國加州大學美熹德分校 教授
時間: 2025/03/25 (二) 14:10-16:00
地點: 管理大樓11樓-AI講堂
直播連結: https://reurl.cc/b3M6rd 或 掃描海報 QR code
講者簡介:
楊明玄教授是加州大學美熹德分校的教授,同時也是Google DeepMind的研究科學家。他曾榮獲多項聲譽卓著的獎項,包括2009年的Google Faculty Award、2012年的NSF CAREER Award,以及2017和2018年的Nvidia Pioneer Research Award。他曾獲得UIST 2017最佳論文榮譽提名獎、CVPR 2018最佳論文榮譽提名獎、ACCV 2018最佳學生論文榮譽提名獎、CVPR 2023 Longuet-Higgins Prize(時間考驗獎)、ICML 2024最佳論文獎,以及WACV 2025時間考驗獎。楊教授現擔任IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) 的副總編輯,以及International Journal of Computer Vision (IJCV) 的副編輯。此前,他曾擔任Computer Vision and Image Understanding (CVIU) 的總編輯,以及ICCV 2019的共同主席。他是IEEE、ACM和AAAI的會士。
演講大綱:
近年來,視覺和語言模型的快速發展,已顯著地提升了視覺理解和生成任務的效能。在本次演講中,我將介紹我們最新的研究成果,包括如何為transformer模型設計有效的分詞器,以及我們如何應用已預訓練的大型語言模型於各種視覺任務,包括視覺分類、影片-文本檢索、標題生成、視覺問與答、視覺定位、影片生成、影片風格化、影片影像擴展以及影片到音訊的轉換。如果時間允許,我還會討論我們最近在學習擴散模型和動態3D視覺方面的發現。
主辦單位:智慧運算學院、人工智慧研究中心
※本活動無需報名