近日,大連理工大學創新創業學院深度學習實踐班本科生的學術論文《基于選擇機制的視聽目標分割》(SelM: Selective Mechanism based Audio-Visual Segmentation)被多媒體領域國際頂級會議ACM MM 2024接收,并被大會錄用為口頭報告論文,錄用率僅3.97%。論文第一作者為未來技術學院/人工智能學院的2021級本科生李佳旭同學,指導老師為創新創業學院王一帆老師、未來技術學院盧湖川教授和王立君副教授。
圖 1 模型架構示意圖
該研究聚焦于多模態視聽分割任務,其核心思想旨在基于狀態空間建模與多模態協同交互,實現基于聲源信息的視頻目標分割。該工作提出了基于選擇性時序建模與條件去噪方法,有效解決了聲源數據與發聲物體難以精準匹配定位問題,抑制了模型的幻聽錯分現象,實現了推理高效、精確穩定的分割結果。
圖 2 實驗可視化結果
該學術成果再次印證了大連理工大學在開展創新人才培養方面的良好舉措和顯著成效。學院將進一步深入深化創新拔尖人才教育改革,努力打造具有鮮明特色和卓越品質的創新人才培養高地。
ACM MM會議,全稱為ACM International Conference on Multimedia(國際多媒體會議),是由國際計算機學會組織的多媒體研究領域國際頂級會議,目前在多媒體領域會議中影響力位列第一,也是CCF A類國際學術會議。本次會議將于2024年10月28日至11月1日在澳大利亞墨爾本舉行。(來源:創新創業學院 作者:王一帆 編輯:劉嘉瑞)