近日,山東師范大學信息科學與工程學院兩篇研究論文《Giving Text More Imagination Space for Image-text Matching》和《Prototype-guided Knowledge Transfer for Federated Unsupervised Cross-modal Hashing》被CCF A類會議ACM Multimedia 2023錄用。論文第一作者分別為在讀博士生董新鋒和碩士生李京智,指導教師分別為韓軍偉教授、張化祥教授和朱磊教授,山東師范大學為第一作者單位。此兩項研究成果的取得,標志著學校在計算機人工智能與多媒體領域的持續創新與進步。
論文《Giving Text More Imagination Space for Image-text Matching》提出了一種在弱對齊場景下基于視覺-語言預訓練模型的想象網絡,用于縮小跨模態異質性差距和平衡不同模態間信息量差異。弱對齊場景假設文本包含更抽象信息,且文本中的實體數量總是少于圖像中的目標數量?,F有圖像-文本匹配算法側重于在強對齊假設下彌合模態間的異質性鴻溝并將特征映射到公共空間,這些方法在弱對齊場景下的性能并不理想。該方法采用雙管齊下策略,一方面通過想象網絡利用強化學習策略增強文本模態的語義信息,另一方面設計了動作細化策略約束想象網絡的自由度和發散性。實驗結果表明,基于CLIP和BLIP兩個預訓練模型所提出的框架具有優越性和通用性。論文《Prototype-guided Knowledge Transfer for Federated Unsupervised Cross-modal Hashing》提出了一種基于原型遷移的聯邦跨模態檢索方法,用于解決分布式場景下進行跨模態檢索模型訓練中的隱私泄露問題,實現高效的跨模態語義傳遞。該方法通過為不同客戶端探索統一的全局原型來保護本地私有數據,利用全局原型指導局部跨模態哈希學習,促進特征空間對齊,緩解局部多模態數據分布差異引起的模型偏差,提高檢索精度。此外,論文還提出了一種自適應跨模態知識蒸餾策略,將有價值的語義知識從模態特定的全局模型遷移到局部原型學習過程,從而降低局部原型學習的過擬合風險。實驗驗證了方法的有效性。
ACM Multimedia被中國計算機學會(CCF)列為A類會議。根據CCF分類標準,A類會議指國際上極少數的頂級學術會議。CCF A類會議論文是國務院學位評定委員會指定的計算機科學與技術一級學科博士點評估必須指標之一,在計算機科學與技術學科占有非常重要地位,受到國內外一流大學和一流學科的高度重視。多媒體研究的重點是整合分析不同數據形式提供的多種視角,包括圖像、文本、視頻、音樂和傳感器數據等。ACM Multimedia自1993年以來每年舉辦一次,它一直將學術界和業界的研究人員和實踐者聚集在一起,介紹創新的多媒體領域研究成果,并討論最新的學術及應用進展。據悉,2023年ACM Multimedia將于10月29日至11月2日在加拿大渥太華召開。(編輯:賈丙波)