近日,大連理工大學國際信息與軟件學院科研團隊在可解釋圖像生成領域研究新成果被計算機視覺領域頂級會議ICCV 2023錄用。研究成果DPM-OT: A New Diffusion Probabilistic Model Based on Optimal Transport由博士生李澤增、李聲豪、汪展鵬,雷娜教授(通信作者)、羅鐘鉉教授和紐約大學石溪分校顧險峰教授合作完成,是該團隊在可解釋圖像生成領域國際合作交流的最新研究成果。
雷娜教授團隊創新性地將逆擴散視為不同階段的隱變量之間的最優傳輸(OT)問題,提出了快速DPM的統一學習框架DPM-OT,可以在大約10個逆擴散步內生成高質量樣本。該算法框架通過顯示求解數據隱變量和白噪聲之間的最優傳輸映射,獲得了從先驗分布到數據分布的最優軌跡,實現將深度生成模型部分白盒化,使模型具備幾何直觀和可解釋性,同時顯著緩解了模式混淆的問題。此外,論文中給出了該方法的誤差界,從理論上保證了算法的穩定性。大量實驗驗證了DPM-OT在圖像生成速度和質量等方面的優勢,從而為可解釋圖像生成提供了一種有效的解決方案。有效解決了傳統的擴散概率模型(DPM)的采樣相當于分段分布變換,通常需要逆擴散數百或數千步才能獲得高質量的圖像,且無法兼顧采樣速度與樣本質量最優,經常受到模式混淆的影響。
據悉,ICCV(IEEE International Conference on Computer Vision)是計算機視覺領域最頂級會議。根據谷歌2022學術影響力榜單:ICCV躍升總榜前17,H5-index: 239。本屆ICCV大會共收到8088篇論文投稿,錄用2160篇,錄用率僅為26.7%。大連理工大學羅鐘鉉教授、雷娜教授、鄭曉朋副教授及其團隊與紐約州立大學石溪分校顧險峰教授長期合作,共同承擔了科技部重點研發計劃課題“基于微分嵌入與最有傳輸的可解釋深度學習新模型”、基金委重點項目“幾何觀點下的深度學習可解釋性的關鍵理論與模型構建”,在項目的支持下做出了系列受到國際同行關注的工作。本次發表的論文是該項目的一項重要進展。通過將OT和擴散模型相結合,提出用于快速DPM的統一學習框架DPM-OT。該算法通過計算Brenier勢函數的梯度來表示OT映射,具備幾何直觀和可解釋性;并且得到的OT映射滿足在奇異集上不連續性,從而能避免模式混合。同時,通過在不同時間步隱變量之間構建了一個最優軌跡,將多個采樣步組合成一個OT映射,從而大大縮短了采樣軌跡。
團隊介紹:國際信息與軟件學院幾何計算團隊由羅鐘鉉教授和雷娜教授領導,主要研究如何應用現代微分幾何和代數幾何的理論與方法解決工程的問題,聚焦于計算共形幾何、計算拓撲、符號計算及其在計算機圖形學、計算機視覺、幾何建模和醫學圖像中的應用。近年來,該團隊在ICCV、TVCG、AAAI、CMAME、CAD等期刊上發表相關研究論文百余篇,其中從幾何觀點出發的可解釋深度學習相關工作受到著名數學家菲爾茲獎得主Villani和Figalli的關注并在國際會議上進行重點介紹。(來源:國際信息與軟件學院 編輯:王增強)