近日,“社會計算與認知智能”教育部重點實驗室魏小鵬教授、尹寶才教授、張強教授、楊鑫教授的關于單視角三維重建、視頻序列玻璃分割、多模態動態避障以及偽裝目標分割的5項研究成果陸續被人工智能國際頂級會議(ICCV2023)、國際多媒體領域頂級會議(ACM MM2023)、人工智能國際頂級期刊(IJCV)、計算領域頂級中文期刊(《中國科學:信息科學》)接收。
博士生張肇軒作為第一作者與博士生李童等人共同完成的研究成果“Single Depth-image 3D Reflection Symmetryand Shape Prediction”致力于通過物體的對稱屬性去解決單視角物體三維重建過程中細節不足的問題。從單張二維圖像中去重建出三維物體模型是計算機圖形學與視覺領域的一項傳統而又重要的任務。相比于從單張RGB圖像進行較粗糙的物體重建,單張深度圖像的物體建模任務由于輸入圖像中蘊含深度值這一幾何信息,對最終模型的精細程度及完整程度要求更高(如下圖a所示,在輸入物體點云——紅色區域的情況下,盡可能精準的恢復出被遮擋區域——灰色區域的信息)。目前一般是利用Kinect相機或具備激光雷達的手機等設備對物體直接進行拍攝來獲取深度圖像。由于其2.5D的特性,通常是使用三維點云補全的方法將其重建出來,而這類方法由于顯存等硬件的限制,使得算法最終輸出結果的點云數量有限,難以較好的恢復出物體的細節信息,相比于被拍攝物體會存在明顯的失真,如下圖(b)所示。為了解決這一問題,團隊采用深度圖像及法向量圖像聯合補全的方法從二維的角度直接去預測三維點的信息,借助強化學習算法決策出最佳補全視角序列,通過法向量及對稱性等幾何約束,完成了物體待補全區域檢測及高質量的深度、法向量等幾何信息的預測,實現了更細節的三維物體重建及更精準的物體對稱面預測。此項研究闡明了物體完整程度與對稱面準確性間的互補關系,所提出的單視角物體重建算法可以廣泛的應用于數字人、機器人交互、虛擬/增強現實等領域。
與其他代表性相關工作進行對比
博士生喬羽作為第一作者與碩士生金傲、付裕等人共同完成的研究成果“Multi-view Spectral Polarization Propagation for Video Glass Segmentation”致力于通過多視角的RGB及偏振光譜關聯屬性解決玻璃視頻序列中的玻璃分割問題。玻璃作為日常生活及應用中的常見場景,其自身獨特的反射、穿透等光學屬性,給現有的深度學習算法在特征提取及上下文關聯的過程帶來了極大的挑戰,尤其是在處理連續玻璃視頻時,其表面顏色及紋理會隨著相機或光線角度的波動產生連續的變化。以RGB圖像作為輸入的視頻分割算法,在處理時難以分辨圖像中玻璃顏色及紋理的真實性,而以單幀圖像作為輸入的RGB-偏振處理方法,則忽略了視頻中RGB和偏振光譜特征的時序關聯。為了解決應用場景下的視頻玻璃分割問題,團隊采用RGB和偏振光譜信息作為網絡的輸入,同時引入時空記憶模塊關聯前后視頻幀之間的RGB及偏振光譜特征,將前序幀的信息通過記憶匹配模塊及交叉注意力等傳播到當前的輸入幀,在預測當前輸入的基礎上充分考慮歷史信息,保證了玻璃視頻序列上的分割性能及偏振一致性。此項研究闡明了玻璃分割與光譜信息的緊密關聯性,所提出的多角度光譜玻璃視頻分割模型可以應用于自動駕駛、機器人場景掃描等領域,避免玻璃造成了識別錯誤、感知誤差等問題。
與其他方法結果進行對比
博士生王洋作為第一作者與碩士生張雨霽、博士生周運鐸、梅海洋等人共同完成的研究成果“Event-Enhanced Multi-Modal Spiking Neural Network for Dynamic Obstacle Avoidance”致力于解決復雜動態場景下移動機器人自主避障的問題。自主避障對于移動機器人等智能代理在其環境中導航至關重要?,F有的最先進方法通過強化學習訓練脈沖神經網絡,以在復雜/未知場景中實現節能和快速推理。這些方法通常假設環境是靜態的,而現實世界場景中的障礙物通常是動態的。障礙物的快速移動增加了環境的復雜性和不確定性,對現有的避障方法提出了更多挑戰。在這項工作中,主要從兩個方面進行魯棒的動態避障。首先,引入了神經形態事件相機,以提供與處理動態障礙物的傳統激光深度數據相互補的運動線索;其次,設計了一個基于強化學習的事件增強的多模態脈沖決策網絡,該網絡通過無監督表示學習從運動事件數據中提取信息,并將激光和事件相機數據與可學習閾值機制融合。實驗結果表明,本工作的方法在很大程度上優于最先進的避障方法,尤其是在動態避障方面。
事件增強的多模態脈沖神經網絡模型概覽
博士生梅海洋作為第一作者與博士生周運鐸、王洋等人共同完成的研究成果“Camouflaged Object Segmentation with Omni Perception”致力于解決復雜環境中偽裝目標分割問題。自然界中許多生物都具有“偽裝”的本領,變色龍能夠根據周圍的環境來調整自身顏色以達到其“偽裝”的目的;獅子將身體“偽裝”在草叢之中等待獵物的靠近;蝴蝶伏在與自身顏色相近的樹干上一動不動以躲過天敵的傷害。因為偽裝目標與背景之間存在高度的相似性,所以偽裝目標的分割比普通目標的分割更具挑戰性。本工作提出了一種新穎的全方位感知網絡(OPNet)來感知和耦合局部特征和全局表示,以實現復雜環境下準確的偽裝目標分割。通過兩個創新性模塊,即金字塔定位模塊(PPM)和雙聚焦模塊(DFM),OPNet能夠更準確地定位整個偽裝目標并劃定物體邊界,從而在基準測試集上顯著提高了偽裝目標分割性能。此項研究可應用的領域較為廣闊,除了其學術價值外,還有助于推動諸如軍事上偽裝隱蔽目標的搜索探測、醫學領域上病情的判斷以及農業遙感中蝗蟲的入侵等。
全方位感知偽裝目標分割模型概覽
博士生梅海洋作為第一作者與博士生周運鐸等人共同完成的研究成果“Distraction-Aware Camouflaged Object Segmentation”致力于解決多尺度偽裝目標分割問題??紤]到偽裝目標的尺寸通常在很大范圍內變化,本文在定位和聚焦偽裝目標分割框架下,引入了一個上下文增強模塊來增強骨干特征的表示能力,以提供更有辨別性的骨干特征,從而提升偽裝目標的定位和聚焦效果;并設計了金字塔定位模塊以多尺度的方式實現對偽裝目標更加魯棒的定位;實驗證明本文提出的新方法具有優異的偽裝目標分割能力,并且本文進行了深入的消融研究和分析,揭示了模型設計的合理性與有效性;最后,本文通過將方法應用于息肉分割任務,驗證了模型的泛化能力和實際應用價值。
與其他方法結果進行對比
ICCV(International Conference on Computer Vision)是計算機學科普遍認可的人工智能領域頂級國際會議,被中國計算機學會(CCF)列為A類會議,今年論文錄用率為26%左右,該會議將于10月11日-17日舉辦。根據當前流行的Google Scholar Citation統計,ICCV排在所有學科目錄第26位。
ACM MM(ACM International Conference on Multimedia)被認為是多媒體技術領域奧運級別的頂級盛會,被中國計算機學會(CCF)列為A類國際學術會議,各類機構都將在會議上分享、交流最新研究成果。該會議將于今年10月29日-31日在加拿大渥太華舉辦。
IJCV(International Journal of Computer Vision)與IEEE TPAMI、JMLR、AI是中國計算機學會(CCF)推薦的人工智能領域的4個A類頂級期刊,其影響因子13.369。
《中國科學:信息科學》主要報道計算機科學與技術、控制科學與控制工程、信息與通信工程、微電子與固態電子學等領域基礎研究和應用研究方面具有重要意義和創新性的最新成果,是由中國科學院主管,中國科學院、國家自然科學基金委員會主辦的期刊,被中國計算機學會(CCF)列為交叉與計算領域T1類最頂級中文期刊。(來源:電子信息與電氣工程學部 編輯:于舒雯)