英特爾研究院發(fā)布全新AI擴散模型|當(dāng)前信息
時間:2023-06-25 13:21:51
LDM3D是業(yè)界領(lǐng)先的可創(chuàng)建深度圖的生成式AI模型,有望革新內(nèi)容創(chuàng)作、元宇宙和數(shù)字體驗。
本文引用地址:http://www.eepw.com.cn/article/202306/447894.htm英特爾研究院宣布與Blockade Labs合作發(fā)布LDM3D(Latent Diffusion Model for 3D)模型,這一全新的擴散模型使用生成式AI創(chuàng)建3D視覺內(nèi)容。LDM3D是業(yè)界領(lǐng)先的利用擴散過程(diffusion process)生成深度圖(depth map)的模型,進而生成逼真的、沉浸式的360度全景圖。LDM3D有望革新內(nèi)容創(chuàng)作、元宇宙應(yīng)用和數(shù)字體驗,改變包括娛樂、游戲、建筑和設(shè)計在內(nèi)的許多行業(yè)。
(資料圖)
英特爾研究院人工智能和機器學(xué)習(xí)研究專家Vasudev Lal表示:“生成式AI技術(shù)旨在提高和增強人類創(chuàng)造力,并節(jié)省時間。然而,目前的大部分生成式AI模型僅限于生成2D圖像,僅有少數(shù)幾種可根據(jù)文本提示生成3D圖像。在使用幾乎相同數(shù)量參數(shù)的情況下,不同于現(xiàn)存的潛在擴散模型,LDM3D可以根據(jù)用戶給定的文本提示同時生成圖像和深度圖。與深度估計中的標(biāo)準(zhǔn)后處理方法相比,LDM3D能夠為圖像中的每個像素提供更精準(zhǔn)的相對深度,并為開發(fā)者省去了大量用于場景開發(fā)的時間。”
封閉的生態(tài)系統(tǒng)限制了規(guī)模。英特爾致力于推動AI的真正普及,通過開放的生態(tài)系統(tǒng)讓更多人從這項技術(shù)中受益。計算機視覺領(lǐng)域近年來取得了重大進展,特別是在生成式AI方面。然而,當(dāng)今許多先進的生成式AI模型只能生成2D圖像。與通常只能根據(jù)文本提示生成2D RGB圖像的現(xiàn)有擴散模型不同,LDM3D可以根據(jù)用戶給定的文本提示同時生成圖像和深度圖。與深度估計(depth estimation)中的標(biāo)準(zhǔn)后處理(post-processing)方法相比,LDM3D在使用與潛在擴散模型Stable Diffusion幾乎相同數(shù)量參數(shù)的情況下,能夠為圖像中的每個像素提供更精準(zhǔn)的相對深度(relative depth)。
這項研究有望改變我們與數(shù)字內(nèi)容的互動方式,基于文本提示為用戶提供全新的體驗。LDM3D生成的圖像和深度圖能夠?qū)⒅T如寧靜的熱帶海灘、摩天大樓、科幻宇宙等文本描述轉(zhuǎn)化為細致的360度全景圖。LDM3D捕捉深度信息的能力,可以即時增強整體真實感和沉浸感,使各行各業(yè)的創(chuàng)新應(yīng)用成為可能,包括娛樂、游戲、室內(nèi)設(shè)計、房產(chǎn)銷售 ,以及虛擬博物館與沉浸式VR體驗等。
6月20日,在IEEE/CVF計算機視覺和模式識別會議(CVPR)的3DMV工作坊上,LDM3D模型獲得了“Best Poster Award”。
LDM3D是在LAION-400M數(shù)據(jù)集包含一萬個樣本的子集上訓(xùn)練而成的。LAION-400M是一個大型圖文數(shù)據(jù)集,包含超過4億個圖文對。對訓(xùn)練語料庫進行標(biāo)注時,研究團隊使用了之前由英特爾研究院開發(fā)的稠密深度估計模型DPT-Large,為圖像中的每個像素提供了高度準(zhǔn)確的相對深度。LAION-400M數(shù)據(jù)集是基于研究用途創(chuàng)建而成的,以便廣大研究人員和其它興趣社群能在更大規(guī)模上測試模型訓(xùn)練。
LDM3D模型在一臺英特爾AI超級計算機上完成了訓(xùn)練,該超級計算機由英特爾?至強?處理器和英特爾?Habana Gaudi? AI加速器驅(qū)動。最終的模型和流程整合了RGB圖像和深度圖,生成360度全景圖,實現(xiàn)了沉浸式體驗。
為了展示LDM3D的潛力,英特爾和Blockade的研究人員開發(fā)了應(yīng)用程序DepthFusion,通過標(biāo)準(zhǔn)的2D RGB圖像和深度圖創(chuàng)建沉浸式、交互式的360度全景體驗。DepthFusion利用了TouchDesigner,一種基于節(jié)點的可視化編程語言,用于實時互動多媒體內(nèi)容,可將文本提示轉(zhuǎn)化為交互式和沉浸式數(shù)字體驗。LDM3D是能生成RGB圖像及其深度圖的單一模型,因此能夠節(jié)省內(nèi)存占用和降低延遲。
LDM3D和DepthFusion的發(fā)布,為多視角生成式AI和計算機視覺的進一步發(fā)展鋪平了道路。英特爾將繼續(xù)探索如何使用生成式AI增強人類能力,并致力于打造一個強大的開源AI研發(fā)生態(tài)系統(tǒng),讓更多人能夠使用AI技術(shù)。延續(xù)英特爾對開放AI生態(tài)系統(tǒng)的大力支持,LDM3D正在通過HuggingFace進行開源,讓AI研究人員和從業(yè)者能對這一系統(tǒng)作出進一步改進,并針對特定應(yīng)用進行微調(diào)。
在2023年6月18日至22日舉行的IEEE/CVF計算機視覺和模式識別會議上,英特爾將發(fā)表這項研究成果。欲了解更多信息,請參考論文《LDM3D: Latent Diffusion Model for 3D》。
相關(guān)稿件
英特爾研究院發(fā)布全新AI擴散模型|當(dāng)前信息
倡導(dǎo)“新食尚” 讓節(jié)約成為另一種“增產(chǎn)”
天天最資訊丨黃山落葉松葉落山黃,香山碧云寺(黃山落葉松葉落山黃)
泰安市住房公積金中心發(fā)布暫停線上渠道服務(wù)的通知|環(huán)球時快訊
【全球快播報】超 6 億美元引進!安進 siRNA 藥物擬納入突破性療法
全球快訊:榆林市第一醫(yī)院聯(lián)合榆林市強制隔離戒毒所開展防范麻精藥品濫用宣傳活動
當(dāng)前視訊!大學(xué)生就業(yè)“最滿意”排行,60個專業(yè)上榜!
世界訊息:25小時累計降雨超159毫米,金山朱涇打出防汛“組合拳”
去哪兒網(wǎng):端午國內(nèi)熱門城市機票預(yù)訂量超2019年同期兩成
資訊:馬斯克:大幅調(diào)整后,SpaceX“星艦”再次試射的成功機會大增
“行走河南·讀懂中國”,2023河南省文旅文創(chuàng)發(fā)展大會將于6月底舉行-世界報資訊
【安全生產(chǎn)】洛川縣開展燃氣安全生產(chǎn)專項檢查! 世界實時
端午假期江蘇消費品市場累計實現(xiàn)銷售額約35.4億元
鄭州機場、東站貼出公告,“入場費”必須司機出不準(zhǔn)轉(zhuǎn)嫁給乘客_快播報
今日播報!2023全省文旅文創(chuàng)發(fā)展大會為何選在洛陽?
河南工學(xué)院隆重舉行2022-2023學(xué)年學(xué)生工作暨共青團工作表彰大會
西北師范大學(xué)馬克思主義學(xué)院赴甘肅交通職業(yè)技術(shù)學(xué)院開展調(diào)研活動
退休后,拉開人與人差距的,不僅僅是退休金,以下4點更重要-天天觀察
全球熱推薦:惜別母校,送站啟航——重慶建筑科技職業(yè)學(xué)院為2023屆畢業(yè)生提供了暖心送站服務(wù)
教育頻道
環(huán)球時訊:政府搭臺網(wǎng)紅助力“電商快車”開進鄉(xiāng)村
天天速遞!2023 中國健康企業(yè)發(fā)展大會青島召開

銀川燒烤店31死燃爆事故原因:擅自更換減壓閥導(dǎo)致液化氣泄漏 環(huán)球看點
天天微資訊!領(lǐng)隊證英語要求(領(lǐng)隊證怎么考)
戰(zhàn)略合作伙伴是什么意思_戰(zhàn)略合作伙伴解釋
體內(nèi)有癌,夜間先知,睡覺時有這5個表現(xiàn),建議早做預(yù)防|即時
