研究內容
研究動機
在當前3D建模領域,製作高質量的3D模型通常需要充足的2D參考圖片支持。資料不完整會導致生成的模型缺乏細節和準確性。而現在的生成式AI技術,往往只能進行文字(Text)生成或是2D圖片生成,因此,3D模型生成在生成式AI世代,顯得特別有意義,這也是我們選擇這個專題的原因。
研究流程

在我們的3D生成式AI研究中,深入嘗試了與3D建模相關的技術,尤其是NeRF等新興方法。在探索的過程中,我們最終成功建立了兩套流程,分別為A流程和B流程,根據資料完整度的不同進行3D建模。
-
A流程:INSTANT-NGP進行3D重建
在A流程中,當資料完整時,我們選用了INSTANT-NGP這一先進的技術進行3D重建。透過這套流程,我們能夠迅速而準確地生成高品質的3D模型,提高了效率並確保了資料完整性的基礎上,進行更精細的模型建立。 -
B流程:GPT-4與MESHY等工具結合生成3D雛形
在B流程中,當資料不完整或有限時,我們採用了創新的方法。首先,我們將圖片匯入GPT-4中,透過生成PROMPT的方式引導AI理解圖片內容。接著,利用MESHY工具生成初步的3D雛形,再進行手動編輯和優化。這套流程不僅彌補了資料不足的缺陷,還展現了AI在複雜情境中的潛力。
研究成果
A方案成果
用戶需要提供2D圖片或者環繞影片,作為生成3D模型的基礎。這可以是任何想要轉換成3D模型的對象或場景。提供的資料越完整和清晰,生成的3D模型效果越好。


這種技術基於深度學習和神經網絡,能夠從提供的2D圖片或環繞影片中學習模型的結構和細節,然後生成相應的3D模型。INSTANT-NGP技術可能能夠實現即時生成,提供高質量且精確的3D模型。

B方案成果
元智大學吉祥物—海豚
將圖片匯入至GPT-4
開始於透過GPT-4讀取2D圖片,並生成3D初步模型的PROMPT。GPT-4是一種自然語言處理模型,它可以理解並生成與文字相關的內容。在這裡,我們使用GPT-4處理2D圖片並生成PROMPT,這個PROMPT將作為後續步驟中生成3D模型的指引。
將模型匯入至Blender調整結構及渲染
利用GPT-4生成的PROMPT,我們使用MESHY的Text-to-3D功能,將文字轉換為初步的3D模型。MESHY可能利用生成的PROMPT來了解用戶的 需求和期望,然後根據這些信息生成初步的3D結構。

生成式AI從無到有—太空人
DALL-E等等Text-to-2D軟體或工具生成之圖片

將模型匯入至Blender調整結構及渲染
