Featured image of post VASA-1:微軟發表超逼真即時照片對嘴技術 一張照片即可生成嘴型、臉部表情!並且可以自由調整頭部角度

VASA-1:微軟發表超逼真即時照片對嘴技術 一張照片即可生成嘴型、臉部表情!並且可以自由調整頭部角度

近期微軟公開了一個名為 VASA-1 的研究,期功能是可以將一張照片加上音檔,轉換成對應嘴型的影片。此項生成技術相當逼真,除了臉部表情細節、眼神的飄動都有製作出來,在Demo中還可以看到能夠自由調整頭部角度。

人工智慧技術持續推進,讓虛擬數位人像更具互動性與真實感,已成為各界努力的目標。微軟日前公開了名為 VASA-1 的新框架,能透過單一人像照片與語音輸入,即時生成高品質、逼真動態的說話人像影像,在提升數位通訊真實度的同時,也有望運用於教育、醫療等領域。

圖片來源/Microsoft Research

過去虛擬人像技術雖能模擬嘴型動作,卻難以真實捕捉複雜的臉部細節表情,因此常顯得僵硬、不自然。而 VASA-1 突破以往限制,將整體臉部動態、表情細節、眼神活動、甚至頭部姿態等,一併訓練與還原。

以下是 VASA-1 的一些 Demo 影片:

VASA-1的核心,是利用擴散Transformer模型統一建模臉部動態的機率分布,並融入3D技術輔助捕捉臉部結構,加上專門設計的損失函數,使其具備高度精準重現人像細節的能力。

不僅如此,VASA-1還可高效率運算,在消費級Nvidia RTX 4090顯卡上,即時生成模式可達到512x512解析度的40fps影像,延遲僅170ms,足以應用在需要低延遲即時互動的通訊場合。

隨著AI技術快速演進,VASA-1開創了虛擬人像生成的新里程碑。透過逼真的數位人像,未來無論是遠距視訊會議、線上教學,甚至是醫療輔助系統等,都可能有更身臨其境的體驗。

技術風險

然而,這項新技術的高度真實感,也引發了一些值得關注的風險隱患。一旦被不法分子獲取並加以濫用,VASA-1同樣也可能被用於製造詐騙、散佈假訊息等違法行為。因此監管單位及科技業者,勢必得審慎評估並預為因應。

不可諱言,VASA-1為AI帶來了前所未有的應用可能性,但其潛在風險同樣也不容小覷。我們有必要在發展此類新興技術的同時,也審慎考量其可能帶來的負面衝擊,並積極研議防範之道,才能真正使AI技術造福人類。

影片介紹