VASA-1:微軟發表超逼真即時照片對嘴技術　一張照片即可生成嘴型、臉部表情！並且可以自由調整頭部角度

近期微軟公開了一個名為 VASA-1 的研究，期功能是可以將一張照片加上音檔，轉換成對應嘴型的影片。此項生成技術相當逼真，除了臉部表情細節、眼神的飄動都有製作出來，在Demo中還可以看到能夠自由調整頭部角度。

人工智慧技術持續推進，讓虛擬數位人像更具互動性與真實感，已成為各界努力的目標。微軟日前公開了名為 VASA-1 的新框架，能透過單一人像照片與語音輸入，即時生成高品質、逼真動態的說話人像影像，在提升數位通訊真實度的同時，也有望運用於教育、醫療等領域。

圖片來源/Microsoft Research

過去虛擬人像技術雖能模擬嘴型動作，卻難以真實捕捉複雜的臉部細節表情，因此常顯得僵硬、不自然。而 VASA-1 突破以往限制，將整體臉部動態、表情細節、眼神活動、甚至頭部姿態等，一併訓練與還原。

以下是 VASA-1 的一些 Demo 影片:

VASA-1的核心，是利用擴散Transformer模型統一建模臉部動態的機率分布，並融入3D技術輔助捕捉臉部結構，加上專門設計的損失函數，使其具備高度精準重現人像細節的能力。

不僅如此，VASA-1還可高效率運算，在消費級Nvidia RTX 4090顯卡上，即時生成模式可達到512x512解析度的40fps影像，延遲僅170ms，足以應用在需要低延遲即時互動的通訊場合。

隨著AI技術快速演進，VASA-1開創了虛擬人像生成的新里程碑。透過逼真的數位人像，未來無論是遠距視訊會議、線上教學，甚至是醫療輔助系統等，都可能有更身臨其境的體驗。

技術風險

然而，這項新技術的高度真實感，也引發了一些值得關注的風險隱患。一旦被不法分子獲取並加以濫用，VASA-1同樣也可能被用於製造詐騙、散佈假訊息等違法行為。因此監管單位及科技業者，勢必得審慎評估並預為因應。

不可諱言，VASA-1為AI帶來了前所未有的應用可能性，但其潛在風險同樣也不容小覷。我們有必要在發展此類新興技術的同時，也審慎考量其可能帶來的負面衝擊，並積極研議防範之道，才能真正使AI技術造福人類。