人工智慧技術持續推進,讓虛擬數位人像更具互動性與真實感,已成為各界努力的目標。微軟日前公開了名為 VASA-1 的新框架,能透過單一人像照片與語音輸入,即時生成高品質、逼真動態的說話人像影像,在提升數位通訊真實度的同時,也有望運用於教育、醫療等領域。
過去虛擬人像技術雖能模擬嘴型動作,卻難以真實捕捉複雜的臉部細節表情,因此常顯得僵硬、不自然。而 VASA-1 突破以往限制,將整體臉部動態、表情細節、眼神活動、甚至頭部姿態等,一併訓練與還原。
以下是 VASA-1 的一些 Demo 影片:
VASA-1的核心,是利用擴散Transformer模型統一建模臉部動態的機率分布,並融入3D技術輔助捕捉臉部結構,加上專門設計的損失函數,使其具備高度精準重現人像細節的能力。
不僅如此,VASA-1還可高效率運算,在消費級Nvidia RTX 4090顯卡上,即時生成模式可達到512x512解析度的40fps影像,延遲僅170ms,足以應用在需要低延遲即時互動的通訊場合。
隨著AI技術快速演進,VASA-1開創了虛擬人像生成的新里程碑。透過逼真的數位人像,未來無論是遠距視訊會議、線上教學,甚至是醫療輔助系統等,都可能有更身臨其境的體驗。
技術風險
然而,這項新技術的高度真實感,也引發了一些值得關注的風險隱患。一旦被不法分子獲取並加以濫用,VASA-1同樣也可能被用於製造詐騙、散佈假訊息等違法行為。因此監管單位及科技業者,勢必得審慎評估並預為因應。
不可諱言,VASA-1為AI帶來了前所未有的應用可能性,但其潛在風險同樣也不容小覷。我們有必要在發展此類新興技術的同時,也審慎考量其可能帶來的負面衝擊,並積極研議防範之道,才能真正使AI技術造福人類。