輝達攜手學界推出Eagle 2.5：8B參數媲美 GPT-4o

近期，由 輝達 (NVIDIA)、南京大學、香港理工大學 及 羅格斯大學 的研究團隊攜手合作，推出了一項名為 Eagle 2.5 的重大 AI 研究成果。這款專為 長上下文多模態學習 設計的視覺語言模型 (Vision Language Model, VLM)，為業界在處理長影片理解和高解析度圖像方面所面臨的挑戰，提供了一個創新的解決方案。

Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

Eagle 2.5 is a versatile multimodal model designed to efficiently process extensive contextual information with consistent performance scaling as input length increases.

https://nvlabs.github.io/EAGLE/

核心亮點：8B 參數模型匹敵巨頭

Eagle 2.5 最令人矚目的成就，在於其 驚人的效率與性能。其 80億參數版本 (Eagle 2.5-8B) 在多項基準測試中表現突出，尤其在 Video-MME 基準測試中（處理 512 個輸入幀），取得了 72.4% 的優異成績。

這項成果使其性能足以 媲美甚至超越 如 OpenAI 的 GPT-4o、阿里巴巴的 Qwen2.5-VL-72B 以及商湯科技的 InternVL2.5-78B 等參數規模遠大於自身的頂級商業及開源模型。這證明了透過架構和訓練方法的創新，可以在不無限擴大模型規模的前提下，達成頂尖的性能水平。

三大關鍵技術創新

Eagle 2.5 的卓越表現主要歸功於以下三大創新設計：

資訊優先採樣 (Information-First Sampling):
- 圖像區域保留 (Image Area Preservation, IAP): 優化圖像分割與處理方式，最大限度保留原始圖像的區域、長寬比及細節資訊，減少失真。
- 自動降級採樣 (Automatic Degradation Sampling, ADS): 根據上下文長度動態調整視覺與文字資訊的比例，確保文字完整性的同時，最大化利用視覺內容。
漸進式混合後訓練 (Progressive Mixed Post-Training): 在訓練階段逐步增加模型能處理的上下文長度 (如從 32K tokens 到 128K tokens)，使模型能更好地適應不同長度的輸入，提升資訊密度，並穩定訓練過程。
多元化驅動的資料配方 (Diversity-Driven Data Recipe):
- 結合大量開源數據與團隊精心打造的 Eagle-Video-110K 資料集。
- 採用「先求多樣，再求質量」的數據收集策略，確保訓練資料的廣泛性與代表性，特別是補充了現有資料集中匱乏的長影片內容。

Eagle-Video-110K：專為長影片理解打造

為了解決現有資料集普遍缺乏長影片的問題，研究團隊特別創建了 Eagle-Video-110K 資料集。此資料集透過從多個來源收集影片，並利用 CLIP 嵌入進行多樣性篩選，顯著增加了訓練集中長影片的比例。其雙重標註流程（由上而下的章節描述/問答 + 由下而上的片段問答/時空錨點）為模型提供了更豐富、更深入的影片理解素材，顯著提升了模型處理高幀數 (≥128 幀) 影片的能力。