Featured image of post 開源繪圖模型 FLUX.1 震撼登場!超越 Midjourney V6.0 、SD3 與 DALL·E 3 |目前最強開源繪圖模型!|FLUX.1 生圖測試|【FLUX.1】

開源繪圖模型 FLUX.1 震撼登場!超越 Midjourney V6.0 、SD3 與 DALL·E 3 |目前最強開源繪圖模型!|FLUX.1 生圖測試|【FLUX.1】

近期 Black Forest Labs 這間由前 StabilityAI 員工新創的公司,開發了全新開源 AI 繪圖模型 ── FLUX.1,其生成效果超越 Midjourney V6.0 和 DALL·E 3,且提供免費線上使用版本。今天就來跟大家介紹一下該模型,以及測試模型生成的效果。

AI 繪圖領域近期出現了一款令人震撼的產品:FLUX.1。由前 StabilityAI 成員 Robin Rombach 創立的 Black Forest Labs 公司,開發出這款全新開源 AI 繪圖模型,其表現相當驚人,不僅超越了閉源的 Midjourney V6.0 和 DALL·E 3,也超越了 Stable Diffusion 3 的各個型號。

今天我們就來跟大家介紹一下 FLUX.1 個個模型,跟大家介紹有哪些線上免費使用方法,同時測試一下這個模型生成的效果。

Black Forest Labs 官網

https://blackforestlabs.ai/

FLUX.1 模型介紹

FULX.1 的 3種模型等級

FLUX.1 是 Black Forest Labs 推出的首款 AI 繪圖模型,分為 schnell、dev、pro 三種型號,生成能力依序遞增,而生成速度則是以 schnell 最快。

FLUX.1各型號模型

schnelldev 為較低階模型,由 FLUX.1 pro 蒸餾而來。

但要注意,schnell、dev 兩個模型的參數量都是 12B,schnell 會比較快,是因為它只需要跑 4 個 step 就可以產圖,而 dev 模型需要跑 20 ~ 28 個 step。

schnell 模型採用 Apache 2.0 協議開源。 dev 模型使用非商用授權開源。 pro 模型僅能透過 API 調用。

FLUX.1 各模型的開源協議

FLUX.1的能力表現

根據 Black Forest Labs 官方數據,devpro 模型在圖像細節、提示一致性、風格多樣性等方面的評分,皆超越了 Midjourney V6.0、DALL·E 3 HD 等模型。

此外,Black Forest Labs 也表示,schnell 是目前最先進的少步驟模型 (few-step model),在只需 4 個 step 就能生成一張圖片的同時,生成圖片的評分卻能與 Midjourney V6.0 相當。

FLUX.1可輸出不同的長寬比

FLUX.1 所有型號皆支援各種長寬比和解析度,從 10 萬像素到 200 萬像素的解析度,可滿足使用時的不同需求。

FLUX.1 生成圖片 Demo

目前 Black Forest Labs 的官網上展示了 FLUX.1 模型生成的範例圖片,無論是寫實或非寫實風格,FLUX.1 都能輕鬆駕馭,展現出令人驚艷的繪圖能力。圖片點開也有附上 Prompt,可以供我們自行測試使用。

官網上有 Demo 圖片

FLUX.1 可指定生成的文字

除了上述評分指標,從 FLUX.1 的 Demo 圖片中可以發現,許多圖片都包含文字元素。觀察其提示詞後發現,FLUX.1 可以直接將文字嵌入生成的圖片中,讓使用者能更精準地生成包含文字的場景。

FLUX.1 可以生成指定文字的圖片

FLUX.1 所需的硬體資源(如: RAM、VRAM)

根據在 Reddit 上查到的資料,建議若要在本地執行 FLUX.1,電腦至少要有 32GB 的 RAM,顯卡則是至少要有 12GB 的 VRAM。若 VRAM 稍微不足,例如只有 8GB VRAM,雖然說也一樣可以跑,但會明顯降低產圖速度。

已 RTX 3070 為例,RTX 3070 僅有 8GB VRAM,產一張圖需要大約 3 分鐘,但 RTX 3060 12G,卻可以在 2 分鐘左右完成一張圖。 即便理論核心性能 3070 比 3060 高 40% 以上,卻因為 VRAM 不夠,而讓速度變得緩慢。

RTX 3060 12G 可以在 2 分鐘左右完成一張圖 RTX 3070 理論核心性能比 3060 高 40% 以上確需要 3 分鐘來完成一張圖

免費線上體驗 FLUX.1

若電腦配備不足,Black Forest Labs 也與 Replicate 和 FAL 合作,提供免費線上使用 FLUX.1 模型的服務,甚至連 pro 模型都有一定額度的免費使用次數。讓我們可以試用一下 FLUX.1 強大的生圖能力。

Replicate:
schnell | dev | pro

Fal.ai:
schnell | dev | pro

此外,Black Forest Labs 也在 Hugging Face Space 上提供 schnelldev 模型的免費試用空間。不想要使用 Replicate 與 Fal 的人,也可以選則使用。

Hugging Face Space 連結:
schnell | dev

FLUX.1 模型實測

接下來我們就來測試生成一些圖,讓大家看看 FLUX.1 的生成效果如何。

schnell、dev、pro 同 Prompt

測試 1:

schnell dev pro

提示詞:
A realistic modern interior with soft natural light streaming through large windows, a serene woman kneeling gracefully on a plush rug, wearing an elegant flowing dress, surrounded by delicate houseplants and minimalist decor, a warm and inviting ambiance with gentle shadows and a peaceful, tranquil expression on her face.

測試 2:

schnell dev dev(9:16) pro

提示詞:
A realistic modern interior during a rainy day, with soft light filtering through rain-streaked windows, a serene woman kneeling gracefully on a plush rug, wearing an elegant flowing dress, surrounded by delicate houseplants and minimalist decor, raindrops gently tapping against the glass, creating a calm and soothing atmosphere, and a peaceful, contemplative expression on her face.

測試 3:

schnell dev pro

提示詞:
A realistic close-up of a serene woman standing in the rain under a colorful umbrella, capturing only her upper body. She is wearing a stylish trench coat, with raindrops gently falling around her. Her face is softly illuminated by the city lights in the background, with a peaceful and contemplative expression, and water droplets glistening on her hair and shoulders, creating a serene and tranquil atmosphere.

測試 4:

schnell dev pro

提示詞:
A glass is placed on a wooden table, illuminated by a chandelier, with a floor-to-ceiling window in the background, outside the window it is raining and raindrops gently tapping against it

從圖片中可以看出,FLUX.1 dev 與 pro 模型的生成效果都非常優秀,雖然 dev 模型生成的細節不如 pro 模型豐富,但也已相當出色。

相較之下,schnell 模型與 dev 和 pro 模型的差距較為明顯,臉部、頭髮等部位的處理較為平滑或模糊,整體畫面細節較少。

手部生成測試

接下來,我測試了讓 schnell 和 dev 模型生成握手和女性用手遮臉的圖片,畢竟過去 AI 繪圖對於手部的處理,或數量的處理都不是很好。最後的得出 FLUX.1 在手部生成方面表現算是優異,dev 模型生成的圖片幾乎沒有出現多一根手指或手指扭曲變形等問題。schnell 模型則是有稍微較高機率出現此類問題,但並非每次都會發生。

schnell dev

提示詞:
Frontal shot of woman covering face with hands


schnell dev

提示詞:
Two people shaking hands

基於這個結果,我進一步測試了生成鍵盤的圖片。令人驚訝的是,schnell 模型雖然在按鍵數量上有些許誤差,但整體來說已經相當接近真實鍵盤。dev 模型生成的圖片則幾乎完全正確,僅需微調按鍵上的字母即可。

schnell dev

提示詞:
a computer keyboard on wooden table

文字生成測試

這邊我簡單測試了 schnell 與 dev 模型生成文字的能力,使用雙引號 " 將需要顯示的文字括起來,結果顯示兩者都能成功生成文字,但 schnell 模型在生成包含文字的圖片時,有較高機率出現缺字或拼寫錯誤的情況,dev 模型則幾乎沒有此問題。中文的部分經過測試,確定無法使用這個方法讓生成的圖帶有文字。

schnell dev

提示詞:
A note paper on a wooden table that says “l’ll putbreakfast in the microwave for you” with an illustration of a love heart at the end, using a ball pen


schnell 出現拼寫錯誤

提示詞:
An old alley with the words “Remember to subscribe my channel” spray-painted on the wall

其他風格測試

FLUX.1 在生成動畫風格等其他風格的圖片時,表現也相當出色。雖然與寫實風格相比,schnell 模型與 dev 模型的差距較不明顯,但 dev 模型生成的圖片在細節呈現上依然更勝一籌。

schnell dev

提示詞:
A young girl with brown hair and blue eyes, bathed in magical light, transforming into a powerful magical girl. Her outfit changes into a frilly dress with flowing ribbons, and a magical staff appears in her hand. Dynamic pose, anime style, magical effects, vibrant colors, sense of wonder.


schnell dev

提示詞:
An ethereal anime girl with flowing silver hair and sparkling golden eyes, dressed in flowing white and gold robes, floating amongst the deep blue and purple stars. Celestial bodies, galaxies swirling, dreamlike atmosphere, soft lighting, beautiful and otherworldly.

FLUX.1 dev 模型進階測試

由於 dev 模型是目前可供下載使用的最強大模型,我針對 dev 模型進行了更多測試,以下直接展示圖片效果:

dev-1 dev-2

dev-3 dev-4 dev-5

提示詞:
A woman in a long black dress commands attention as she sits perched atop a weathered fire hydrant. The camera angle, low and looking upwards, emphasizes the towering presence of the stately, vintage building behind her, its grand facade seemingly reaching for the sky. She leans back slightly, one hand casually resting on the hydrant while the other gently touches her hair, her silhouette a stark contrast against the imposing architecture. The interplay of light and shadow creates a dramatic chiaroscuro effect, adding to the cinematic quality of the image. The overall composition is one of power and elegance, juxtaposing the delicate beauty of the woman against the unyielding strength of the urban environment. Upper body close-up.

可以看到,dev 模型已經能夠生成極具質感且細節豐富的圖片,效果媲美照片。


dev-1 dev-2 dev-3

提示詞:
An old painting hangs on the wall. The content of the painting is the junction of heaven and hell. The armies of angels and demons are fighting fiercely. Giant swords and flames are intertwined. Light and darkness collide with each other. The sky is torn apart and the earth collapses. , the gods sent down divine punishments, and the trumpets of doomsday judgment sounded. Epic scenes, dynamic compositions, grandeur, cinematic imagery, Artgerm, Greg Rutkowski.

在生成場景中的一幅畫時,dev 模型不僅能精準呈現畫作和畫框的細節,還能推測出老舊畫作應該放置在老舊房間的場景,表現令人驚艷。

拿官網的 Demo 圖 Prompt 輸入 dev 模型

這邊簡單的拿一些官網上的 Demo 圖輸入給 dev 模型,看看模型,輸出的效果如何。以下的圖片左邊為我生成的測試圖片右邊邊為官網Demo

test-1 官網demo-1

提示詞:
a portal into a mythical forest on the wall of my small messy bedroom


test-2 官網demo-2

提示詞:
A machine generating endless of polaroid images and blowing them up into the air. Realistic National geographic photo


test-3 官網demo-3

提示詞:
close up fujifilm photo of a mans eye and face


test-4 官網demo-4

提示詞:
old man with glasses portrait, photo, 50mm, f1.4, natural light, Pathéchrome

FLUX.1 與 Midjourney V6.1 對比

最後,我使用相同的 prompt 分別在 Midjourney 和 FLUX.1 各版本模型上生成圖片,比較兩者的效果差異。

midjourney V6.1 FLUX.1 pro FLUX.1 dev

提示詞:
Birds Eye View shot of multiple blue skinned alien goddess with gold makeup, in the style of detailed fantasy art, Indian religious iconography, dark goddess, solarizing master, divinatory objects, talismans, and amulets, gold blue and indigo, ancient temple. –style raw


midjourney V6.1 FLUX.1 pro FLUX.1 dev

提示詞:
grey wool trousers with cropped jacket, high-waisted wide leg pants, women’s fashion suit set for office workwear or evening wear


midjourney V6.1 FLUX.1 pro FLUX.1 dev

提示詞:
Playful clay astronauts setting up a lunar laboratory, conducting experiments, cartoon style, muted pastels, minimal lunar environment, a pastel plain background. Bright and cheerful, professional photography, high dynamic range, vibrant colors, clear details, fun and playful, colorful theme, crisp and clean


midjourney V6.1 FLUX.1 pro FLUX.1 dev

提示詞:
Happy businessman sitting at his desk with laptop and looking to camera while standing office workers talking in the background, portrait photography, Canon EOS R5 Mark II Mirrorless


測試後個人感覺,雖然 FLUX.1 的 pro 和 dev 模型表現出色,但 Midjourney V6.1 依然展現出更強大的實力。Midjourney V6.1 不需要過多的提示詞,就能生成充滿朦朧美感或獨特風格的圖片,而 FLUX.1 則需要額外添加提示詞才能達到類似效果。

當然,這個測試並非絕對公平,畢竟 Midjourney 可以指定繪畫風格,且官網 Showcase 的提示詞大多是針對 Midjourney 特性所設計,對 FLUX.1 的效果未必理想。

總結

FLUX.1 作為一款開源 AI 繪圖模型,其表現已足夠驚艷,尤其是 dev 模型,在免費使用的前提下,能生成出如此高品質的圖片,實屬難得。

Black Forest Labs 也預告未來將推出文字轉影片的模型,令人相當期待。

Black Forest Labs 預告未來將推出文字轉影片的模型

影片介紹