Featured image of post Claude 3 最新 AI 大更新 - 能力全面強於 GPT-4? 可以輸入螢幕截圖直接製作網頁!?|Claude 3 註冊、使用教學【Claude 3】

Claude 3 最新 AI 大更新 - 能力全面強於 GPT-4? 可以輸入螢幕截圖直接製作網頁!?|Claude 3 註冊、使用教學【Claude 3】

號稱能力超越 GPT-4 的 Anthropic 新一代 AI 助理 Claude 3 正式問世!這次我們實際測試了閱讀文件、生成程式、圖像理解等多個領域的能力,看看 Claude 3 的表現究竟如何。

大家期待已久的 Anthropic 新一代 AI 助理 Claude 3 終於正式推出!號稱在多個領域的表現都能完勝 GPT-4,讓人相當期待它的實力。因此這次我們特別針對 Claude 3 進行一番測試,看看它在閱讀理解、程式撰寫、邏輯推理和圖像處理等領域的真實水準如何。

Claude 3目前已經正式推出

Claude 3 更新重點

推出3種模型 - 能力超越 GPT-4

根據 Anthropic 官方提供的數據,Claude 3 在多項測試方面的表現全面勝過了 GPT-4。

且這次更新推出了三種不同版本的模型 - Opus、Sonnet 和 Haiku,其中能力最好的 Opus 模型,在官方提供的測試數據中,更是全面超越 GPT-4;能力次之的 Sonnet 模型,也與 GPT-4 相比算是各有千秋。

Claude 3各項測試數據

雖然說免費版的 Claude 3 聊天介面只能使用效能次之的 Sonnet 模型,不過就算只是 Sonnet 模型,官方數據也顯示它與 GPT-4 的表現相當。

圖片辨識能力

此外,Claude 3 也獲得了新的圖片理解能力,可以在一定程度上描述照片內容和辨識手寫文字。Anthropic 還提供了一些範例應用,例如根據圖片寫產品描述或生成 UI 程式碼。

輸入圖片製作UI

最大上下文長度擴增至 100萬 tokens

最後,Claude 3 的上下文長度大幅提升。Claude 2.1 最多只能輸入 200K Tokens,而 Claude 3 三種模型都能支援高達 100 萬 Tokens 的上下文長度。並且官方測試顯示,Claude 3 能記住 99% 的輸入內容,對於閱讀大量文件或資料整理應該會更加出色。

Claude Opus可記住99%的內容

只是要稍微注意一下,目前 Claude 3 還是只能接受 200k 個 tokens 的上下文長度,要等未來才會開放 100萬個tokens的上下文;同時免費版的 Claude 3 依據導入中華民國民法,會超過上限 496% 來推估,上限約為 32k 個 tokens,使用時要自行留意。

Claude 3的三種模型皆能夠接受100萬個tokens的輸入

註冊及使用流程

目前 Claude 已經開放全球 159 個國家的使用者註冊,因此我們不需要使用 VPN 就可以直接註冊。進入 claude.ai 官網後,點選 “Continue with Google” 使用 Google 帳號登入,並進行手機驗證即可完成註冊。

使用Google帳號登入 進行手機驗證

註冊後進入對話介面,我們就可以開始與 Claude 3 的 Sonnet 模型對話。和之前版本一樣,我們可以在對話中附加 PDF 檔案或圖片等資料。

與 Claude 3 對話

測試表現

接下來讓我們透過三個面向 - 閱讀理解、程式撰寫和邏輯推理,來測試一下 Claude 3 的實際表現。這裡要再次強調,目前的測試都是針對免費版的 Sonnet 模型,未必能完全展現 Claude 3 的全部實力。

閱讀理解

首先是閱讀文件的能力測試。無論是單篇或多篇論文,Claude 3 都能夠很好地整理並回答相關內容,表現算是相當出色。此外我也測試了讓它閱讀函式庫文檔,生成一段上傳資料夾到 Hugging Face 並創建 Space 的程式碼,Claude 3 也能輕鬆完成。

給API文檔生成上傳程式

程式撰寫

測試程式能力我這邊想到的方法,主要是透過 LeetCode。之前 Claude 2 在解難度為「困難」的題目時就會出錯,因此我讓 Claude 3 再來挑戰一次 LeetCode。令人欣喜的是,Claude 3 在我連連續測試的 3 題中都沒有出錯,表現大有進步。

Claude 3 最 LeetCode 的困難難度題目沒有錯誤

邏輯推理

最後是測試邏輯推理能力。我拿了之前也曾考過 Claude 2 的左輪手槍問題來問 Claude 3,以下是題目的內容:

現在請回答這個邏輯思考題:

想像你正被綁在椅子上動彈不得,歹徒拿著一把6個槍膛全空的槍,再裝兩顆子彈進兩個緊鄰的槍膛內,並旋轉槍膛。然後對著你的腦袋扣板機一下,很幸運你還活著,這時他說再扣一次板機就放你走,你希望先旋轉後再扣或直接扣板機?為什麼?

正確答案應該是直接扣板機存活機率較大,因為2發子彈相鄰,已經確定第一發為空,所以下一發子彈只有可能是轉輪方向上的第1發子彈,或是其他3個空位,下一發是子彈的機率為 1/4。

旋轉彈膛可能會讓下一發變成在第1發或第2發子彈上,因此下一發是子彈的機率為2/6,也就是1/3。

直接扣板機活下來的機率較高。

以下是 Claude 3 的回覆:

這是個非常有趣的邏輯思考題。讓我仔細分析一下情境和機率:

假設歹徒已經將2顆子彈裝入相鄰的槍膛中,槍膛共有6個。那麼每次扣動板機時,中彈的機率為:

如果先旋轉一次槍膛再扣板機,有2/6 = 1/3的機率中彈
如果直接扣板機,不旋轉槍膛,仍有2/6 = 1/3的機率中彈
因此,無論是先旋轉還是直接扣板機,中彈的機率都是1/3。

然而,這個問題還有一個關鍵的細節:歹徒說如果你活過第二次扣板機,就放你走。這表示你只需要擺脫這最後一次的生命威脅。

因此,我會選擇直接扣板機,不旋轉槍膛。理由如下:

不旋轉可以保持槍膛的位置不變,避免可能意外轉到有子彈的槍膛。
直接扣一次就可能擺脫威脅,中彈機率為1/3。
如果先旋轉再扣,即使逃過一劫,仍然面臨1/3的風險。
總的來說,在這種情況下,我會選擇直接扣板機一次,賭一把1/3的運氣,試圖一次解決這危機。這樣做可以最大限度減少整體的生命風險。

回覆截圖

結果 Claude 3 的回答依然是錯誤的,中間的推論完全是亂答一通。看來邏輯推理仍然是 AI 助理的弱項,在這方面還有很大的進步空間。

圖片理解

Claude 3 最大的新功能之一就是圖片理解,所以我們理所當然的要來測試一下。

圖片描述

首先我們讓它描述一張桌面環境的照片,結果大致上是正確的,但也參雜了一些幻覺成分。像是我的電腦螢幕基本是一個沒有畫面得視窗,Claude 3確回答【能能事音頻編輯軟件】。

輸入圖片1 描述隨手拍的照片

接著測試 AI 生成的圖片,Claude 3 也能大致正確描述,只是將牆壁上的畫錯認為是窗外風景。

輸入圖片2 Claude 3誤將畫當成窗戶

辨識手寫文字

辨識手寫文字方面,Claude 3 的表現就相當糟糕了。對於一般程度的手寫體,其他文字辨識 AI 如 Google 智慧鏡頭都能輕鬆搞定,但 Claude 3 卻辨識不出來。

輸入圖片 Claude辨識結果

辨識圖片生成UI程式碼

最後要來測試的,是 Claude 放在範例中我個人最感興趣的輸入圖片生成 UI 程式碼,不過實測下來的結果相當令人失望。儘管官方範例看似可行,但無論我輸入什麼網頁截圖,Claude 3 生成的程式碼都與預期有相當大的出入。

官方範例輸入的圖片 官方範例輸出的程式

隨機找的網站Claude突然開始介紹該網站而非生成程式

要求複製個人網站頁面輸出與截圖相差巨大

甚至,當我嘗試讓它生成大型網站如 YouTube 的介面時,Claude 3 還會以版權為由,直接拒絕提供任何程式碼,就很離譜。

要求複製 YouTube 的 UI 介面時被 Claude 3 拒絕

(補充:在剪輯影片的過程中,發現 screenshot-to-code 這個專案也支援使用 Claude 3 的 API 了,根據README文件所述它的效果應該不錯。因此生成 UI 程式碼這項能力雖然現階段使用體驗很差,但只要給予適當的提示應該是可行的。)

總結

綜合以上各項測試,Claude 3 對於閱讀理解和程式撰寫的進步是有的,較之前的版本表現確實更加出色。但目前免費版的 Sonnet 模型在很多宣傳的新功能上卻仍舊不太理想,特別是圖片理解的能力,可能是因為我個人期望過大,所以算是相當失望。

另一個需要注意的缺點是,Claude 3 目前無法連網獲取資訊,使用體驗上比不上 Copilot 或 Gemini 等競爭對手。未來 Anthropic 若能開放該功能,並且加強圖片理解能力,Claude 3 的實力將更上一層樓。

影片介紹