Featured image of post 【Groq】免費 Llama 3 API!Groq 免費使用 Llama 3 70B!超高速推理 一秒 1200 Tokens!OpenAI兼容 可用在各種專案上

【Groq】免費 Llama 3 API!Groq 免費使用 Llama 3 70B!超高速推理 一秒 1200 Tokens!OpenAI兼容 可用在各種專案上

Groq 是一個提供免費線上使用開源語言模型的平台,使用自行研發的 LPU 而非常見的 GPU,可以用更少的硬體資源,提供更快的推理速度。同時 Groq 平台還提供了免費的 OpenAI 兼容 API,讓我們可以以此來呼叫 Llama 3 70B 的模型,將他用在一些專案上。今天就來跟大家介紹如何使用。

Groq 是一個提供免費線上使用開源語言模型的平台,使用自行研發的 LPU(Language Processing Unit) 而非常見的 GPU,可以用更少的硬體資源,提供更快的推理速度。同時 Groq 平台還提供了免費的 OpenAI 兼容 API,讓我們可以以此來呼叫 Llama 3 70B 的模型,將他用在一些專案上。今天就來跟大家介紹如何使用。

Groq網站介面截圖

網站網址:
https://groq.com/

Groq網站基本使用教學

1. 註冊 Groq 帳號

首先,我們先到 Groq 的網站,在左下角可以登入並註冊 Groq 的帳號。Groq 平台可以直接使用 Google 帳號登入不需要手機驗證等步驟,非常方便。

2. 選擇模型

登入後,在右上角可以選擇要使用的模型,目前 Groq 提供 Llama 3 8B、Llama 3 70B、Gemma 7B、Mixtral 8x7B 等模型。

Groq 模型選擇

3. 輸入文字測試

選好模型輸入文字,就可以開始使用了。

LPU 的速度有多驚人

從以下的圖可以看到,輸入「你好」進行測試。Groq 幾乎瞬間就跑出結果了!速度高達 1364 Tokens/s!

Groq 生成速度

一般家用主機最高階顯示卡 RTX 4090 使用 llama.cpp 跑 Llama 3 8B FP16 精度,速度大約是 50 多 Tokens 每秒。而 Groq 確跑出了高達 1364 Tokens/s 的速度,差了幾十倍。

測試數據來源: https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference

RTX 4090 跑 Llama 3 8b FP16 的速度

再隨便輸入幾個問題測試看看,可以看到 Groq 的速度大約都落在 1200 ~ 1300 Tokens/s 左右,真的非常驚人!

Groq 的 OpenAI 兼容 API

除了直接在網頁上使用,Groq 還提供了 OpenAI 兼容的免費 API,讓我們可以透過 API 來使用一些第三方的聊天介面,像是 NextChat 等,或者也可以將它使用在一些需要調用 ChatGPT API 的專案裡,免費使用 Llama 3 等開源大型語言模型來代替 ChatGPT。

Groq API 使用教學

1. 進入 GroqCloud 後台:

點擊畫面下方「GroqCloud」選項進入後台。

2. 取得 API Base URL:

點擊左側「Documentation」>「API Reference」,就可以看到 API 網址。這邊大家就根據不同專案的需求,選擇要複製到整串網址的哪個位置。

目前的 API 網址是: https://api.groq.com/openai/v1/chat/completions

3. 取得 API Key:

點擊左側選單「API Keys」,進入 API Keys 頁面,點擊「Create API Key」按鈕,命名後點擊「Submit」即可看到 API Key。注意!這個API只會在 Submit 後的視窗出現,關掉該視窗後便無法再查看。

點擊 Create API Key

輸入名稱並按 Submit Groq API Key

4. 設定第三方應用程式:

將 API Base URL 和 API Key 貼到要使用的第三方應用程式,例如 NextChat。

NextChat API 設定

5. 開始使用:

選擇 Groq 提供的模型,例如 Llama 3 70B,即可開始使用。

NextChat 呼叫 Groq 使用 Llama 3 70B 模型

Groq 的 Whisper 語音轉文字功能

Groq 的 API 也支援使用 Whisper 語音轉文字模型,我們可以直接使用 GroqCloud 上方的「Playground」來測試 Whisper 的效果。

1. 選擇 Whisper 模型:

在 Playground 頁面,選擇「whisper-large-v3」模型。

Groq 選擇 Whisper 模型

2. 上傳音檔:

點擊錄音或上傳檔案按鈕,選擇要轉錄的音檔。

Groq Whisper 上傳音檔

3. 開始轉錄:

點擊「Submit」開始轉錄,Groq 的轉錄速度非常快,8 分鐘的音檔大約只需要 4-5 秒就能完成。

Groq Whisper 轉錄結果

4. 轉換成 SRT 字幕檔:

目前 Playground 轉錄出來的字幕是沒辦法直接使用的,我們需要使用工具轉換一下,這邊我有簡單的製做了一個小工具(用 Claude 3.5 Sonnet 作的),點擊「Copy JSON」複製轉錄結果,然後到 Hugging Face Space 上的小工具,貼上 JSON 並點擊轉換,即可下載 SRT 字幕檔。

工具連結:
https://huggingface.co/spaces/ADT109119/Whisper-JSON-to-SRT

複製 JSON 利用 HF Space 上的小工具轉換成 SRT 字幕

END

Groq 是一個非常佛心的平台,提供了免費且超高速的開源語言模型服務,OpenAI 兼容的 API 也讓它更容易被使用在各種專案上。在 GitHub 上載的一些需要使用 ChatGPT API 的專案,有些就可以使用 Groq 的 API 來改成使用 Llama 3 70B 模型(雖然說效果可能沒有比 ChatGPT 好,但至少免費,然後速度很快)。

影片介紹