NVIDIA NIM API 完整教學：免費取得金鑰，呼叫 Llama、DeepSeek 等上百個 AI 模型

Q: build.nvidia.com 真的完全免費嗎？

申請 API 金鑰與使用線上 Playground 測試都不需要付費，也不需要信用卡。但免費額度會受到速率限制，如果需要更高的呼叫量或正式商用，就需要評估自架部署或企業授權方案。

Q: 我可以把模型部署到自己的伺服器上嗎？

可以。每個模型頁面都提供 Deploy 分頁，說明如何下載對應的 NIM 容器部署到自己的 NVIDIA GPU 環境，但正式商業環境需要搭配 NVIDIA AI Enterprise 授權。

Q: 程式碼一定要用 Python 嗎？

不一定。因為 API 是標準的 REST 介面，任何能發送 HTTP 請求的程式語言都可以使用，也有對應的 OpenAI 相容 SDK 可供 JavaScript、Java 等語言使用。

NVIDIA NIM API 完整教學：免費取得金鑰，呼叫 Llama、DeepSeek 等上百個 AI 模型

如果你最近想找免費的 AI 模型 API 來做專案原型，或是單純想知道 Llama、DeepSeek 這些開源模型在效能上的真實表現，NVIDIA 推出的 build.nvidia.com 平台很可能是你還沒注意到的寶藏。這個平台把上百個生成式 AI 模型集中在一個介面裡，讓你不用寫一行程式碼就能直接在瀏覽器裡測試，準備好之後，只需要一支免費的 API 金鑰，就能把同樣的模型接進自己的應用程式。

這篇文章會帶你完整認識這個平台的定位、核心功能，並用實際畫面與程式碼，示範從零開始申請金鑰、呼叫模型 API 的完整流程，讓你讀完就能動手做。

§相關文章，還可以參閱：

build.nvidia.com 是什麼？一句話看懂這個平台

build.nvidia.com 是 NVIDIA 官方的生成式 AI 模型目錄，背後串接的是 NVIDIA NIM（NVIDIA Inference Microservices）推論微服務架構。簡單來說，NVIDIA 把上百個熱門的 AI 模型，包含開源社群模型與 NVIDIA 自家的 Nemotron 系列，預先優化、部署在自己的 DGX Cloud 機房裡，再透過統一的 API 介面開放給開發者使用。

你可以把它想成一個「AI 模型超市」：不需要自己準備 GPU、不需要處理複雜的環境設定，打開瀏覽器選一個模型，馬上就能測試對話、寫程式、生成圖片或處理語音。等你確定要正式上線，平台也提供一條清楚的升級路徑，從免費 API，到下載自架的 NIM 容器，再到 NVIDIA AI Enterprise 企業授權，三個階段一路串接起來。

平台核心功能有哪些？

build.nvidia.com 的功能大致可以分成模型探索、線上測試、API 串接和進階部署四個層次。以下逐一說明。

1. 龐大的模型目錄

NVIDIA NIM API 完整教學：免費取得金鑰，呼叫 Llama、DeepSeek 等上百個 AI 模型

目錄裡涵蓋的模型種類相當廣，包括對話與推理用的大型語言模型（像 Llama、DeepSeek、GLM、Qwen 系列）、視覺與多模態模型、語音辨識與合成模型，還有專門用於機器人與自動化場域的 Physical AI 模型。每個模型頁面都會清楚標示支援的功能（例如是否支援工具呼叫、串流輸出），方便你依需求挑選。

2. 線上 Playground，免寫程式直接測試

每個模型都附有一個互動式的測試介面，你可以直接在網頁上輸入問題、調整參數，立刻看到模型的回應結果。這個步驟完全不需要任何程式基礎，很適合用來快速判斷一個模型是否符合你的需求，再決定要不要進一步串接。

3. OpenAI 相容的 API 介面

這應該是對開發者最實用的設計：NVIDIA 把所有模型的呼叫格式都做成跟 OpenAI API 相容。也就是說，如果你原本的程式是用 OpenAI 的 SDK 寫的，幾乎只需要更換 base_url 和 api_key 這兩個參數，其他程式邏輯完全不用改。對於想要測試「換模型但不想重寫程式」的人來說，這點非常省事。

4. Blueprints 與 Agentic Skills

除了單一模型呼叫，平台也提供 AI Blueprints（預建的工作流範本，例如 RAG 檢索增強生成、AI Agent 流程）以及 Agentic Skills（可供 AI Agent 直接呼叫的預建能力模組）。這些範本可以讓你不用從零開始設計系統架構，直接參考官方提供的最佳實踐去調整。

免費版有什麼限制？申請金鑰要花多少錢

申請 build.nvidia.com 的 API 金鑰完全免費，不需要信用卡，但會受到速率限制（Rate Limit）的約束。每個模型的限制不太一樣，目前並沒有公開統一的額度表，你可以登入後在帳號的使用量介面裡查看自己當下的速率上限。

如果你的需求只是學習、做原型測試或個人專案，免費額度通常綽綽有餘。但若是要長時間、高併發地呼叫（例如串接到正式營運的服務上），就會建議考慮下載 NIM 容器自架，或是申請 NVIDIA AI Enterprise 的 90 天免費試用，評估正式授權的可行性。

操作範例：從申請金鑰到呼叫模型，一步一步教你

接下來進入實作環節。我們會用 Meta 的 Llama 3.1 8B Instruct 模型作示範，因為它是平台官方教學常用的入門模型，操作邏輯也適用於目錄裡其他幾百個模型。

步驟一：在網頁上直接測試模型

打開瀏覽器，前往 build.nvidia.com
在搜尋框輸入「llama-3」，點選 meta/llama-3.1-8B-instruct 模型
進入 playground 的測試頁面頁面上會看到幾個官方提供的範例問題（例如「Write a limerick about the wonders of GPU computing.」），點選其中一個，或自己輸入文字後送出

送出後，請求會被送到 NVIDIA DGX Cloud 上的模型 API，回應結果會直接顯示在頁面上。這個步驟完全不需要寫程式，適合先確認模型的回答品質再決定要不要往下串接。提醒一下，build.nvidia.com 的介面偶爾會調整，如果你看到的畫面跟截圖略有出入，以實際畫面上的按鈕為準即可，操作邏輯都是一樣的：選模型 → 輸入問題 → 看回應。

步驟二：申請免費 API 金鑰

在模型頁面的左側面板右上方，點擊「Generate API Key」
輸入你的 Email，點擊「Next」。如果你已經有 NVIDIA 帳號，系統會要求你登入；如果沒有，會引導你設定密碼，完成 NVIDIA Developer Program 的註冊
完成註冊或登入後，系統會自動跳出一個視窗顯示你的新金鑰，點擊「Copy Key」把它複製下來

金鑰格式會是 nvapi- 開頭的一長串字串，請務必把它儲存在安全的地方（例如環境變數），因為這個畫面通常只會顯示一次。

步驟三：用 curl 直接呼叫 API

如果你想先用最簡單的方式驗證金鑰是否能用，可以直接在終端機用 curl 送出請求：

curl https://integrate.api.nvidia.com/v1/chat/completions -H "Authorization: Bearer nvapi-你的金鑰" -H "Content-Type: application/json" -d "{\"model\": \"meta/llama-3.1-8b-instruct\", \"messages\": [{\"role\": \"user\", \"content\": \"用三句話介紹什麼是 GPU 平行運算\"}], \"max_tokens\": 256, \"temperature\": 0.5}"

如果一切設定正確，你會收到一個跟 OpenAI API 格式幾乎一致的 JSON 回應，如下圖：

重點欄位是 choices[0].message.content，這裡就是模型實際生成的回答文字。如果收到 401 錯誤，通常代表金鑰填錯或格式不對；如果收到 429 錯誤，代表觸發了速率限制，稍等一下再試即可。

步驟四：用 Python 串接到自己的程式裡

因為 build.nvidia.com 的 API 是 OpenAI 相容格式，你可以直接安裝官方的 openai 套件，只需要替換 base_url 和 api_key 就能使用：

pip install openai

from openai import OpenAI

client = OpenAI(
    base_url="https://integrate.api.nvidia.com/v1",
    api_key="nvapi-你的金鑰"
)

response = client.chat.completions.create(
    model="meta/llama-3.1-8b-instruct",
    messages=[
        {"role": "user", "content": "幫我寫一首關於 GPU 運算之美的打油詩"}
    ],
    temperature=0.7,
    max_tokens=300
)
print(response.choices[0].message.content)

跑起來之後，終端機就會印出模型生成的文字內容。如果你想要串流輸出（像 ChatGPT 那種逐字顯示的效果），只需要加上 stream=True 參數，再用迴圈逐段讀取回應即可：

stream = client.chat.completions.create(
    model="meta/llama-3.1-8b-instruct",
    messages=[{"role": "user", "content": "解釋一下什麼是 Transformer 架構"}],
    stream=True,
    max_tokens=400
)

for chunk in stream:
    delta = chunk.choices[0].delta
    if delta and delta.content:
        print(delta.content, end="", flush=True)

這段程式碼示範的邏輯，幾乎可以套用到目錄裡任何一個支援 Chat Completions 的模型，只要把 model 參數換成對應的模型 ID（例如 deepseek-ai/deepseek-r1 或其他你想測試的模型字串，可以在模型頁面上直接複製）。

適合什麼樣的人使用？

build.nvidia.com 對於想低成本驗證想法的開發者、學生與小型團隊來說相當友善。如果你正在評估要用哪個開源模型來做專案，或者單純想體驗 DeepSeek、GLM、Qwen 這些近期討論度很高的模型，不需要自己準備昂貴的 GPU 設備，透過這個平台就能快速上手。

但如果你的應用已經進入正式營運階段，需要穩定的延遲表現、明確的服務等級協議（SLA），或是資料必須留在自己的機房內以符合法規要求，這時候免費 API 的速率限制就會是瓶頸，建議直接評估自架 NIM 容器或 NVIDIA AI Enterprise 授權方案。

常見問題 FAQ

Q1：build.nvidia.com 真的完全免費嗎？

申請 API 金鑰與使用線上 Playground 測試都不需要付費，也不需要信用卡。但免費額度會受到速率限制（每分鐘可呼叫的次數依模型而異），如果需要更高的呼叫量或正式商用，就需要評估自架部署或企業授權方案。

Q2：我可以用這個平台串接哪些模型？

目錄裡包含上百個模型，涵蓋 Llama、DeepSeek、GLM、Qwen、Kimi 等開源語言模型，以及 NVIDIA 自家的 Nemotron 系列，還有視覺、語音與多模態模型。具體清單會持續更新，建議直接到平台的 Models 頁面用分類或搜尋功能尋找。

Q3：申請的 API 金鑰會過期嗎？

金鑰僅用於 API 測試，有效期為 6 個月。

Q4：我可以把模型部署到自己的伺服器上嗎？

可以。每個模型頁面都提供「Deploy」分頁，裡面會說明如何下載對應的 NIM 容器，部署到你自己的 NVIDIA GPU 環境（雲端、資料中心或工作站皆可）。不過自架部署若用於正式商業環境，需要搭配 NVIDIA AI Enterprise 授權。

Q5：程式碼一定要用 Python 嗎？

不一定。因為 API 是標準的 REST 介面，理論上任何能發送 HTTP 請求的程式語言都可以使用，本文示範的 curl 範例就是最基本的驗證方式。如果你習慣用 JavaScript、Java 或其他語言，也都能找到對應的 OpenAI 相容 SDK 直接套用。

結語

build.nvidia.com 把「測試模型」和「正式部署」這兩件原本門檻很高的事情，壓縮成幾個按鈕跟幾行程式碼就能完成的流程。對於想要快速驗證 AI 應用想法的人來說，這是一個值得放進工具箱的平台，免費的入口，但背後接的是一條通往正式生產環境的完整路徑。

🔔 不錯過任何精彩內容