賦能未來AI：AMD 發布 ROCm 7 和 AMD Developer Cloud

首頁>科技資訊>>快訊>>>正文

賦能未來AI：AMD 發布 ROCm 7 和 AMD Developer Cloud

摘要

· AMD ROCm? 7 通過顯著的性能提升、分布式推理、企業級解決方案以及對 Radeon 和 Windows 更廣泛的支持，攜手開源社區推動 AI 向前發展。

· AMD Developer Cloud 提供對 AMD Instinct MI系列 GPU 的即時訪問，無需本地硬件，配備預配置的開發環境和免費額度，助力 AI 開發與部署的高效推進。

· 不斷擴展的 AMD AI 生態系統展示了 ROCm 在實際場景中的應用，推動可擴展、開放的 AI 創新。

開發者優先。這是我們在構建 ROCm? 7 和 AMD Developer Cloud 時秉持的核心理念。因為在 AMD，我們不僅是在打造 AI 工具——我們更是在為開發者打造這些工具。

無論你是正在探索首個大語言模型想法的研究生，調整下一代注意力機制的科研人員，還是在超大規模環境中推進生產任務的團隊，我們的目標都是讓你的工作變得更輕松、更高效、更出色。ROCm面向所有人，適用于各種場景。

在過去的一年中，我們將重點轉向提升在關鍵模型和框架上的推理與訓練能力，并持續擴大客戶基礎。我們對開發者支持的承諾帶來了更完善的開箱即用體驗、更簡化的配置流程，以及更高水平的社區參與。因此，客戶正以前所未有的速度部署 AI 能力，這也促使我們加快新功能的發布節奏。Llama 4、Gemma 3 和 Deepseek 等主流模型現已獲得首日支持，我們與開源社區的合作也達到前所未有的緊密程度，進一步體現了我們在履行推動開放且創新的 AI 生態系統的承諾。

在 Advancing AI 2025 上，我們分享了一個愿景。這不僅關乎性能圖表或參數指標，更關乎易用性與可擴展性。我們希望讓任何擁有 GitHub 賬戶的人都能使用 MI系列級別的 GPU；希望通過簡單的 pip install 即可安裝 ROCm；希望用戶能在幾分鐘內從零開始運行 Triton kernel Notebook。

借助 ROCm 7 和 AMD Developer Cloud，這一愿景已成為現實。它開放、無障礙，并為你以自己的方式構建 AI 未來做好了準備。

讓我們深入了解。

ROCm 7：加速開發者賦能與大規模 AI 性能提升

借助 ROCm 7.0，AMD 正在從算法到基礎設施的各個層面加速 AI 創新，為軟件棧重新帶來真正的競爭與開放。ROCm 7.0 旨在滿足生成式 AI 和高性能計算（HPC）工作負載不斷增長的需求，同時通過提升易用性、效率以及活躍的社區協作，重塑開發者體驗。

我們很高興宣布，具備多項新功能與增強特性的 ROCm 7 將于 2025 年第三季度全面開放使用。以下是即將推出的一些重要特性預覽：

性能提升：ROCm 7 在性能方面實現了大幅躍升，其推理能力相比上一代 ROCm 6 提升超過 3.5 倍，訓練性能提升達到 3 倍。這一成果得益于在易用性、性能優化以及對 FP4、FP6 等低精度數據類型支持方面的改進。同時，通信棧的進一步增強也優化了 GPU 利用率和數據傳輸效率。

分布式推理：ROCm 7 引入了面向分布式推理的強大解決方案，依托包括 SGLang、vLLM 和 llm-d 等框架在內的開源生態系統的合作。通過采用開放策略，ROCm 7 與這些合作伙伴共同構建共享接口和底層原語，在 AMD 平臺上實現高效的分布式推理能力。

企業級 AI 解決方案：ROCm Enterprise AI 作為一款強大的 MLOps 平臺首次亮相，專為企業環境中的無縫 AI 運營而設計。它包含利用行業特定數據進行模型微調的工具，并支持結構化與非結構化工作流的集成。同時，通過生態系統內的合作伙伴，開發了諸如聊天機器人和文檔摘要等參考應用。

ROCm 在 Radeon 和 Windows 上的支持：ROCm 7 將使用體驗擴展至云端之外，支持在銳龍筆記本和工作站上的開發，實現從云端到終端的一致創新。預計自 2025 年下半年起，ROCm 將集成于主流發行版本中，將 Windows 打造為一流且全面支持的操作系統，確保在家庭和企業環境中的跨平臺能力和高效性能。

圖 1 展示了 ROCm 7 在 AI 推理性能方面的顯著提升1。

圖 2 顯示在 AI 訓練中，ROCm 7 相較于 ROCm 6 平均實現了 3 倍的性能提升2。

合作共建開放 AI 生態系統

重點 ROCm 生態合作伙伴：

Meta —— 在 AMD Instinct GPU 上運行排名、推薦和內容生成工作負載，包括通過 ROCm 改進支持的 Llama 模型。

Microsoft —— Instinct MI系列產品現已在 Azure 平臺上支持專有和開源模型的生產運行。

Red Hat? OpenShift? AI —— 通過 ROCm 支持 Red Hat OpenShift AI，實現混合云環境下可擴展的 LLM 推理和 AI 運營。

Cohere — 利用 vLLM 和 ROCm 在 AMD Instinct GPU 上部署擁有 1040 億參數的 Command R+ 模型，支持企業級推理需求。

這項深度的合作伙伴協作確保開發者能夠使用業界領先的工具，享受持續的性能提升，并在開放的環境中快速迭代和部署。

AMD Developer Cloud：無障礙接入世界級計算資源

作為對 ROCm 7 的補充，AMD Developer Cloud 現已廣泛面向全球開發者和開源社區開放。該全托管環境提供即時訪問 AMD Instinct MI系列 GPU 的能力，無需任何硬件投資或本地配置。

AMD Developer Cloud 亮點：

零配置環境：可即時啟動基于云的 Jupyter Notebook，無需安裝。只需 GitHub 賬戶或郵箱即可輕松完成設置。

預裝 Docker 容器與靈活性：預裝了主流 AI 軟件的 Docker 容器，最大限度減少了設置時間，同時允許開發者根據具體需求自定義代碼。

生態系統首日支持 MI系列GPU 系統，包括 vVLLM、SGLang、HAO AI 實驗室、斯坦福 AI 實驗室等合作伙伴。

首日支持：包括針對 PyTorch 和 Triton CL 的 Instinct MI系列GPU Cis。

可擴展的計算選項：
- 小型：1 個 MI系列 GPU（192 GB 顯存）
- 大型：8 個 MI系列 GPU（1536 GB 顯存）

免費開發者額度：可申請 25 小時免費云使用時間，通過 ROCm Star Developer Certificate 等項目最多可額外獲得 50 小時使用時間。

無論您是在微調大語言模型（LLM）、進行推理性能基準測試，還是構建可擴展的推理架構，AMD Developer Cloud 都為您提供即刻啟動所需的工具與靈活性，并實現無限擴展。

不斷壯大的 AI 生態系統

AMD Developer Cloud 的獨特之處不僅在于其基礎設施，更在于支持并伴隨其發展的充滿活力的生態系統。

Developer Cloud 生態亮點：

OpenAI、Midjourney 和 Hugging Face：這些領先的 AI 創新者與 AMD 合作，加速推理和訓練工作流，展示了大規模實際應用的成熟度和性能表現。

Red Hat? OpenShift? AI + AMD：通過 ROCm 在 OpenShift AI 上實現 Kubernetes 原生的 AI 生命周期管理及安全的混合云支持。

伯克利天空計算實驗室（Berkeley Sky Computing Lab）與 vLLM：與 AMD 合作，利用 AMD Instinct GPU 和 ROCm 軟件棧推進分布式推理技術。

Cohere 和 Modular Inc：在基于 ROCm 的 AMD 硬件上部署企業級大語言模型（LLM），構建優化的 AI 基礎設施。

這些合作表明，AMD Developer Cloud 不僅僅是一個計算平臺，更是推動下一代 AI 創新的起點。從企業應用到開源實驗，日益壯大的 AMD 合作伙伴生態系統正在積極塑造面向每一位云用戶的工具和服務。

MI系列GPU-080 — 由 AMD 性能實驗室于 2025 年 5 月 15 日進行測試，測試 AMD ROCm 6.x 軟件（vLLM 0.3.3）與 AMD ROCm 7.0 預覽版軟件（vLLM 0.8.5）在配備（8）塊 AMD Instinct MI系列 GPU 的系統上運行 Llama 3.1-70B（TP2）、Qwen 72B（TP2）和 Deepseek-R1（FP16）模型時的推理性能（以每秒處理標記數 TPS 計），測試的批量大小范圍為 1-256，序列長度為 128-204。所述性能提升為所測試的三款大語言模型（LLM）平均 TPS 的提升幅度。

硬件配置
1P AMD EPYC? 9534 CPU 服務器，配備 8 個 AMD Instinct? MI系列（192GB，750W）GPU，Supermicro AS-8125GS-TNMR2，NPS1（每個插槽 1 個 NUMA），1.5 TiB 內存（24 條 DIMM，4800 MT/s，64 GiB/DIMM），4 個 3.49TB Micron 7450 存儲，BIOS 版本：1.8。

軟件配置
Ubuntu 22.04 LTS，Linux 內核 5.15.0-119-generic。

Qwen 72B 和 Llama 3.1-70B：ROCm 7.0 預覽版軟件，PyTorch 2.7.0。

Deepseek R-1：ROCm 7.0 預覽版，SGLang 0.4.6，PyTorch 2.6.0。

對比版本：

Qwen 72B 和 Llama 3.1-70B：ROCm 6.x GA 版本軟件，PyTorch 2.7.0 和 2.1.1。

Deepseek R-1：ROCm 6.x GA 版本軟件，SGLang 0.4.1，PyTorch 2.5.0。

服務器配置可能有所不同，導致測試結果存在差異。性能表現會因配置、軟件版本、vLLM 版本以及是否使用最新驅動和優化措施而異。

MI系列GPU-081 — 由 AMD 性能實驗室于 2025 年 5 月 15 日進行測試，測試ROCm 7.0 預覽版軟件和 Megatron-LM 在配備（8）塊 AMD Instinct MI系列 GPU 的系統上運行 Llama 2-70B（4K）、Qwen1.5-14B、Llama3.1-8B 模型及自定義 Docker 容器時的訓練性能（TFLOPS），并與采用類似配置的 AMD ROCm 6.0 軟件系統進行對比。

硬件配置
1P AMD EPYC? 9454 CPU，8 個 AMD Instinct MI系列GPU（192GB，750W）GPU，American Megatrends International LLC BIOS 版本：1.8。

軟件配置
Ubuntu 22.04 LTS，Linux 內核 5.15.0-70-generic。
ROCm 7.0，Megatron-LM，PyTorch 2.7.0。

對比版本：
ROCm 6.0 公共發布版本軟件，Megatron-LM 代碼分支：

hanl/disable_te_llama2 用于 Llama 2-7B，

guihong_dev 用于 Llama 2-70B，

renwuli/disable_te_qwen1.5 用于 Qwen1.5-14B，
PyTorch 2.2。

服務器配置可能有所不同，導致測試結果存在差異。性能表現會因配置、軟件版本、vLLM 版本以及是否使用最新驅動和優化措施而異。