香港中評網：DeepSeek－R1模型訓練方法發布

【大中小】【打印】

DeepSeek－R1模型訓練方法發布

http://www.crntt.hk 2025-09-18 12:39:54

　　中評社北京9月18日電／據科技日報報導，DeepSeek－AI團隊梁文鋒及其同事17日在《自然》雜誌上發表了開源人工智能（AI）模型DeepSeek－R1所採用的大規模推理模型訓練方法。研究表明，大語言模型（LLM）的推理能力可通過純強化學習來提升，從而減少增強性能所需的人類輸入工作量。訓練出的模型在數學、編程競賽和STEM領域研究生水平問題等任務上，比傳統訓練的LLM表現更好。

　　DeepSeek－R1包含一個在人類監督下的深入訓練階段，以優化推理過程。梁文鋒團隊報告稱，該模型使用了強化學習而非人類示例來開發推理步驟，減少了訓練成本和複雜性。DeepSeek－R1在被展示優質的問題解決案例後，會獲得一個模板來產生推理過程，即這一模型通過解決問題獲得獎勵，從而強化學習效果。團隊總結說，未來研究可以聚焦優化獎勵過程，以確保推理和任務結果更可靠。

　　在評估AI表現的數學基準測試中，DeepSeek－R1－Zero和DeepSeek－R1得分分別為77.9%　和　79.8%，在編程競賽及研究生水平的生物學、物理和化學問題上同樣表現優異。

【大中小】【打印】

相關新聞：

政策組合拳　香港堅定發展創科 (2025-09-18 12:28:46)
美國政治中科技右翼的崛起及影響 (2025-09-15 14:10:42)
人工智能拓展服務消費新場景 (2025-09-12 18:59:53)
賦能高質量發展　追求智能向善 (2025-09-12 18:44:56)
第二屆GTI數智香江國際論壇在港舉行 (2025-09-10 15:05:18)
廣西人工智能學院獲批組建成立 (2025-09-07 15:59:54)
AI治理須加強全球合作 (2025-09-05 15:09:42)
算力熱度持續攀升，如何“擴容”？ (2025-09-05 11:39:26)
9月1日起　AI生成合成內容必須添加標識 (2025-09-01 11:26:22)
中國“人工智能＋”加速賦能千行百業 (2025-08-31 14:03:09)