深入解析DeepSeek V3與R1:揭示先進技術背後的成功秘密

深入解讀DeepSeek V3與R1,揭示以混合專家MoE與FP8訓練的高效密技,讓大規模模型在相對較低成本下迎頭趕上。核心數據:V3約2.8百萬GPU時數、對照Llama3的31百萬,成本約5.6百萬美元;R1結合推理與強化學習,並以知識蒸餾落地至小型模型。文章還分享在本地透過Ollama執行DeepSeek的步驟與風險。