摘要: 微軟近日宣布了其新的 rStar-Math 技術,這一創(chuàng)新的推理方法可以應用于小型語言模型(SLMs),該技術目前仍處于研究階段,相關研究論文已發(fā)布在 arXiv.org 上
微軟近日宣布了其新的 rStar-Math 技術,這一創(chuàng)新的推理方法可以應用于小型語言模型(SLMs),該技術目前仍處于研究階段,相關研究論文已發(fā)布在 arXiv.org 上,由微軟、北京大學和清華大學的八位作者共同完成。
rStar-Math核心在于,讓小模型具備深度思考的能力,利用蒙特卡羅樹搜索,這種方法模擬人類的 “深度思考”,通過逐步細化數(shù)學問題的解決方案來幫助小型模型自我演進。
在測試中,rStar-Math 技術被應用于多個小型開源模型,包括微軟的 Phi-3迷你模型、阿里巴巴的 Qwen-1.5B(15億參數(shù)模型)和 Qwen-7B(70億參數(shù)模型)。測試結果顯示,所有參與的模型性能都有所提升,其中在 MATH 基準測試中,rStar-Math 甚至超越了 OpenAI OpenAI o1-preview。
rStar-Math除了基準測試成績亮眼,對比優(yōu)勢也十分明顯。它能顯著提升小型語言模型的推理能力,在模型規(guī)模遠小于競爭對手的情況下,超越了許多現(xiàn)有的 System 2 基線方法。它在不同類型的數(shù)學基準測試中都具有很強的泛化能力,在 Olympiad Bench、College Math 和高考數(shù)學等測試中均取得了新的領先成績。
微軟通過 rStar-Math 展示了小型模型的潛力,強調(diào)了高效能的方向。
論文地址:https://arxiv.org/pdf/2501.04519
原標題:100億!《哪吒2》背后是一個新系統(tǒng)的勝利 100億! 《哪吒2》到底做對
快資訊2025-02-14 19:13:38
原標題:《哪吒2》火到國外,激活一個高校專業(yè),動畫專業(yè)擇校策略 近年來,
快資訊2025-02-12 20:30:03