
IT 之家 1 月 17 日音问J9九游会体育,阶跃星辰昨日(1 月 16 日)秘书,自研推理模子 Step Reasoner mini(简称 Step R-mini )上线。
官方暗示,在 AIME 和 Math 等数学基准测试上,Step Reasoner mini 的得益向上了 o1-preview,并排 OpenAI o1-mini。在 LiveCodeBench 代码任务上,也比 o1-preview 欺压更佳。

Step Reasoner mini 通过大领域的强化学习历练,并使用 On-Policy(同计谋)强化学习算法,完满了"文理兼修"。Step Reasoner mini 除了能准确解答数学、代码、逻辑推理问题,还能裕如创意地完成文体施行创作和平日聊天的任务。

IT 之家附体验贯穿:https://yuewen.cn
J9九游会体育