张家界市水务app
衢州市审计公开app
清远市招标信息app
通辽市第一高中app
泰州市旅游监督app
常州市工程造价app
阳江市公共法律服务app
常州市旅游监督app
怀化市通讯协会app
临沂市第四高中app
随州市征地服务app
东营市养老服务app
南宁市养老服务app
德阳市专题专栏app
咸宁市残联app
自贡市农业补贴app
吐鲁番市农业app
朔州市农业补贴app
辽源市粮食管理app
绍兴市公益app
自贡市土木工程app
曲靖市第六小学app
菏泽市台风信息app
伊春市天气监控中心app
德阳市应急管理app
松原市中心校app
阜阳市不良信息举报app
马鞍山市农业局app
朝阳市公共法律服务app
本溪市第二中学app
汾西县教育信息app
乌兰县铁路管理app
岳西县工商局app
正宁县城乡建设app
柏乡县第三高中app
措美县街道办app
武功县妇联app
乳源瑶族自治县铁路管理app
类乌齐县政府公报app
武宣县第五小学app
喀喇沁左翼蒙古族自治县申建app
称多县灾害救助app
武义县第二高中app
甘洛县风力发电app
沅陵县铁路管理app
芮城县农业app
集贤县司法管理app
广南县政府公报app
福海县建设局信息app
平塘县税收公开app
阜新蒙古族自治县国土信息app
乌什县第四高中app
昌乐县政务服务app
泸西县公共法律服务app
武强县防洪app
吴桥县第二小学app
繁峙县第六中学app
宁都县农业app
泽库县第一中学app
本站 2 月 24 日消息,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 训练”的新技术报告,并宣布推出“Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。使用了 5.7 万亿个 token,在更低的浮点运算次数(FLOPs)下实现了更好的性能,从而提升了帕累托效率边界。
月之暗面称,团队发现 Muon 优化器可通过添加权重衰减、仔细调整每个参数的更新幅度等技术进行扩展,并具备如下亮点:
这些技术使得 Muon 能够在大规模训练中开箱即用,无需进行超参数调优。扩展法则实验表明,与计算最优训练的 AdamW 相比,Muon 实现了约 2 倍的计算效率。
本次论文所使用的模型为 Moonlight-16B-A3B,总参数量为 15.29B,激活参数为 2.24B,其使用 Muon 优化器,在 5.7T Tokens 的训练数据下获得上述成绩。
我们的模型不仅突破了当前的 Pareto 前沿,还在训练所需的 FLOP 数大幅减少的情况下,达到了比以往模型更优的性能。
我们开源了一个分布式版本的 Muon 实现,它在内存使用和通信效率上都进行了优化。同时,我们也发布了预训练模型、经过指令调优的模型以及中间训练检查点,旨在为未来的研究提供支持。
本站附有关链接如下:
GitHub:点此前往
Hugging Face :点此前往