数万亿参数Kimi K2研发工程师的月球黑暗一面讲述了背后的故事

[TechWeb]最近的7月14日新闻,最近的国内大型Unicorn Moon的《黑暗面》已正式发布并开放了Moe Architecture Basic Model Kimi K2的最新一代,总卷为1万亿(1T)参数,这导致了热烈的圆圈讨论。 Kimi Internal称为K2 R&D组一个“肮脏的组”。许多Kimi研发人员参加了“ Dirty”,然后在Zhihu进行了“个人答案”,并从许多角度深入讨论了其背后的研发过程。作为基因侧推理的研究和发展工作者,齐胡讨论了Liu Shaowei K2模型结构设计的目的。他说,K2模型基于DeepSeek V3结构的轮廓,如何选择适当的参数,以便在PaeSercise和识别成本与V3相当的前提下,该模型的损失显着较低。 “与V3相比,将上述四个更改结合在一起,我们将获得一个推理解决方案,该解决方案在相同数字中使用1.5次EPS的EPS,但不包括沟通的一部分,理论的预填充和解码的时间更少。提出,这是一个全自动的代理商数据工厂,它通过完整的洪水模拟过滤了出色的代理轨迹数据。 “另一个黑暗的人研发人和Zhihu回答说,贾斯汀·黄(Justin Wong)谈到了为什么基米(Kimi K2)选择开放资源,说开放资源意味着它可以利用社区权力来改善我们的开放资源,我们看到了一个社区,使MLX实施了K2,4bit vol vol volUME等,这确实无法履行我们的力量。 “迪伦(Dylan)是月球黑暗部分的研究员,Zhihu回答说,K2确实是一个新生婴儿。尽管它有点“精神”,但它仍然有很多明显的缺点。“作为一名相关的学生在训练训练中,我感到有些害羞。我希望K2基本模型潜力可以继续在该版本的后续版本中发布。 “据了解,虽然开发人员发布了AI成就,但他们尤其选择在发行Zhihu背后进行详细思考。6月,月亮的黑暗部分也发布了代理产品。就个人而言,解释了产品的技术思想和亮点。
请尊重我们的辛苦付出,未经允许,请不要转载BB电子糖果派试玩官方版_BB电子糖果游戏的文章!