QQ:355128452
导航菜单

新闻资讯

《蛙》读后感

机器之心报道编辑:杜伟、泽南没等来 DeepSeek 官方的 R2,却迎来了一个速度更快、性能不弱于 R1 的「野生」变体!这两天,一个名为「DeepSeek R1T2」的模型火了!这个模型的速度比 R1-0528 快 200%,比 R1 快 20%。除了速度上的显著优势,它在 GPQA Diamond(专家级推理能力问答基准)和 AIME 24(数学推理基准)上的表现均优于 R1,但未达到 R1-0528 的水平。在技术层面,采用了专家组合(Assembly of Experts,AoE)技术开发,并融合了 DeepSeek 官方的 V3、R1 和 R1-0528 三大模型。当然,这个模型也是开源的,遵循 MIT 协议,并在 Hugging Face 上开放了权重。Hugging Face 地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera经过进一步了解,我们发现:DeepSeek R1T2 是德国一家 AI 咨询公司「TNG」推出的,模型全称为「DeepSeek-TNG R1T2 Chimera」(以下简称 R1T2)。该模型除了前文提到的在智力水平和输出效率之间实现完美平衡之外,相较于这家公司的初代模型「R1T Chimera」,智力大幅跃升,并实现了突破性的 think-token 一致性。不仅如此,即使在没有任何系统提示的情况下,该模型也能表现稳定,提供自然的对话交互体验。在评论区,有人误以为这个模型出自 DeepSeek 官方,并且认为他们是不是也在走相同的路线:给模型起各种名称,就是不用主系列下一代版本号?更多的人认可该模型「找到了智能与输出 token 长度之间的最佳平衡点,并且提升了速度」,并对该模型在现实世界的表现充满了期待。模型细节概览从 Hugging Face 主页来看,R1T2 是一个基于 DeepSeek R1-0528、R1 以及 V3-0324 模型构建的 AoE Chimera 模型。该模型是一个采用 DeepSeek-MoE Transformer 架构的大语言模型,参数规模为 671B。R1T2 是该公司 4 月 26 日发布的初代模型「R1T Chimera」的首个迭代版本。相较于利用双基模型(V3-0324 + R1)的初代架构,本次升级到了三心智(Tri-Mind)融合架构,新增基模型 R1-0528。该模型采用 AoE 技术构建,过程中利用较高精度的直接脑区编辑(direct brain edits)实现。这种精密融合不仅带来全方位提升,更彻底解决了初代 R1T 的token 一致性缺陷。团队表示,R1T2 对比其他模型具备如下优劣:与 DeepSeek R1 对比:R1T2 有望成为 R1 的理想替代品,两者几乎可以通用,并且 R1T2 性能更佳,可直接替换。与 R1-0528 对比:如果不需要达到 0528 级别的最高智能,R1T2 相比之下更加经济。与 R1T 对比:通常更建议使用 R1T2,除非 R1T 的特定人格是最佳选择、思考 token 问题不重要,或者极度需求速度。与 DeepSeek V3-0324 对比:V3 速度更快,如果不太关注智能可以选择 V3;但是,如果需要推理能力,R1T2 是首选。此外,R1T2 的几点局限性表现在:R1-0528 虽推理耗时更长,但在高难度基准测试中仍优于 R1T2;经 SpeechMap.ai(由 xlr8harder 提供)测评,R1T2 应答克制度(reserved)显著高于 R1T,但低于 R1-0528;暂不支持函数调用:受 R1 基模型影响,现阶段不推荐函数调用密集型场景(后续版本可能修复);基准测试变更说明:开发版由 AIME24+MT-Bench 变更为 AIME24/25+GPQA-Diamond 测评体系,新体系下 R1 与初代 R1T 的分差较早期公布数据更大。最后,关于 R1T2 中重要的 AoE 技术,可以参考以下论文。论文标题:Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors论文地址:https://arxiv.org/pdf/2506.14794参考链接:https://x.com/tngtech/status/1940531045432283412
  • 🌈女人同房高潮后松手能恢复吗🌈书信手拉手作文550字

    手拉手是什么?它指的是一个人的手拉起另一个人的手,再拉起另外一个人的。下面小编为您整理了书信手拉手作文550字,希望能帮到您! 书信手拉手作文550字(1) ______同学: 您好。 我是阳江市东城一小小学五(1)班的一名小学生。收到这封信,您一定觉得很

    2025-07-05
  • 🌈两边配三边别墅靠海边🌈综合素质心得体会

    导语:古人说“先立人后立学”,指的就是德育的重要性。以下是小编为大家整理分享的综合素质心得体会,欢迎阅读参考。 篇一: 综合素质心得体会 行员心得—提高自身综合素质 提高自身的综合素质,核心问题是事实求是把握风险;是怎么带动引导提高基层客户经

    2025-07-05
  • 🌵如何在麻将上做标记不易被发现🌵给老师的一封信毕业篇

    在平日的学习、工作和生活里,许多人都写过书信吧,书信是向亲人、朋友、同志问候、谈话、联系事宜的一种应用文书。你所见过的书信是什么样的呢?下面是小编收集整理的给老师的一封信毕业篇,欢迎大家借鉴与参考,希

    2025-07-05
  • 🍉两庄一闲137公式打法🍉植树节活动心得体会的作文集锦

    在日常学习、工作或生活中,大家对作文都再熟悉不过了吧,写作文是培养人们的观察力、联想力、想象力、思考力和记忆力的重要手段。那么一般作文是怎么写的呢?以下是小编为大家收集的植树节活动心得体会的作文集锦,

    2025-07-05
  • 🌵庄闲稳赢的十种方法🌵伊索寓言的故事读后感

    当阅读完一本名著后,你有什么总结呢?何不写一篇读后感记录下呢?那么你会写读后感吗?下面是小编整理的伊索寓言的故事读后感,欢迎大家分享。伊索寓言的故事读后感1我读过许多书,但唯有《伊索寓言》这本书让我学

    2025-07-05
  • 🌈庄闲的20个口诀🌈(通用)赠汪伦改写

    六年级文言文改写题目:《赠汪伦》改写300字。《赠汪伦》描写的是朋友之间珍贵的友情,也是李白的一首名作。这篇改写不足之处还望老师同学们指导。在大唐天宝年间,汪伦曾给“诗仙”李白写过一封信,信上说道题目

    2025-07-05
  • 🌵庄和闲的顺口溜🌵不抱怨的世界读书笔记

    认真读完一本名著后,你心中有什么感想呢?记录下来很重要哦,一起来写一篇读书笔记吧。到底应如何写读书笔记呢?以下是小编整理的不抱怨的世界读书笔记,仅供参考,欢迎大家阅读。不抱怨的世界读书笔记1黄金周假期

    2025-07-05
  • 🌵现场牛牛发牌🌵三年级周未日记(通用32篇)

    时间过得真快,一天又过去了,我们对人和事情也有了新的看法,不妨坐下来好好写写日记吧。相信许多人会觉得日记很难写吧,下面是小编帮大家整理的三年级周末日记,仅供参考,欢迎大家阅读。  三年级周末日记 1  一个初春的午后阳光明媚、春暖花开,我和几位小朋友吃饱喝足来到草地上玩耍。  我们往远处一看,绿油油的灌木丛生机勃勃,再往近处一看,各种小花都开放了,她们百花争艳非常好看,紫色的叶子上还有一对七星瓢虫,呀!那片叶子上还有一些小露珠哦。小红说

    2025-07-05
  • 🍉一点配三边是什么意思🍉发放防暑降温费的通知

    在当下社会,接触并使用通知的人越来越多,上级单位向下级单位对某一项工作的布置、要求、意见等往往用通知的形式传达。你知道通知怎样才能写的好吗?以下是小编收集整理的发放防暑降温费的通知,希望能够帮助到大家

    2025-07-05
  • 🌵戒赌最狠的三个方法🌵汪曾祺经典散文

    贴秋膘 人到夏天,没有什么胃口,饭食清淡简单,芝麻酱面(过水,抓一把黄瓜丝,浇点花椒油);烙两张葱花饼,熬点绿豆稀粥两三个月下来,体重大都要减少一点。秋风一起,胃口大开,想吃点好的,增加一点营养,补偿补偿夏天的损失,北方人谓之贴秋膘。 北京人所

    2025-07-05