为什么他们都渴望视觉理解?文字| 《中国企业家》记者实习生孙 1月27日,月之暗面开源Kimi K2.5,是K2与K2-Thinking并存演化而来的新模型。在官方视频中,杨智霖将这款车型描述为“越野车型”。视觉理解、代码、多模态、思维模式和非思维模式、代理和代理组都封装在同一个模型中。除了编码能力大幅提升之外,K2.5的亮点还在于“视觉理解能力”的大幅提升,可以分析用户上传的照片和视频,并据此创建程序并回答问题。顺便说一句,在 K2.5 推出的同一天,DeepSeek 还推出了新一代型号 OCR-2。该模型在视觉理解方面也取得了长足的进步,解决方案也更加创新。 DeepSeek创新了“视觉因果流”机制,消除了需要按照固定的顺序扫描图像,并且可以像人类一样根据图像内容的语义和逻辑动态调整阅读顺序。梁文峰和杨志林之间的默契很难用巧合来解释,因为他们多次探索相同的技术路线,并多次在同一天公布成果。为什么他们指向视觉理解之山?四次“冲突” 事实上,梁文峰和杨智霖总是选择同时发布产品和模特文章,但这并不是“冲突”。分析他们的工作发现,他们在技术路线上“和而不同”的创新关键逻辑都是基于对大规模模型和行业问题的相似判断。 2025年1月20日,DeepSeek-R1连接并迅速爆发。随后紧接着kimi 1.5也发布了,同样采用了“基于绩效奖励的强化学习”路线。 2月18日2025年,梁文峰和杨志林发表关于注意力架构的最新论文,重点解决Transformer注意力机制下长上下文处理效率低、算力消耗过大等行业痛点。其中,梁文峰作为联合作者提出了DeepSeek-NSA(Native Sparse attendance)架构,通过分层压缩、关键令牌选择、滑动窗口策略,显着降低长上下文处理的算力消耗。同日,作为文章的共同作者,杨志林提出了MoBA(Mixed Block Attention)架构,并选择了与NSA不同的优化路径。基于专家混合(MoE)原理,该模型可以通过动态门控和锁定机制在全注意力和稀疏注意力之间自主切换。不过,NSA更注重硬件层面的优化,而MoBA则倾向于在Trans内部进行灵活的创新。以前的框架。尽管它们的路径不同,但它们都有相同的中心目标:解决效率障碍并使模型对于复杂任务更加实用。 2025年4月,DeepSeek将发布DeepSeek-Prover-V2数学推理模型。子目标分解的强化学习促进了定理证明,使模型能够“自检”推理过程的合理性。大约在同一时间,《月之暗面》还发布了一个用于数学推理的特殊模型。这也采用了核心的“自验证”方法,大大提高了定理证明的稳定性和准确性。这种“下降”是因为人工智能的深度推理在当时仍是业界的技术挑战。数学推理作为核心场景,可应用于科研、金融、工程等领域,直接关系到大规模模型的实现能力。两者同时专注于这个方向化,不断寻求验证人工智能采用的价值。在最近的同台较量中,DeepSeek的OCR-2和Dark Side of the Moon的K2.5针对的是视觉理解。这次也不是巧合。几个月前,《中国企业家》从知情人士处获悉,Deepseek 和 Yue Dark 正在暗中较量,看谁能先创造出具有前沿特征的视觉语言模型,让大型模型不再“盲目”。结合 SuperCLUE 2025 年 7 月发布的多模态评估报告,我们可以找到我们解决视觉语言模型的努力的答案。报告指出,视觉语言模型普遍面临三大挑战:1、缺乏专业领域知识,尤其是医学图像分析、工业应用等专业领域得分较低。 2、复杂场景适应能力差,导致自动驾驶、空间等任务表现不佳推理。 3、如果多模态融合深度不足,图文不匹配,决策准确率将低于65%。我们发现视觉理解是大规模模型超越“语言交互”走向“全场景交互”的必由之路,也成为限制模型商业化的瓶颈。梁文峰和杨志林同时关注这一领域,基于对行业问题的相似看法。第一个突破的人将能够在多式联运商业化竞赛中占据领先地位。我们怎样才能攀登视觉理解的高峰?事实上,在大型语言模型层面,国产模型正在逼近“中国企业家”。不过,业内专家告诉《中国企业家》,虽然国外被称为“真三”的谷歌Gemini、OpenAI GPT 5.2和Claude在视觉理解方面正在“迈向”下一阶段,但国内大型模型仍处于复苏和“补偿”阶段e.例如,几个月前,网上进行了一次大型模型测试,以识别 e.l 汽车模型。他们的车主给特斯拉打上了小米的标志,许多主要车型都被误认为是他们。 “这表明在多模式模型中整合视觉信息仍然很困难,”上述人士表示。在本次发布中,杨志林演示了一段视频,让K2.5可以通过识别照片和视频来复制网站功能。此前,大型国家模型需要实现更多语言和指令。 “你必须准确地告诉模型左上角是一个按钮,并且你必须在说明中写下该要求。” “眼见为实”,科技博主海拉尔告诉《中国企业家》。在大多数情况下,用户发现很难一次性用语言描述他们想要什么。编译前端界面中视觉理解的核心重要性是将模型从“阅读文本”更新为“理解和使用信息”K2.5是月暗面的第一张视觉理解答卷。团队使用约150亿个token联合预训练原生多模态架构设计和大规模视觉文本进行持续训练。视觉智能体智能系统就是建立在这个基础上的。综上所述,K2.5从视觉理解编码入手,分解智能体的任务,强化其编码能力。接近月暗面的人士告诉中国企业家,训练的关键在于缺乏多模态数据和数据处理。“普通人每天拍的照片对模型来说是没有用的。模型需要高质量的数据来学习。像维基百科这样的数据只是中等质量。”《月之暗面》也重申了 K2.5 中对“技术品味”的追求。“我们在用户界面和软件的美学设计上让模型更加浪漫和娴熟。如果是这样,您需要什么样的数据o 与它比较?上述人士表示:“这一切都需要对世界有更大的审美理解。”1月29日一早,月之暗面团队在Reddit上回答网友提问。杨智霖表示:“模型的核心是品味,因为智能本身是不可替代的。”Hyrule评价Kimi是第一个真正“揭秘”的国产模型,编程优秀。AI从业者徐再石也表示:“K2.5与其他多模态模型最大的区别在于它更紧密地将视觉与编程和代理能力结合起来。这降低了开发门槛,让非程序员也可以截图、录屏来制作原型。”除了前端设计之外,我们还与K2.5一起推出了Kimi Code,它可以直接在终端内运行,也可以集成到VSCode、Cursor等常规编辑器中。简单来说,K2.5自动检测用户的程序冲压流程,并可以将用户现有的技能(AI代理技能包)迁移到新的工作流程中。相比K2.5专注于工程级问题解决,DeepSeek更多地在视觉技术的本源上进行创新。当传统的视觉语言模型(VLM)扫描图像时,它通常从左到右、从上到下扫描。然而,当人类理解图像时,他们会做出自己的语义顺序和选择,例如先阅读标题,然后阅读文本。 OCR-2还模仿人类逻辑,取代了原来的CLIP编码器,并引入了新的视觉编码器DeepEncoder V2。这种架构打破了以固定顺序(从左上到右下)扫描图像的限制,而是模仿了人类视觉的“因果流”逻辑。从这个角度来看,DeepSeek和Dark Side of the Moon弥补了视觉理解上的缺陷,但这些创新发生在不同的环节。 K2.5基于多模态模型,提升工程性能并更接近商业实施。另一方面,DeepSeek 则专注于通过回到技术起源来进行创新。集群重新定义Agent 除了视觉理解之外,很多业内人士都对K2.5的Agent集群能力赞不绝口。 Xu Zaishi 致力于大规模预训练语言模型。他承认 Anthropic 的 Claude Opus 在编程场景中效果很好。原因之一是工具调用非常擅长执行任务。然而,许多镜头型号会增加调用工具时出错的可能性。 K2.5中引入的Agent Swarm(Agent Cluster)架构从单个Agent演变为Agent集群。这意味着模型的功能得到了显着改进。在杨智霖对特工群体的介绍中,K2.5不再是一个能独自完成所有事情的特工,而是一个临时组建的“特工团队”。这意味着一旦分配了任务,主代理就可以生成主代理人控制着数百名“分代理人”。与单代理模式相比,任务执行效率提高高达 4.5 倍。 Moondark 团队展示了一段视频,介绍如何将 40 篇心理学和人工智能文章引入 Kimi Agent 群。 K2.5首先多次调用该工具,依次读取文档。然后我派生了一些子代理来编写不同的章节。最后,代理主团队负责审核和批准结果,将所有内容总结在几十页的 PDF 摘要中。同时运行数百个代理并不容易,平衡的调度程序是一个巨大的挑战。在训练的早期阶段,子代理可能会由于协调失败而放弃并行策略。 Moon Dark团队采用了PARL(并行智能体强化学习)训练方法。团队通过分级奖励引导模型建立稳定的偏好。此外,还有 100 名客服人员同时工作通信和计算能力的沉重负担。代理可以重新读取信息并相互干扰,效率可能会低于单一模型。团队必须教会模型如何自主、动态地调整代理数量和资源分配。据《中国企业家》介绍,整组K2.5代理是使用K2.5模型完全自动创建和协调的,用户无需预先定义子代理或工作流程。如果子代理发生故障,主代理可以检测到并立即重新安排。徐再石解释说,缺乏预定义意味着K2.5座席群体是动态分工的。模型本身确定任务所需的角色,并自动创建并行工作的子代理。 1月29日,在回答网友关于K2.5的“代理群”如何解决运行100个并行推理流时延迟和上下文信息丢失的问题时,连抓Darkside of the Moon的ng Wuxin表示:K2.5专家的每个子组都可以独立执行子任务,而不会“侵蚀”或污染主调度器的上下文。这意味着子代理本质上有自己的工作内存,并且仅在必要时才将结果发送给程序员。 “从K2开始,悦暗团队的每一步都走得非常坚定和一致。”徐再石认为,悦暗的产品业态还需要时间打磨。但从长远来看,代理集群技术的进步将具有巨大的价值。 “这意味着未来的智能代理将不再需要手动设计工作流程,并将真正利用人类手段的力量来释放。”
(编辑:何欣)
每日更新