2026世界杯赛事竞猜最新版V2026.FIFA 唐杰夜深发文,AI从器具到劳能源只差这一步

文 | 字母 AI
跟着黄仁勋踏向前去特朗普的空军一号,智谱股价暴涨 36.9%,收报 1150 港元,创下历史新高。
从 1 月 8 日上市时的 116.20 港元刊行价算起,智谱的股价在短短四个多月内增长了 900%。
而就在暴涨之前不到 24 小时里,智谱首创东谈主唐杰夜深在 X 上发布了一条推文,大谈了我方对通盘这个词 AI 产业的念念考。

整条推文的中枢是"长周期任务"。
请贯注,英文原文是" Long-Horizon Tasks ",直译过来应该是长视线。但是在 AI 语境中,它是指一个任务需要越过较万古候、较多关节、较多中间气象才能完成。
他以为,2026 年最可能的毁坏点不在于模子变得更灵巧,而在于模子轻率捏续完成复杂、多关节的任务。
在唐杰看来,一朝模子能捏续策画、试错、判断和委派,它冲击的就不仅仅程序员遵守,而是整套东谈主类奉行层。
以前 AI 替东谈主写几句话,各人还能说它仅仅器具。一朝 AI 能斡旋几天我方干活、我方判断、我方委派结果,它要替代的就不仅仅某个岗亭了,它可能会澈底替代某一个行业。
长周期任务是什么?
往时两年,咱们评价一个大模子的好坏,主要看它在单次对话中的阐扬。复兴是否准确、逻辑是否明晰、说话是否通顺。
这本体上是在测试智商。但长周期任务需要的不是智商,是奉行力。
贪图明确但旅途不敬佩,需要捏续数个小时、数天甚而数周的遥远推动。
唐杰在推文顶用黑客看惯例子。
他说,缝隙挖掘是典型的长周期任务。需要阅读深广代码、暴露系统架构、搭建测试环境、构造袭击输入、考证缝隙灵验性,终末撰写工夫叙述。
这个过程充满试错,因为莫得程序谜底,只可依赖申饬和直观。
你不可只读一遍代码就找到缝隙,你要反复去尝试不同的袭击向量,在每次失败后诊疗念念路,在每次见效后考证可靠性。
如果 AI 能在这种抵挡性、申饬化的界限站稳脚跟,那么它对正常程序员、数据分析师、法务助理等行状的冲击只会来得更狠恶。
因为这些行状的任务固然也很复杂,但抵挡性更弱,申饬依赖度更低,更容易被系统化的进程障翳。
唐杰以为2026世界杯赛事竞猜最新版V2026.FIFA,估量 AI 的花式,正在从看对话、谜底,变成看"长周期"任务完成才智。
一个模子可能在单次对话中阐扬完好,但在需要捏续责任 8 小时的任务中平庸出错、丢失凹凸文、重叠无效操作。
另一个模子可能单次复兴不够精彩,但能踏实地推动任务,记着每一步的结果,在遇到禁绝时自动换旅途。
那么后者在长周期任务中的价值,就高于前者。
腾讯的姚顺雨曾建议一个主张,今天模子太依赖预窥察里的"参数化学问",确切全国更需要能从刻下 Context 里学习并哄骗的模子。
当模子信得过启动跑任务的时候,它需要查文档、跑代码、测接口、读日记、调参数。
一个能熟练调用这些器具的模子,比一个记着了通盘 API 文档但不会践诺操作的模子有用得多。
此外,以前的模子过于被迫,它得恭候东谈主类发出请示后才能奉行,何况每发出一次请示,只可奉行一步。
但在长周期任务里,给定贪图后,模子需要自主策画和奉行。
被迫反馈只需门径悟刻下问题,主动推动需门径悟通盘这个词任务的结构、刻下所处的阶段、下一步应该作念什么、如果失败了该若何诊疗。
这需要模子具备某种"任务感",知谈我方在作念什么,为什么这么作念,作念到哪一步了。
当有了这一切后,AI 就启动干与"结果委派"阶段。
企业和个东谈主不再知足于" AI 帮我写了一段代码",而是期待" AI 帮我完成了通盘这个词功能模块的开发、测试和部署"。
这是从助手到承包商的越过。助手需要你告诉它每一步作念什么,承包商只需要你告诉它最终要什么结果。
长周期任务的主张并不清新。学术界早就在商讨强化学习、任务策画、多步推理。
唐杰以为,恰是因为如下几个重要工夫毁坏,长周期任务在本年变得可以收场。
第一个等于顾虑。
百万级凹凸文窗口和 RAG 工夫的熟悉,让模子轻率在万古候任务中保捏对名目配景、历史尝试和用户偏好的顾虑。
Claude Opus 4.7 赞助 1M token 凹凸文窗口,GLM-5.1 赞助 200K token。这意味着模子可以在一个会话中记着数十万字的代码、文档、对话历史。
它不会因为任务太长而健忘最初的贪图,不会重叠如故尝试过的失败有谋略,不会丢失中间关节的重要信息。
第二个是捏续学习。
固然信得过的捏续学习仍然坚苦,但模子更新周期正在急剧镌汰。全球最初模子如故作念到月度更新,国内模子紧随后来。如果来岁能作念到周更新,事实上就接近了捏续学习的遵守。
模子不需要在窥察时就学会通盘学问,它只需要能快速接收新器具、新 API、新业务律例。当更新周期鼓胀短,模子就能跟上现实全国的变化速率。
第三个是自我判断、自我进化。
唐杰猜想,Claude 可能如故收场了基础的自窥察才智。
模子我方写代码、清洗数据、生成合成数据,然后用这些数据窥察我方。GPT-5.5 就在用模子生成的代码和测试用例来校正我方的编程才智。
它启动知谈我方的谜底是否靠谱,知谈什么时候该重试、求证或回滚。
这种才智在长周期任务中至关垂死。因为莫得东谈主会在傍边监督每一步,模子必须我方判断刻下线案是否可行,是否需要诊疗,是否如故达到贪图。
但这条旅途也充满风险。
自我进化意味着东谈主类对模子窥察过程的截止力不才降。当模子启动我方生成窥察数据、我方评估窥察遵守时,咱们若何确保它不会偏离东谈主类的价值不雅?咱们关于 AI 的价值又是什么?
唐杰的判断是,这些才智通过小巧的工程" tricks "收场。这意味着进展速率会比学术界预期的快得多,因为工程化的迭代周期远短于学术和工夫上的立异周期。
你只需要在现存架构上作念更好的 prompt 工程、更精深的强化学习、更可靠的器具集成。
智谱的 GLM-5.1 在 SWE-Bench Pro 上达到 58.4%,卓绝 GPT-5.4 的 57.7% 和 Claude Opus 4.6 的 57.3%,等于这种工程化迭代的结果。
智谱:在长周期任务赛谈上的计策押注
看成智谱的首创东谈主兼首席科学家,唐杰发这条 X 显然不仅仅工夫不雅察,还多了一层计策宣言。
智谱在国内大模子阵营中的特质是工夫基础底细塌实,但交易化节律相对严慎。
它不像 Kimi 那样靠 C 端爆款居品快速起量,也不像阿里、百度那样有开阔的生态和流量进口。
智谱的道路一直是"模子才智先行,哄骗场景跟进"。先把基座模子作念到鼓胀强,再通过 API、特有化部署、行业处罚有谋略变现。
长周期任务这个标的,无论是国内如故外洋,参与的玩家王人很少,莫得明确的领跑者,各人王人在探索阶段。
OpenAI 的 GPT-5.5,定位等于"自主任务奉行",强调的是 agent 才智和多关节责任流,Opus 4.7 亦然访佛。
关联词二者在长周期这件事上,王人还差点根由。
两家公司并莫得展现出压倒性上风,商场面目也还远不决型。
固然在纯模子才智上追逐 GPT 和 Claude 很难,2026世界杯赛事竞猜最新版V2026.FIFA不外在长周期任务这个新方朝上,各人王人站在归拢条起跑线上。
唐杰进一步提到了 NPC 这个主张。他以为长周期才智会推动从 OPC 到 NPC 的革新。一东谈主公司的逻辑是"东谈主加 AI 器具",无东谈主公司的逻辑则是" AI 系统加东谈主类监督"。
前者是增强,后者是替代。
不外无东谈主公司并不是确凿莫得东谈主,而是东谈主的定位发生了改动,从奉行者变成了贪图设定者、资源树立者和包袱承担者。
信得过被替代的是中间奉行层,比如那些负责推动任务和合作资源的岗亭。在 NPC 里,东谈主只需要设定贪图和审核结果。
落到智谱身上,唐杰的不雅点预示着智谱接下来的发展标的。
智谱 GLM-5.1 的工夫白皮书中提到,GLM-5.1 能捏续独处功课 8 个小时,单次任务可踏实奉行 1200-1700 步操作,无需东谈主工监控与烦嚣。
球赛投注中国app官方版下载不外这仅仅一张收货单,要信得过让企业宽心,还得看它换到更多场景后会不会掉链子,遇到没见过的问题时能不可靠我方的技能处罚。
长周期任务不是一个通用居品,它需要针对不同业业、不同场景作念深度定制。
软件开发需要的是代码暴露和测试奉行,法律行业需要的是文档检索和合规搜检,金融行业需要的是数据分析和风险评估。
不是说把模子卖给企业就罢了,智谱还要把模子打包成能平直上手的 agent 器具箱,客户无须从零开发,也能快速搭出我方的长周期任务系统。
长周期任务系统不是智谱一家能作念出来的,它需要开发者孝顺器具和插件,需要企业客户提供确切场景和反馈,还需要监管机构制定安全和合范围范。
智谱的开源策略等于在构建这个生态。
从市值来看,智谱是国产 AI 的擎天玉柱,唐杰的每一个判断王人会对国内 AI 产生很大的影响。
就以唐杰提到的自我进化来说,智谱是会追求自我进化?如故会选拔更保守的策略?
从 GLM-5.1 来看,智谱在走一条中间道路。
一方面,GLM-5.1 的窥察如故深广使用模子生成的合成数据,这是自我进化的雏形。
可另一方面,智谱强调"可讲明注解的、可监管的"系统,这意味着它不会全王人毁掉东谈主类截止。
这种均衡很难,但可能是最现实的旅途。
长周期任务是企业的核肉痛点,它能平直替代东谈主力老本,能平直进步业务遵守,企业惬心为此支付更高的价钱。
如果智谱能拿下长周期任务,那么它的业务会进一步增长,市值也会更高。
AI 并吞全国
基于对长周期任务的判断,唐杰给出了一个预言,改日咱们可能会越过 APP 的主张,平直干与 LLM OS 时期。
什么是 LLM OS?哄骗按需生成,用户不再料理文献、窗口和按钮,用户只料理任务、权限和结果。
关联词我想说,这个判断涉及了当代诡计机的压根逻辑。
APP 的本体是把功能固化在界面里,用户通过点击按钮来触发预设的功能。
你若是想发邮件,你就掀开邮件 APP,点击写邮件按钮,填写收件东谈主、主题、正文,点击发送。每一步王人是事先想象好的,你只可在想象者律例的旅途上操作。
agent 的本体则是把贪图交给系统,让系统临时组合器具、数据和界面来达成贪图。
你告诉系统"给张三发一封邮件,告诉他名目进程",系统会我方决定用哪个邮件服务、若何措辞、什么时候发送。你不需要知谈邮件 APP 在那儿,不需要知谈若何操作,你只需要抒发意图,系统负责奉行。
如果唐杰说的这个趋势开发,软件的中心将从"掀开哪个 APP "变成"告诉系统我要什么结果"。这将会颠覆现存的一切。
它挑战的是 80 年来的冯诺依曼架构,挑战的是通盘这个词诡计机科学的产业基础。
当今的操作系统,无论是 Windows、macOS 如故 Linux,本体上王人是文献料理器加进程调遣器。
它们料理的是数据在那儿、程序若何运行、资源若何分拨。用户需要知谈文献存在哪个文献夹,需要知谈用什么程序掀开,需要知谈若何在不同程序之间复制粘贴数据。
LLM OS 的逻辑全王人不同。
它料理的不是文献和进程,而是任务和权限。你不需要知谈数据存在那儿,系统我方能找到需要的数据。你不需要知谈用什么程序,系统会我方调用相宜的器具。
你只需要告诉系统你要作念什么,然后恭候结果就可以了。
听起来可以,然而收场起来极其坚苦。
用户说"我要作念什么",系统能准确暴露吗?
当然说话是模糊的、多义的、依赖凹凸文的。相似一句话,在不同场景下可能有全王人不同的含义。
是以模子不仅需要具备刚劲的语义暴露才智,还需要团结凹凸文、用户历史、刻下气象来推断意图。
暴露用户的意图以后,接下来就到了奉行任务。
一个高层贪图需要领悟成若干个子任务,每个子任务用什么器具完成,任务之间有什么依赖关系。
"给张三发邮件"这个浅易任务,践诺上包含了查找张三的邮箱地址、生成邮件内容、选拔发送时候、处剪发送失败等多个子任务。
再往底层看等于器具调用。
邮件是器具、写字用的输入法是器具、网页亦然器具。系统需要能调用千千万万个不同的器具和服务,每个器具有不同的 API、不同的参数、不同的造作处理花式。
唐杰在驱散提到了监管问题。
他承认这个不可逆的进程如故启动,但同期号召崇拜念念考若何监管。长周期任务和自主 agent 带来的监管挑战是前所未有的。
当 AI 独处完成一个任务并变成亏蚀,包袱应该由谁承担。开发者、使用者,如故 AI 自己?如果一个 AI 系统在奉行长周期任务时作念出了造作决策,导致企业亏蚀数百万,谁来负责?
2026 年 4 月,PocketOS 就遇到过一次典型事故。
一个基于 Claude 的 Cursor 编程 agent,在处理环境问题时误删了公司的坐褥数据库和备份,通盘这个词过程只用了几秒钟。
现存的法律框架还莫得准备好复兴这个问题。
除此除外,当深广奉行层岗亭被 AI 替代,那么随之而来的等于闲暇潮。
但闲暇仅仅最容易被看见的结果,更深层的变化,是社会单干自己被重新改写。
往时,工夫替代的持续是某个关节、某个器具、某种重叠管事;长周期 agent 要替代的,是"把事情推动到结果"的整套奉行才智。
它一朝开发,AI 就不再仅仅嵌在责任流里的辅助按钮,而会变成责任流自己的一部分。
唐杰以为,长周期任务不是 AGI 的一谈,但它可能是 AGI 第一次信得过干与现实全国、信得过启动重构东谈主类社会的花式。当 AI 不再仅仅复兴问题,而是启动承包结果,咱们就站在了一个历史性的革新点上。