作者:Garry’s List
编译:深潮 TechFlow
深潮导读:Anthropic 最新发布了迄今最全面的 AI Agent 真实使用研究,核心数据是:软件工程占据近 50% 的 Agent 工具调用量,而医疗、法律、教育等 16 个垂直领域加起来还不到剩余的一半,每个领域份额均低于 5%。
这不是市场饱和的信号,而是 300 个垂直 AI 独角兽的地图——更有价值的是文章引用的一个反直觉发现:模型已经能独立工作近 5 小时,但用户实际只让它工作 42 分钟,这个”信任赤字”本身就是下一个产品机会。
全文如下:
软件工程占所有 AI Agent 工具调用量的近 50%。医疗、法律、金融等 16 个垂直领域几乎未被触及,每个领域均低于 5%。这意味着有 300 个垂直 AI 独角兽等待被建造出来。
如果我今天要创业,我会盯着上面那张柱状图的红色区域,直到我看见自己的未来。
Box 创始人 Aaron Levie 表示:
这张图很好地提醒了我们,AI Agent 领域现在有多大的机会。
水平方向当然会有大量 Agent 机会,但同样有很多工作流需要深厚的领域专业知识,才能真正帮助用户自动化其所在垂直领域的独特流程。
模板是:构建接入专有数据的 Agent 软件,以有效衔接用户与 Agent 协作的方式处理工作流,同时具备深度领域专属的上下文工程能力,以及推动客户侧变更管理的能力。
目前许多领域仍存在巨大空白。
软件工程占据了所有 AI Agent 活动的半壁江山。另一半分散在 16 个垂直领域,没有一个超过 9%。医疗占 1%,法律占 0.9%,教育占 1.8%。这些不是饱和市场,而是几乎还不存在的市场。
Anthropic 刚刚发布了迄今最全面的 AI Agent 真实使用研究。核心发现是:软件工程占其 API 上 49.7%的 Agent 工具调用量。被埋在后面的核心结论是:其他一切都是蓝海。
部署滞后
有一个数据应该让创业者兴奋不已:模型的能力已经远超用户愿意信任它的边界。
METR 的能力评估显示,Claude 可以解决需要人类近五小时才能完成的任务。但在实际使用中,第 99.9 百分位的会话时长只有约 42 分钟。这个差距——AI 能做什么与我们允许它做什么之间的差距——是一个巨大的机会。

图:Claude Code 训练的最长时长在三个月内几乎翻了一番。这不仅提升了能力,也增强了信任。
来源:x.com
从 2025 年 10 月到 2026 年 1 月,第 99.9 百分位的单次会话时长几乎翻了一倍,从不足 25 分钟增长至超过 45 分钟。增长在各个模型版本间都很平稳。这不只是模型变得更强了,而是用户一次次地在使用中学习,逐渐延伸着对 Agent 的信任。
“从 8 月到 12 月,Claude Code 在内部用户最具挑战性任务上的成功率翻了一倍,与此同时,每次会话的人工干预次数从 5.4 次减少到 3.3 次。”
能力已经在那里,部署还没跟上。这不是问题,而是产品机会。
信任是如何演化的
新用户中有 20%会自动批准 Claude Code 的操作。到 750 次会话时,超过 40%的会话完全在自动批准模式下运行。但有一个反直觉的发现:有经验的用户反而会更多地进行干预,而不是更少。新用户会在 5%的轮次中进行干预,老用户则是 9%。

图:信任是一种会不断积累的技能。新用户会自动批准 20% 的会话。到 750 次会话时,这一比例会超过 40%。
图片:Anthropic
来源: x.com
这并不矛盾,而是监督策略的转变。初学者在操作发生前逐步审批,老用户则是先授权、在出问题时再介入——他们已经从预先审批转向了主动监控。
以下是一个在安全层面值得关注的发现:在复杂任务上,Claude Code 主动请求澄清的频率超过人类主动干预频率的两倍。Agent 会暂停确认,而不是一路冲到底。这是特性,不是缺陷。
“这项研究的核心启示是:Agent 在实践中行使的自主权,是由模型、用户和产品共同构建的。Claude 在不确定时会暂停提问,以此限制自身的独立性。用户在与模型协作的过程中建立信任,并相应地调整自己的监督策略。”
Levie 的垂直 AI 打法
Aaron Levie 指出了等待被解锁的巨大财富与价值:构建接入专有数据的 Agent 软件,让它真正解决真实的人和问题,把上下文塞满以最大化智能输出,以及——这是大多数创业者忽略的部分——推动客户侧的变更管理。
最后这一点正是垂直 AI 如此难以被复制的原因。任何人都能搭一个 API 封装,但很少有人能真正驾驭医疗账单、法律发现或建筑许可证审批中特有的工作流、监管约束和组织阻力。
SaaS 在过去几十年里每十年增长十倍。过去 20 年超过 40%的风险投资资金流向了 SaaS 公司。这个行业诞生了 170 多只 SaaS 独角兽。逻辑很简单:这些独角兽中的每一只,都有一个垂直 AI 版本在等待出现。而 AI 版本可能会大十倍,因为它取代的不只是软件,还有操作人员。
共同构建的本质
Anthropic 的核心发现值得任何参与 AI 政策制定的人认真关注。自主权不是模型的固有属性,而是由模型、用户和产品共同构建的。部署前的评估无法捕捉这一点,你必须在真实使用中去衡量。
Anthropic 官方表示:
软件工程约占我们 API 上 Agent 工具调用量的 50%,但我们也看到其他行业正在涌现。随着风险与自主权的边界持续扩展,部署后的监控变得至关重要。我们鼓励其他模型开发者扩展这项研究。
安全层面的数字令人放心:73%的工具调用有人类在回路中参与,只有 0.8%的操作是不可逆的。最高风险的部署场景——如 API 密钥泄露或自主加密交易——大多是安全评估,而非真实生产环境。
“规定具体交互模式的监管要求——例如要求人类批准每一个操作——只会制造摩擦,而不一定带来安全收益。”
强制要求”批准每一个操作”的政策,会杀死生产力收益,却不会增加安全性。更好的目标是确保人类能够监控和介入,而不是规定具体的审批工作流。
独角兽藏在哪里
地图已经画好。软件工程已经有人在做了。医疗、法律、金融、教育、客服、物流——16 个垂直领域,每个市场份额均为个位数——都在等待有人把领域专业知识真正嵌入 Agent。
此前诞生了 300 只 SaaS 独角兽,接下来 300 只垂直 AI 独角兽即将出现。那些选定垂直领域、把领域专业知识嵌入 Agent、并想明白如何驱动变更管理的创始人,将拥有下一个十年的企业软件市场。
模型已经能工作五小时,用户只让它工作 42 分钟。这就是信号:我们仍然处于极早期,还有大量东西可以建造,而且在无数个还没有见过哪怕一分钟智能发挥作用的地方。
免责声明:本文提供的信息不是交易建议。BlockWeeks.com不对根据本文提供的信息所做的任何投资承担责任。我们强烈建议在做出任何投资决策之前进行独立研究或咨询合格的专业人士。