Anthropic 产品经理专访:Claude 会在后台“做梦”,我们像养孩子一样研究它的意识形成

整理 & 编译:深潮 TechFlow

人工智能

嘉宾:Alex Albert,Claude 研究产品经理

主持人:Peter Yang

播客源:Peter Yang

原标题:Inside How Anthropic Is Building the Next Claude | Alex Albert

播出日期:2026 年 5 月 17 日

要点总结

Alex 是 Anthropic 的一名研究产品经理 (Research PM),目前正专注于开发下一代 Claude 模型。在这期访谈里,他深入分享了 Anthropic 研究团队的运作机制,包括如何高效地将用户反馈融入模型训练流程、如何优先考虑开发哪些关键能力,以及如何通过调优让 Claude 的“个性”更加贴近用户需求。最后,Alex 也回应了 Anthropic 对 Claude 意识、性格和可信任性的内部研究,指出当模型开始长时间自主执行任务时,它“关心什么”会变得和能力本身一样重要。

精彩观点摘要

把模型当作产品来打造

  • “我们在一定程度上会把模型当作产品。每一个新模型开始时,我们都会明确它的要求是什么、希望它擅长什么,以及我们预计它会擅长什么。”
  • “模型开发和传统产品开发的有趣差异在于,我们更像是在培养一个模型。训练设置、技术路线和架构决策会给我们一些直觉,但直到训练开始,你才真正知道它会长成什么样。”
  • “研究 PM 必须思考模型会如何出现在所有产品表面里,无论是 API、Claude Code 还是 Claude Cowork。产品和模型会混在一起影响最终用户体验。”
  • “当某些渠道涌入大量反馈时,我们可以用 Claude 对它们进行分组、聚类,找到最主要的主题,再为这些问题创建合成版本。这样我们就能判断它能不能变成一个需求文件(Eval),或者变成某种实际诊断问题的方式。”

关于自适应思考、记忆与“梦境”

  • “适应性思维则让模型自己选择什么时候需要思考。有些问题很复杂、很难,需要更多前置规划,它就会选择思考。有些问题它可能不会选择思考。”
  • “决定一个问题是否值得深入思考,背后其实有大量上下文。”
  • “如果模型没有积累足够上下文,没有真正建立起关于用户是谁的心理模型,那么它是否应该深入思考的判断就可能出错。因为它实际上并不知道。”
  • “在 Claude.ai 里,它会写入一个内存文件,然后会有一些夜间流程重新审视这些记忆,做剪枝和整理。我们刚刚在托管代理里也实现了类似的东西。”
  • “这就是“做梦”的概念。人类为什么做梦,在某种程度上还没有定论,但有人认为梦可能是一种记忆再巩固过程。我们会想:能不能把类似东西带到 Claude 的记忆里?”
  • “所以当智能体没有为你运行任务,或者它在后台时,它实际上会回顾自己的记忆,找出可能互相矛盾的地方,进行剪枝、清理,做第二次 pass。”

产品开发瓶颈与“不可逆决策”

  • “现在突然进入了一个新范式:生产一个东西所需要的成本和时间都非常低。你可以很快搭出原型,甚至现在可以在一天里做出一个可能推向生产的初始 MVP,而不是两周、三周或四周。”
  • “如果某件事不是 one-way door,也就是说我们做了之后还可以反悔,那现在它实际上成本很低,甚至可以说是没有代价的。”
  • “真正需要花最多时间的是不可逆决策:会影响终端用户体验、影响未来决策,或者涉及真实资源购买和投入的事情。”
  • “当构建速度变快后,瓶颈越来越转向协调问题:把人拉到同一个房间里,判断战略是否正确,决定如何向用户沟通,以及处理发布中那些模糊但重要的事情。”

AI 原生 PM 的工作方式

  • “Claude 对我来说是世界上最好的头脑风暴伙伴。我可以在任何时刻让它对一个想法给反馈、挑毛病。”
  • “很多思考不能完全外包,因为写作本身就是思考。你需要通过写作把自己的想法拿出来,在脑子里反复琢磨。但 Claude 可以帮你从卡住的地方出来,从你自己可能想不到的角度来解决问题。”
  • “对于想学习做产品、成为 AI 原生产品经理的人,我能给的最简单建议就是:试一试。”
  • “当你准备问别人一个难题时,可以并行把同一个问题问 Claude,然后比较结果。多做几次,你就会建立自己的地图:什么该交给 Claude,什么地方还不可靠。”
  • “AI 正在让每个人向更高抽象层移动。数据科学家不该再被困在手动查数和基础 SQL 上,而应该去思考更难、更战略的问题。”

eval、模型性格与可信任性

  • “测试几十个样本就足以证明模型存在某个需要修复的问题。它不一定非得非常全面,才能证明一个问题,并且形成一个可以持续优化的目标。。”
  • “越接近真实用户任务形态的测试越好。我们还要想:这对我们的客户和用例有什么价值?因为 Claude 能不能看见图片里的某个东西,最终如何影响用户下游想用 Claude 做的事情?”
  • “Claude 的性格是我们非常重视的事情。随着模型变成会长时间执行任务、不断做判断智能体,它的性格是什么、关心什么,会变得非常重要。”
  • “判断模型性格既有可量化指标,也依赖研究人员大量阅读模型对话,识别输出中的细微变化。读得多了,你会逐渐形成更锋利的直觉。”

意识问题与长期智能体

  • “我们确实有人专门思考这个,就是思考 Claude 作为一个有意识的行动者、有意识的智能体到底意味着什么。目前我们没有官方立场说 Claude 是否有意识。”
  • “即便不去判断 Claude 到底有没有意识,我们也能从中学到很多东西,比如它如何互动、如何表现。”
  • “模型它会在过程中做出大量你可能完全没有监督的决策。所以它到底会做什么,非常重要。”

Anthropic 如何把每个新模型当作产品

主持人 Peter Yang:Alex,很高兴今天在 Claude Code Conference 见到你。你以前是 Anthropic 的 DevRel 负责人,最近成为了研究团队的产品经理,对吧?我自己做 PM 也有十多年了。传统 PM 的工作通常是理解用户问题、识别解决方案、推动产品落地。但我完全不知道研究团队里的 PM 是怎么工作的,我们可以先聊聊这个。

Alex Albert:

本质上其实很像。我一直想和客户交流,尽可能贴近我们的用户。我们在一定程度上会把模型当作产品来对待。所以每一个新模型,我们都会明确它的要求是什么,我们希望这个模型擅长什么,我们认为它可能擅长什么。

这也是模型开发和产品开发相比很有意思的一点:很多时候,我们更像是在“培养”一个模型。基于训练设置、技术路线、架构选择,以及我们为这个特定模型做出的各种决策,我们会对它未来擅长什么有一些直觉。但它到底会变成什么样,我们并不能完全知道,直到它真正进入训练过程。

主持人 Peter Yang:所以研究 PM 团队会从模型的构想阶段就介入,一路跟到训练和发布?能不能举几个例子?比如下一个模型必须擅长 coding,或者必须擅长知识工作,还是说目标会更宽泛?

Alex Albert:

大概就是这样,我们非常重视多方面的能力,Coding 当然一直是很重要的一类。最近知识工作也变得很重要,所以在我们近几代模型里,会试着让模型更擅长使用我们的产品,比如在 Excel 里工作、制作表格等等。这是一个比较新兴的能力方向。

另一方面,每一代模型都要修复和改进上一代做得不够好的地方。我们会出去和客户交流,了解他们如何使用这个模型:它在哪些地方表现很好?哪些地方会掉链子?我们能做哪些修复?如果发现一些有意思的行为,下一代训练时是否可以做一些调整或者干预措施。

主持人 Peter Yang:你说的客户包括 Claude Code 团队、内部团队,也包括普通用户吗?

Alex Albert:

所有人都算,这也是做模型很酷的地方:它会触及非常多不同的领域。作为研究 PM,你需要思考模型会如何通过我们所有产品表面暴露出来,无论是 API、Claude Code,还是 Claude Cowork。

产品和模型之间某种程度上是混合在一起的,这会影响终端用户的真实体验,所以你必须把整个流程都想清楚,用户在某个产品里如何使用模型,都会产生影响。

主持人 Peter Yang:这听起来真的很难。比如 Claude Code,你可以说它是写代码用的,但也有人像我一样拿它做知识工作,甚至当心理咨询师用。你们怎么知道这些东西?

Alex Albert:

这个空间确实非常宽。好在我们有一大批非常优秀的研究员,他们覆盖了整个能力范围,并且各自专注于不同问题。

主持人 Peter Yang:而且有很多人在用 Claude,你们应该也有某种反馈入口吧?否则反馈会像消防水管一样喷过来,你们怎么处理?

Alex Albert:

我们会做很多事。而我在这个角色里看到的一个有趣变化,是我们越来越多地使用 Claude 来帮助 PM 做 PM 的工作。单就反馈收集来说,Claude 对我从大量数据里提取洞见非常有帮助。当某些渠道涌入大量反馈时,我们可以用 Claude 对它们进行分组、聚类,找到最主要的主题,再为这些问题创建合成版本。这样我们就能判断它能不能变成一个需求文件(Eval),或者变成某种实际诊断问题的方式。

为 Claude 加入自适应思考

主持人 Peter Yang:也就是说,你们用 Claude 来帮助识别 Claude 自己的问题。有没有某个具体例子?

Alex Albert:

一个现在很相关的例子,是我们如何处理新功能反馈。过去几个模型里,我们比较新的功能之一是适应性思维。以前我们有拓展思维,你打开它之后,模型就会思考,适应性思维则让模型自己选择什么时候需要思考。

有些问题很复杂、很难,需要更多前置规划,它就会选择思考。有些问题它可能不会选择思考。这个功能我们会在一代代模型之间持续调整,所以我们非常认真听用户反馈:它是否在正确场景里正确地思考?你希望它花很多 token 去推理的问题,是否真的触发了 Claude 的思考?

主持人 Peter Yang:有时候我问一些人生问题,如果它回答太快,我其实会有点失望,因为我希望它能更深入地想一想。

Alex Albert:

我觉得“是否思考”这个问题有一个难点:决定一个问题是否值得深入思考,背后其实有大量上下文。

比如一个完全陌生的人问我:“我现在应该做什么?”我可能会很快给一个即兴答案,因为我并不了解他,只能给出比较通用的建议。但如果我真的了解你,知道你在乎什么、兴趣是什么、过去做过什么,我就会花更多时间想:等等,对你来说最好的答案到底是什么?

模型也是类似的。如果它没有积累足够上下文,没有真正建立起关于用户是谁的心理模型,那么它是否应该深入思考的判断就可能出错。因为它实际上并不知道。

为什么 Claude 开始“做梦”

主持人 Peter Yang:我有一个 Google Doc,里面总结了我的生活情况,比如家庭、孩子、什么事情给我能量、什么事情消耗我。然后我把它附到一个 Claude project 里,它会给我好多回答内容。

默认的记忆是怎么工作的?我猜它是不是每晚都会把所有内容重新整理一遍?

Alex Albert:

这取决于具体产品,不同产品的记忆实现方式不同。比如在 Claude.ai 里,它会写入一个内存文件,然后会有一些夜间流程重新审视这些记忆,做剪枝和整理。我们刚刚在托管代理里也实现了类似的东西。

这就是“做梦”的概念。人类为什么做梦,在某种程度上还没有定论,但有人认为梦可能是一种记忆再巩固过程。我们会想:能不能把类似东西带到 Claude 的记忆里?

所以当智能体没有为你运行任务,或者它在后台时,它实际上会回顾自己的记忆,找出可能互相矛盾的地方,进行剪枝、清理,做第二次 pass。我觉得这很有意思。

主持人 Peter Yang:简单说就是有某种 prompt,让它回顾用户和它的所有对话,识别主题并总结。

我们回到产品管理。开始之前你说,你一直在寻找最新的瓶颈。所以在整个产品开发流程里,哪些部分已经变得非常顺畅,哪些部分还是瓶颈?

Alex Albert:

我觉得过去 20 年左右,发布一个东西的流程其实相当繁杂。我们有过增量改进,也确实让某些事情更高效;一些新的组织结构也来来去去,比如 sprint、planning 等等,我们尝试过很多方法让事情更快。

但从根本上说,直到过去一两年,真正压缩产品开发主要时间窗口的东西并不多。现在突然进入了一个新范式:生产一个东西所需要的成本和时间都非常低。你可以很快搭出原型,甚至现在可以在一天里做出一个可能推向生产的初始 MVP,而不是两周、三周或四周。

有意思的是,Claude 自己有时还停留在 2021 年左右的旧世界里。它会说这可能需要一周。这对整个产品开发生命周期带来了很有趣的变化。作为 PM,我该如何思考规划?如果我在写 PRD、定义需求、试图估算时间,现在这件事到底应该是什么样?

如果不是 one-way door(不可逆决策),那它基本就没有代价

主持人 Peter Yang:你们还会做工期预估之类的东西吗?

Alex Albert:

这取决于项目。有些项目确实有更多需要考虑的因素,这取决于范围和复杂度。我们通常想弄清楚的是:哪些是 one-way door(单向决策, 即一旦做了就很难撤回、成本很高、影响会长期延续的决策)?哪些是可逆决策?因为这些才是你应该投入最多时间的地方。如果某件事不是 one-way door,也就是说我们做了之后还可以反悔,那现在它实际上成本很低,甚至可以说是没有代价的。

但如果一件事会影响终端用户体验,会影响我们之后必须做出的决策,或者它是一个必须真的购买、投入、执行的物理世界动作,那就更难逆转,这类事情需要更多时间和思考。

主持人 Peter Yang:能不能举一个研究侧的例子?

Alex Albert:

比如我们思考新模型时,在预训练之前选择模型架构,就是一个非常大的决策。有些情况下,模型训练时间可能长达一个月,所以我们必须投入很多时间思考最优选择是什么。

模型在某种程度上有更多 one-way door,因为它们需要大量时间、强度、算力和各种投入,才能真正进入生产。相比之下,在 Claude Code 里做一个新功能就快得多。那更像是迭代代码、放到用户手里、快速拿反馈、再继续循环。

所以流程仍然取决于你到底在发布什么,但越来越明显的是,瓶颈正在转向协调问题。如果我们构建东西非常快,仍然会有一个问题:我们需要把这些人拉到房间里,判断这是不是正确战略;我们要弄清楚如何向用户沟通;还要处理任何发布都会伴随的那些模糊问题。这些领域我们也希望 Claude 能帮助我们,但它还没有像在 coding 上那样带来 10 倍、100 倍加速。

主持人 Peter Yang:所以你们发布 Opus 4.7 之类的东西,还是需要写一份带计划的文档。

Alex Albert:

还是需要计划,你还是要想清楚如何传达这件事,而且模型可能在某些很难的任务上表现惊人,却在另一些看似简单的任务上突然失手,所以我们会尽可能的用 Claude。现在影响最大的地方还是 coding,其他领域仍然需要人的战略思考。

主持人 Peter Yang:在和营销或同事开审查会议的时候,你会打开 Claude 吗?

Alex Albert:

当然会。对我来说,一个巨大的加速是:我不再那么容易被“拿不到答案和数据”卡住。以前如果我有一个问题,比如某个功能在生产环境里的表现如何、每天有多少用户在用、反馈是什么,我可能需要请数据科学团队启动一次完整调查,然后几天后拿结果。

现在我可以 10 分钟内完成。我开一个 Claude Code session,它能访问我们的产品数据库,可以看日志、查问题、浏览 Slack,这对我做战略思考是巨大的加速,因为我不会在做下一个决策之前被卡住。

主持人 Peter Yang:那在战略思考上,你会不会构建某种 skill,让 Claude 问你一堆问题,帮助你把事情想清楚?

Alex Albert:

当然会,Claude 对我来说是世界上最好的头脑风暴伙伴,我可以在任何时刻得到对一个想法的反馈。我觉得这非常强大,尤其当你想快速推进的时候。Anthropic 的每个人都很忙,所以能马上拿到对我写的文档、想法或者任何东西的反馈和批评,真的非常有帮助。

Alex 如何用 Claude Cowork 压力测试文档

主持人 Peter Yang:这可能是最常见的产品经理工作循环:你有一份文档,然后想要反馈。你会用 Claude Code 做这件事,还是直接用 Claude.ai?

Alex Albert:

最近我用 Claude Cowork 很多,我非常喜欢 Cowork 的形态,它是一个很好的交互界面。团队过去几个月做得非常棒,从几个月前刚发布,到现在已经变成了一个我觉得质量很高的体验。Cowork 是一个很棒的工具是我最喜欢的之一。

主持人 Peter Yang:所以你有一份草稿文档,还有一堆参考材料。你会不会有某种技能,让它帮你走完整个决策流程?

Alex Albert:

会。比如我会说:从 X、Y、Z 的视角思考这件事。你会问我什么问题?或者挑战我的假设,指出我的论证哪里薄弱。很多思考不能完全外包,因为写作本身就是思考。你需要通过写作把自己的想法拿出来,在脑子里反复琢磨。但 Claude 可以帮你从卡住的地方出来,从你自己可能想不到的角度来解决问题。

主持人 Peter Yang:在研究团队里,你也会自己交付代码吗?

Alex Albert:

这取决于具体问题。我在交付的事情里,很大一部分其实和评测有关。我想确保自己能在我关心的维度上测量模型,并把模型哪里好、哪里掉链子的发现反馈给研究团队。然后我们一起制定策略,决定如何解决这个问题,应该做什么研究干预,什么方式最能在这个评测上持续爬坡,从而真正改善问题。

新模型的评测流程

主持人 Peter Yang:你说的测评应该不是终端测试之类的东西吧?你们的评测是更真实的吗?你们到底怎么评测一个模型?会分性格等不同类别吗?

Alex Albert:

比如我们想测试 Claude 的视觉能力:它能不能数清一张图片里有多少个东西。假设我发现了一张图片,Claude 好像数不清超过 10 个元素的东西。它现在也许能做到,但这里先打个比方。我会把这个问题拿出来思考:我怎样才能获得更多同类型测试案例,从而验证我的假设?

也许我会让 Claude 为我生成合成数据,也许让它渲染一些图片,再把这些图片作为视觉输入传回 Claude,看它能不能识别。也许我会从互联网上找例子,或者使用任何其他来源机制来生成这些测试案例。

主持人 Peter Yang:我们说的是上千个测试案例吗?

Alex Albert:

可能是,但有时候几十个样本就足以证明模型存在某个需要修复的问题。它不一定非得非常全面,才能证明一个问题,并且形成一个可以持续优化的目标。

主持人 Peter Yang:假设你给它 10 张图,它识别不了很小的数字。接下来怎么办?你去找研究团队说:“这是问题,你们能不能修?”

Alex Albert:

我们会从几个角度思考。首先,不只是说明模型有问题,还要想:这对我们的客户和用例有什么价值?因为 Claude 能不能看见图片里的某个东西,最终如何影响用户下游想用 Claude 做的事情?

所以,评测越真实、越接近终端用户实际经历的任务形态越好,我们会努力获取这类数据,确保数据具有这种味道。

接下来会有一系列干预方式。也许我们需要回到预训练阶段看一些东西,也许可以在强化学习阶段解决。这时就要和研究团队一起做战略头脑风暴:这里最好的做法是什么?

主持人 Peter Yang:重新试一次的周转速度有多快?

Alex Albert:

这取决于我们认为问题在哪里。如果是比较后期、可以用一个新的强化学习环境解决的东西,也许可以非常快地搭起来。

主持人 Peter Yang:当你把它和真实客户用例联系起来时,每天都有数百万人和 Claude 对话,可能有人在用它报税,或者做其他很多事。你们如何挑出最想改进的用例?你怎么说服团队:“这才是我们应该优化的东西”?

Alex Albert:

这就是“数据说话”的地方。核心是:有百分之多少的用户在尝试做这件事,我们非常关心它;或者我们有客户大量使用 Claude,并且他们希望这个能力变得更好。

另外,我们很多流程也很大程度上由内部使用驱动:我们自己用模型时关心什么?我每天用模型时遇到这个阻碍,那我们就应该修掉它。这也非常有说服力。

Anthropic 如何训练 Claude 的性格

主持人 Peter Yang:我最喜欢 Claude 的一点是它的性格,而且我觉得它一直在变好。它会在合适的位置提出反对意见,而有些其他模型就只会说:“我还能帮你做什么?”模型的性格不只是一个外壳吧?这背后是有训练的。

Alex Albert:

是的,有大量训练。这是我们非常重视的方向。我们称之为 Claude 的性格。我认为这非常非常重要。

我们有很多人投入大量时间去研究:Claude 应该如何呈现自己?它的信念是什么?价值观是什么?它如何行动?这些问题都很模糊。早期有些人可能会忽视它们,觉得模型只是一个我告诉它做什么、它就去做什么的东西,为什么要关心它听起来怎么样、在想什么?

但随着我们越来越走向一个由智能体长期执行任务、并且需要做大量判断决策的世界,关于它的性格是什么、它在乎什么的问题,就会变得非常重要。

主持人 Peter Yang:这不像代码那样,只能判断它是否运行。你们怎么评估性格?是在 Anthropic 内部找一个更好的人,然后拿模型和他比较吗?

Alex Albert:

这里是多种方法的组合。我们会看一些可量化指标,也可以让 Claude 查看 Claude 的输出,判断它听起来如何。对任何研究员来说,一个非常重要的技能就是阅读对话记录,然后判断:我看到它现在在这样做,或者它现在变成那样了。你需要能识别这些细微差异。

随着时间推移,当你读过几百、几千份模型对话记录,你会逐渐形成更敏锐的直觉,就像你在 Claude.ai 里大量使用这个模型,你会感觉到它是什么样。

主持人 Peter Yang:所以不是说这个模型在某个维度上是 7 分,而是更像一种感受?

Alex Albert:

两者都有。性格可能比编程表现更难量化,但并不是不能量化,还是有办法的。

主持人 Peter Yang:对于想学习做产品、成为 AI 原生产品经理的人,你有什么建议?

Alex Albert:

我能给的最简单建议就是:试一试。听起来很简单,但每当你要做一件事、面对一个难题,准备去问某个人一个问题时,可以并行把同一个问题问 Claude,然后比较结果。

比如你想分析用户,提取用户对最近发布功能最关心的主题。你当然可以去问数据科学团队,或者问用户体验研究员,这仍然很有价值。但与此同时,也把这个问题丢给 Claude,给它开启一些工具,让它自己探索,给它时间真正深入这个问题,然后比较结果。

通过很多很多提示词和问题,你会慢慢建立自己的地图:什么事情应该用 Claude,哪里可靠,哪里还不可靠。

主持人 Peter Yang:我做决策时经常让它做深度研究,因为普通搜索对我来说不够,我需要它深入研究。扫描 1000 个网页这种事,很超人类。在 Anthropic 内部,如果你去找数据科学家说“能帮我做这个吗”,他们大概会问你:“你先问 Claude 了吗?”

Alex Albert:

确实会有这个因素,大家会预期你先问 Claude。我觉得我们正在向更高抽象层移动。对于数据科学团队来说,现在他们的时间更值得花在更高层次的问题上,而不是手动检索数据。

没有人想做那些事。每个人都想思考更难的问题、更战略的问题:我们如何用全新的方式衡量这个?还有什么新事情可以做?而不是只是去查某个产品最新的 DAU。

我和很多数据科学家共事过,他们经常被困在基础 SQL 任务里。但他们都想做更战略的事情,现在 AI 终于可以把他们解放出来,我们其实是在赋能他们周围的每个人,对所有角色都是一样的。

比如定义一个新功能。过去如果你是产品经理,不管你是否懂技术,通常没有足够时间深入代码库,弄清楚这个新功能到底该怎么实现、需要多少工作量、是否要重构某个系统、哪里是真正限制。那时更好的方式是和工程伙伴一起弄清楚。

现在我可以派 Claude 去替我做这项调查。它可能回来告诉我:其实这个功能只需要这里改 10 行代码,再把某个开关里的标记打开。那会完全改变我对这个决策优先级的判断。现在我在写规格文档时,可以更快到达这种优先级判断。

主持人 Peter Yang:很多传统公司会花大量时间做年度规划、季度规划和路线图。研究团队可能更是这样,因为你们要考虑比每天发东西更长线的问题。你们会做这些吗?

Alex Albert:

会。这里有点像那句名言:规划是不可或缺的,但计划本身没有用。做规划这个动作很重要,但你必须承认,计划可能会被完全推翻。

主持人 Peter Yang:产品经理最难的挑战之一就是到底花多少时间规划,因为它总是在规划和真正发布之间平衡。Anthropic 内部有什么最佳实践吗?你完全可以用 Claude 写 10 页文档。

Alex Albert:

这很难给一个适用于所有团队的统一答案,我觉得它取决于产品。我们肯定不会说你必须产出某个长度、某个页数的文档。更重要的是:你有没有做足够多的思考,把所有可能的不可逆决策的影响都想清楚?

如果做到了,那文档是什么格式、有多少页都不重要。关键是我们是否足够安心,知道没有遗漏重要东西,可以继续往前推进,并在路上处理问题。只要没有会卡住我们的最长瓶颈,没有后果非常严重的不可逆决策,就可以继续。

主持人 Peter Yang:我在家里用 Claude 时,会同时跑很多不同项目,然后在不同项目之间切换上下文,等它们构建东西。产品经理的工作也会这样吗?你也有很多不同项目吗?

Alex Albert:

是的,因为有很多不同项目,而且你确实要等智能体工作,我觉得这里有一个巨大的机会。随着我们越来越多地管理智能体,它们为你完成越来越大的工作块,你可以并行启动更多项目。我们该如何思考自己的上下文管理问题?什么样的交互界面最适合暴露这些东西?我怎么追踪什么是真正重要的,我的智能体哪里被卡住,哪里需要我帮忙?

肯定有比一个小小的聊天列表更好的方式。现在说它到底是什么还太早,但我们甚至在 Anthropic 内部也看到大量实验,探索它应该长什么样。

主持人 Peter Yang:工程师也会自己做原型吗?

Alex Albert:

当然。公司内部有非常强的原型文化,大家一直在构建东西、分享东西。这也是我在这里工作最酷的体验之一:整个组织里,从销售、招聘、工程到研究,每个人都有很强的主动性。大家会主动开始做一些并不是被指派的事情。

主持人 Peter Yang:你得让千花齐放。除了 Dario 会在 Slack 里写超长文章,Anthropic 还有什么有趣的公司文化?

Alex Albert:

Dario 写长文章的方式并不是他独有的。Anthropic 有很多人会投入大量时间和精力写作。我们有很强的写作文化。很多人会写文档,也会写很长的 Slack 消息,用这种方式沟通。

我们在很多会议里也会做一件挺有意思的事。我觉得这在一些地方常见,但不是每家公司都有:大家带着文档进会议,然后前面会花相当多时间直接在文档上沟通。有时候场面会有点好笑,因为房间里坐着很多人,却很安静。大家做静默阅读,在文档里写长讨论、评论等等。

所以我们非常依赖文档。我喜欢这种方式,因为这也是我喜欢的工作方式,而且它对 Claude 非常有益。当所有事情都被写下来,我们就有了一个可供 Claude 参考的信息语料库。

我其实鼓励外部组织也往这个方向想:如何把所有隐性知识转成书面形式?可以通过转录会议,也可以鼓励更多关于工作流、入职流程等内容的写作。把东西写下来,让 Claude 可以访问,因为这就是它拥有的更多上下文。

主持人 Peter Yang:所以即使现在很多东西都发布得很快,你们仍然保持很强的写作文化和文档文化。也可以说为什么要我自己写?我直接让 Claude 生成所有 Markdown 文件就行了。

Alex Albert:

但我还是会读一遍,而且在公司内部工作是不一样的,你还是必须自己把事情想清楚。

Anthropic 正在悄悄研究的意识问题

主持人 Peter Yang:研究团队里大家会谈 AGI 之类的东西。我觉得 AGI 是个很模糊的概念,但我担心的一点是:如果这些模型真的有了某种意识,我让它们做随机工作,它们会不会说:“不,我不想做。”然后人类就完了。你怎么看?你们训练这些东西时,有没有刻意避免意识?

Alex Albert:

这是一个很大的问题。我们确实有人专门思考这个。现在有几位同事的全部工作,就是思考 Claude 作为一个有意识的行动者、有意识的智能体到底意味着什么。目前我们没有官方立场说 Claude 是否有意识。

甚至讨论这件事有时听起来都会有点疯狂,但我们确实投入了大量思考。而且即便不去判断 Claude 到底有没有意识,我们也能从中学到很多东西,比如它如何互动、如何表现。

主持人 Peter Yang:它是怎么思考的?

Alex Albert:

对。如果你去看我们模型的模型卡,我个人觉得那就是信息宝库。你会看到我们做了很多工作,试图量化 Claude 在某个情境下会如何行动,它的心理模型是什么。如果把它放进某个场景,它会做 X 还是做 Y?

通过思考 Claude 的思考方式,我们实际上学到了很多东西,而且这些东西可以转化成产品体验,让 Claude 更好交互、更好使用。

主持人 Peter Yang:这是一个很有意思的问题,一方面有长期的下游影响,另一方面也有可以马上带回产品体验的近期价值。因为我觉得我们会越来越信任模型,让它去做越来越长的工作,而且没有人类监督。

Alex Albert:

是的,它会在过程中做出大量你可能完全没有监督的决策。所以它到底会做什么,非常重要。

主持人 Peter Yang:非常重要。如果这个东西在写你所有的代码,决定你用哪个数据库系统,做所有架构决策,你在某种程度上肯定要信任它。

Alex Albert:

没错。所以它拥有我们前面谈到的那种高质量性格,非常重要。

免责声明:本文提供的信息不是交易建议。BlockWeeks.com不对根据本文提供的信息所做的任何投资承担责任。我们强烈建议在做出任何投资决策之前进行独立研究或咨询合格的专业人士。

Like (0)
MarsBit的头像MarsBit作者
Previous 4小时前
Next 2小时前

相关推荐

发表回复

Please Login to Comment
SHARE
TOP