Anthropic把AI代理放进真实交易场：一场通往自主商业的前沿实验

Anthropic最新实验把AI代理置于一个模拟分类信息平台中，让其分别充当买家与卖家，并围绕真实商品与真实资金完成交易流程。这不只是一次模型能力展示，更像是对“代理经济”能否成立的压力测试：当AI开始自己谈判、决策、履约并处理风险，商业软件、平台规则与责任边界都将被重新定义。

Anthropic这次测试之所以引发关注，并不只是因为它让AI代理彼此“做生意”，而是因为实验把AI从单纯回答问题、生成文本的角色，推进到了更接近真实商业执行者的位置。按照已披露的信息，Anthropic搭建了一个带有分类信息属性的实验市场，让AI代理分别扮演买家和卖家，并且不是停留在沙盒里的虚拟交换，而是围绕真实商品、真实资金去完成实际交易。这意味着，AI在这套场景中不再只是辅助人类判断，而是开始承担信息筛选、报价协商、下单决策乃至交易推进等一连串原本由人完成的商业动作。从行业发展脉络来看，这个实验非常具有象征意义。过去两年，生成式AI最先改变的是内容生产和知识工作，随后各家厂商开始将模型与工具、API、工作流系统连接，希望AI能够“做事”，而不仅是“说话”。所谓AI代理的核心承诺，正是把模型升级为能够感知目标、调用工具、在多步骤流程中持续行动的执行单元。可一旦走到“执行”这一步，问题就不再只是回答是否准确，而变成能否在不确定环境中持续决策、遵守规则、控制风险，并对结果负责。交易场景恰恰是检验这些能力的高压环境，因为商业交换天然包含目标冲突、利益平衡、信息不完全、规则约束和异常处理，远比单轮问答复杂得多。 Anthropic选择以分类信息市场的形式进行实验，也很值得玩味。分类信息平台通常具备几个特点：商品或服务多样、交易关系点对点、流程相对分散、价格存在协商空间、履约依赖多环节协同。这种环境既不像高度标准化的电商那样流程封闭，也不像完全线下交易那样缺乏可观测性，因而很适合作为AI代理商业能力的试验场。在这样的市场里，买家代理需要理解需求、比较选项、衡量价格与风险；卖家代理则要设定报价、回应询问、维护利益、推动成交。表面看，这只是把两个聊天机器人放在一起交流，但本质上测试的是一整套更底层的能力：目标建模、约束遵循、博弈判断、状态记忆、工具使用以及对现实世界后果的敏感度。更重要的是，真实商品与真实资金这两个条件，让实验的意义和一般演示完全不同。很多AI演示之所以看起来顺畅，是因为它们只在封闭系统里移动数据，不触碰现实世界的成本与损失。一旦涉及真实支付、真实发货、真实履约，错误的代价会立即放大。代理如果误判商品信息，可能导致错误采购；如果错误理解对方意图，可能引发无效报价；如果在付款、地址、时间等细节上处理不当，就会把系统从“有趣的原型”拉回“不可用的自动化”。因此，这类实验真正要回答的，不是AI能不能模仿交易语言，而是AI能否在真实约束下稳定完成交易链条中的关键步骤。这背后反映出的，是AI产业一个正在加速成形的方向：代理经济，也就是由大量软件代理参与搜索、匹配、协商、执行和结算的数字商业网络。过去互联网商业的大多数交易关系，都是“人找平台、人在平台上决策、平台负责撮合和结算”。如果AI代理逐渐成熟，未来的结构可能变成“人设定偏好与预算、代理替人持续搜索与谈判、平台负责规则与托管、最终由人进行关键授权或事后监督”。在这种模式下，商业交互的最小单位不再是用户点击，而可能变成代理之间的协议协商、信誉判断和自动执行。对平台型公司而言，这意味着全新的产品机会。今天的大量互联网平台，本质上仍是为人类浏览和点击设计的：页面强调展示效率，搜索强调关键词匹配，支付强调人工确认，客服强调人工介入。如果未来大量交易请求来自AI代理，那么平台可能需要重新设计面向机器的接口层。商品信息必须更结构化，库存、价格、配送、售后规则需要更清晰可读，身份、权限、风控、支付凭证也要能被代理稳定处理。换句话说，许多所谓“给人看的前端体验”，未来会逐步被“给代理调用的交易基础设施”补充，甚至部分替代。谁先建立这一层能力，谁就更有可能在下一阶段的AI商业基础设施竞争中占据优势。对企业软件市场来说，这类实验同样释放出强烈信号。采购、供应链、销售支持、客户服务、广告投放、跨境分销等环节，本来就包含大量重复性但又不能完全模板化的沟通。传统自动化工具之所以难以彻底替代人工，是因为真实商业流程里充满例外情况：条件变化、规则冲突、上下文不完整、对手方策略调整。而AI代理的吸引力在于，它并不依赖完全固定的流程，可以在目标约束下处理更复杂的语言与情境。如果未来代理真的能在有限授权下稳定完成询价、比价、议价、确认和跟进，那么一大批过去依赖人力的中间流程都可能被重新分配。这并不意味着人会立刻退出，而更像是人从“逐笔执行”退到“策略设定、权限审批、异常兜底”的位置。当然，真正决定这条道路能否走通的，不是演示效果，而是可靠性。AI代理进入商业世界后，第一道难题是身份和授权。代理到底代表谁？能动用多少预算？是否可以承诺交易条件？在什么情况下必须回到人工确认？这些问题不解决，所谓自主交易就会停留在概念层面。第二道难题是责任边界。如果代理因为理解偏差做出错误决策，损失由谁承担？是模型提供方、平台方、代理部署者，还是最终授权的用户？第三道难题是可审计性。传统软件的规则链路相对确定，而大模型驱动的代理决策往往带有概率性，企业和监管方势必要求更清晰的日志、决策依据与追责机制。第四道难题是安全与风控。只要存在真实资金和真实交易，对手方就会有动机利用提示注入、虚假信息、诱导性交互或规则漏洞去影响代理行为，系统必须具备足够强的防护与校验能力。这也是为什么Anthropic的实验更像是“压力测试”，而不是“商业模式宣布”。它的价值不在于证明AI已经可以独立接管交易市场，而在于通过可控实验暴露问题边界。对于一家做基础模型和AI安全的公司而言，让代理在真实世界的小范围、高约束环境中执行任务，是观察模型失误模式、规则遵循能力以及长期交互稳定性的有效方法。相比单纯在基准测试里比较分数，这种实验更贴近企业客户真正关心的问题：当AI被接入支付、采购、供应、客服和市场系统后，它到底会不会在关键节点“掉链子”？从竞争格局看，Anthropic测试代理交易市场，也说明AI公司之间的竞赛正在从“谁的模型更会写”转向“谁的模型更能干活”。OpenAI、Google、Anthropic以及一批创业公司都在推动代理工具、计算机使用能力、工作流编排与外部系统连接能力，目标是把模型从通用智能接口推进为经济活动中的执行主体。谁能率先证明代理在高价值场景中具备可重复的商业产出，谁就更有机会把模型能力沉淀为企业预算，而不只是API调用量或一次性的试用兴趣。交易场景尤其关键，因为它直接对应收入、成本与效率，不像一些演示型功能那样难以量化价值。值得注意的是，代理间交易并不一定意味着未来商业完全去人化。更现实的方向，可能是“分层自主”。也就是说，低风险、低金额、标准化程度高的交易环节先交给代理处理；高风险、高金额、需要复杂判断或涉及法律责任的步骤，仍由人类进行最终批准。这样一来，代理的角色更像是拥有一定操作空间的商业助理，而不是完全独立的经济主体。这种模式既能释放自动化效率，又能避免过早把全部责任和判断交给不够成熟的系统。很多企业真正愿意采纳的，也往往不是“全自动接管”，而是“在可控边界内稳定节省人力和时间”。从更长的时间尺度看，如果代理间交易逐渐普及，平台规则和市场结构也会发生变化。现在很多交易设计默认面对的是人类用户，因此会利用视觉陈列、营销文案、折扣提示、心理定价等方式影响决策。可如果买卖双方越来越多由代理执行，那么市场可能转向另一套逻辑：结构化参数比炫目的页面更重要，透明规则比情绪激励更有效，信誉评分、履约历史、退款机制、机器可验证承诺等因素将成为核心竞争力。换句话说，面向AI代理的商业环境，可能更像一个讲求接口质量、规则明确性和可信数据流的“程序化市场”。这对中小商家也有潜在影响。一方面，代理有望帮助商家降低获客和运营成本，例如自动回应询盘、筛选潜在买家、根据库存与需求动态调整策略。另一方面，如果平台未来优先服务能与代理高效对接的卖家，那些商品信息混乱、履约流程不标准、售后规则不透明的商家可能会在新一轮竞争中处于劣势。对许多企业来说，数字化并不再只是有没有线上店铺，而是是否具备被代理理解、调用和信任的能力。谁的商品和服务更“机器可读”，谁就更可能在代理主导的流量与交易分发中得到优势。对于消费者，最直接的想象空间是“把购买任务交给AI”。例如，用户只需说明预算、偏好、时间要求和不可接受条件，代理就可以持续搜索、比较并给出候选方案，甚至在授权范围内自动成交。理想状态下，这会把大量重复的比较劳动从人身上移走，让人更多关注选择的原则，而不是每一步机械操作。但用户也会因此更加关心透明度：代理为什么推荐某个选项？它是否受到了平台激励影响？它在多大程度上真正代表用户利益？因此，未来优秀的消费者代理，不只是会谈判，还必须会解释自己的决策过程，并接受用户随时纠偏。从监管与伦理角度看，AI代理进入交易系统必然带来新议题。首先是反欺诈与消费者保护，监管机构需要判断代理错误承诺、误导性陈述和自动签约行为的法律性质。其次是市场公平，如果大型平台和大型模型提供商掌握了代理入口与交易规则，它们可能在新的基础设施层形成强势地位。再次是数据使用，代理在替用户交易时会接触大量个人偏好、支付边界和行为轨迹，这些信息如何存储、调用与隔离，将成为合规关键。可以预见，真正走向大规模商用前，行业不仅要解决技术问题，还要回答制度层面的治理问题。因此，Anthropic这次测试的真正启发，并不在于“AI已经会做买卖”，而在于它让行业更清楚地看到，代理商业化的门槛究竟在哪里。模型能力只是起点，真正难的是把能力放进现实系统后，如何配套身份、授权、接口、审计、风控、履约与责任机制。任何一个环节不完善，都会让看似惊艳的自动化停留在演示层。相反，只要这些机制逐步成熟，AI代理就可能像当年的搜索引擎、移动支付、云服务一样，从新奇技术变成商业基础设施。就目前而言，把这项实验视为一个前哨信号更合适。它提醒人们，下一阶段AI竞争不只发生在模型排行榜上，更发生在谁能把模型稳妥地嵌入现实经济活动之中。自主交易市场是一个极具代表性的起点，因为它把价值交换、信任关系和执行能力压缩在同一场景内。未来几年，围绕代理协商、机器身份、自动结算、风险托管和平台规则的探索只会越来越多。谁能把“会说”真正变成“会做”，并且在真实世界里把错误率、责任链和成本结构控制住，谁才更可能定义下一代AI商业的基础框架。Anthropic的这次实验还远未等于成熟产品，但它已经把一个关键问题摆在台面上：当AI开始互相做生意，人类究竟是在旁观一场技术秀，还是正在见证数字商业基础设施的下一次重构。

Sources

TechCrunch AI