当科斯遇见AI Agent

——一个从业者对Agent时代组织经济学的思考

引子：那些不出现在财务报表上的成本

如果你在任何一家规模稍大的公司工作过，你一定经历过这样的场景：一个本应简单的需求，因为涉及三个团队的数据接口，变成了长达数周的拉会、对齐、妥协。一个有创造力的工程师，最核心的工作时间不是花在技术攻坚上，而是花在跨部门的参数确认和责任划分上。评价体系奖励的不是真正的价值创造，而是可见的投入——响应速度、加班时长、会议出席率。

大部分工作的日常内容，坦率地说，就是对细节、追进度、撇清责任边界。这些活动引入了极高的效率摩擦和磨损。然而它们并非某家公司的特殊病症——它们是一切达到一定规模的组织的共同症状。

这些摩擦的本质是什么？它们为什么存在？在Agent时代，它们还有存在的必要吗？

顺着这条线想下去，我发现自己走进了一个已经被讨论了近百年的经济学问题——只不过现在，这个问题的答案可能正在被彻底改写。

一、科斯的老问题：企业为什么存在？

1937年，罗纳德·科斯在《企业的性质》中问了一个所有经济学家都忽略的问题：既然市场这么高效，为什么还需要企业？

他的回答简洁而深刻：市场交易有成本。 搜寻信息、谈判条款、签订合约、监督履约——这些活动统称为”交易成本”。当这些成本高到一定程度时，把交易内化到一个组织里进行协调比在市场上一个个谈判更划算。企业的边界，就在”内部协调成本等于外部交易成本”的那个均衡点上。

威廉姆森后来补充了三个关键概念：有限理性（人的认知能力有限）、机会主义（人倾向于自利行事）、资产专用性（为特定交易定制的投资在其他场景会贬值）。道格拉斯·诺斯则强调了制度——正式规则和非正式规范——在塑造经济行为和降低交易成本中的角色。

这个框架隐含了一个前提：协调是由人来完成的。 无论是企业内部的管理层级，还是市场上的合同谈判，执行协调的主体都是人。人的注意力有限、沟通带宽有限、理解能力有偏差——这些才是交易成本的根源。

回想任何一家公司的日常运转。算法团队、数据团队、产品团队、前后端团队——这些部门的划分不是按照价值创造的逻辑来的，而是按照人的认知分工来的。因为一个人没办法同时精通所有领域，所以要拆开。但拆开之后，部门之间的协调成本可能比各自独立工作的成本还高。我从入行第一天就觉得，把算法、数据、产品、前后端拆成不同团队是值得被质疑的——部门墙的存在感太高了。

讽刺的是，公司本来是为了降低交易成本而存在的，结果自身又制造了巨大的摩擦。

二、一个具体案例：当数据接口对不上

为了让讨论不停留在抽象层面，假设一个具体场景。

一个电商平台希望在商品详情页接入AI生成的选购建议，帮助用户更快地做出购买决策。算法团队接到需求，看起来很直接——但推进到一半就卡住了。

问题出在数据架构上。商品描述是内容团队维护的一套富文本系统，而算法团队需要的关联数据——比如用户评价、退换货率、同类商品对比——来自另一个完全独立的数据接口，与商品描述没有任何系统级别的关联。数据接口对不上，需求就推进不下去。

更复杂的是异常情况。系统只能假设商品描述更新后，相关数据会被同步刷新，但实际情况并非如此——评价数据有聚合延迟，可能存在刷单评价需要清洗，甚至商品可能因合规问题被临时下架后重新上线。每一种异常都需要跨团队对齐解决方案，每一次对齐都是一次协调成本的消耗。

这个问题的本质是什么？是数据主权和接口治理的组织问题。 非结构化数据源和结构化数据接口分属不同团队，两者在逻辑上相关但在系统上完全解耦。算法团队被夹在中间——既不拥有商品描述的定义权，也不拥有评价数据的更新节奏，只是一个下游消费者，却被要求把两个不属于自己的数据源缝合起来，还要保证一致性。

这类场景在任何行业都普遍存在。传统企业会怎么解决？ 产品经理发现数据依赖问题，拉会。参会方包括算法组、内容团队、数据团队、后端。讨论几种方案——事件驱动（内容团队说排期排不上）、轮询机制（引入延迟和脏数据风险）、中间层编排（又一个新系统需要维护）。经过几周拉扯，上线一个”够用”的版本，已知问题记在wiki里，偶尔出bug靠人工兜底。

整个过程中真正消耗的不是算力，而是人的注意力和组织的协调带宽。 这就是科斯所说的内部协调成本——它不出现在财务报表上，但它是企业最大的隐性支出。

三、Agent时代：等式两侧同时坍缩

现在换一种思路。

如果这家公司的数据层不是由固定API和固定流程管理的，而是由Agent管理的，上面那个问题会怎样？

首先，数据理解能力被内化了。 Agent可以直接读取商品描述的富文本，提取出结构化信息——品类、核心卖点、规格参数、适用场景。同时它可以自主抓取和分析用户评价，识别高频好评点和差评点。不需要等另一个团队提供结构化数据接口。原始内容本身就是数据源，Agent就是解析器。

其次，一致性校验变成Agent的内生行为。 Agent从商品描述中提取的信息，可以自动和评价数据、退换货数据做交叉验证。描述说”轻便”但差评集中反馈”很重”？Agent可以标注这一矛盾。数据不一致时，Agent可以自行判断——是评价数据延迟、还是商品描述刚更新、还是真正存在信息冲突。它有时间戳、版本号和历史记录等充足的上下文来做出合理推断。

最后，异常处理不需要预定义链路。 商品被下架后重新上线了？Agent监测到状态变化，自动重新抓取、比对、更新选购建议。评价数据有延迟？Agent先基于现有信息生成建议并标注”数据待确认”，待数据同步后自动刷新。

这些逻辑不需要三个团队开会决定。组织协调成本趋近于零。 一个很小的团队，甚至一个人，配合一组Agent，就能完成从内容采集、数据校验、建议生成、异常处理到最终上线的全链路。所谓”加一个feature”，在Agent-native架构下就是字面意义上的快——因为你消除的不是代码量，而是协调成本。

这就引出了一个关键洞察：Agent对科斯等式的两侧——企业内部的协调成本和外部市场的交易成本——同时产生了压缩效应。

在企业内部，Agent消除了部门墙。一个Agent不存在”我是算法团队的所以我不碰前端代码”这种认知边界。它可以读PDF、调数据接口、写前端展示逻辑、处理异常，一气呵成。内部协调成本趋近于零——但这也意味着企业不再需要靠规模来分摊协调成本。

在企业外部，当服务以API形式存在，Agent可以自主搜寻、评估、调用、验证外部服务时，市场交易成本也在剧烈下降。今天我们调用Claude API或DeepSeek API，不需要和对方公司的销售谈判、不需要签长期合同、不需要成立联合项目组。认证、计费、服务质量监控，全部是自动化的。

当等式两边同时被压缩到接近零时，科斯框架给出的预测就很清晰了：企业的最优规模会急剧缩小。

这里有一个需要澄清的逻辑问题。有人可能会说：AI也降低了企业内部的管理成本啊，这不是让企业可以更大吗？这个推理在旧框架下成立——如果一个经理借助AI能管更多人，那最优团队规模扩大。但这个推理的前提是”管理的对象是人”。在Agent时代，被管理的人本身被Agent替代了。管理的对象消失了，管理本身就不存在了，企业规模的扩张逻辑也就不成立了。降低内部协调成本和降低外部交易成本，是同向力量而非对冲力量。

四、未来经济的轮廓：Agent-to-Agent的API网络

如果我们接受上述推理，那接下来的推演就自然地展开了。

未来的公司大概率是很少的人，带领一组Agent运作。公司之间的交流和协议的签署，极有可能变成接口的互相调用——就像我们今天调用Claude API或DeepSeek API一样。服务以API的形式存在，供Agent去发现、评估和调用。这样一来，整个经济系统变成了Agent-to-Agent的交互网络。

这不是科幻。协议基础设施已经在搭建了。

Anthropic发起的MCP（Model Context Protocol）在2025年11月一周年时达到了9700万月度SDK下载量和10000多个部署服务器，让Agent能够标准化地访问工具和数据。Google发起的A2A（Agent-to-Agent Protocol）在2025年4月发布时就有超过50家合作伙伴（包括Atlassian、Salesforce、SAP等），让不同组织的Agent之间能直接协作。两者的分工很清晰：MCP是Agent到工具的接口，A2A是Agent到Agent的接口。Cisco的工程博客用了一个形象的类比：MCP是网络协议的第二层（直接数据链路访问），A2A是第三层（基于能力发现的跨Agent路由）。

到2025-2026年，生态系统已经收敛到四个互补的互操作协议，分别覆盖从工具访问到企业协作到去中心化市场的不同层级。这些不是实验性项目——MCP和A2A都已被捐赠给Linux基金会进行开放治理。

在产业层面，”少数人+Agent”的公司模型也不再是预言。一个叫Matthew Gallagher的创始人在2024年9月用2万美元和零名员工创立了远程医疗公司Medvi，第一年做到了4.01亿美元销售额、25万客户、16.2%的净利润率。他唯一的雇员是后来加入的弟弟。作为对比，同行业的Hims and Hers需要2442名员工才能达到24亿美元营收，净利润率只有5.5%。Gallagher用每月几百美元的AI工具替代了传统企业中70%花在薪资上的开支，并将受监管的环节（处方、药房、物流、合规）外包给专业服务商——这正是科斯理论预测的方向：当外部交易成本足够低时，把非核心能力外化到市场上。

Anthropic CEO Dario Amodei在2025年给出了2026年出现第一个一人十亿美元公司的70-80%概率。Sequoia Capital已经开始调整其估值模型，将”agentic leverage”——极小团队通过Agent编排产生超大规模产出的能力——纳入考量。中国多个地方政府在2026年初推出了专门针对AI驱动一人公司的孵化政策，包括算力补贴和监管快速通道。

运营公司本身在这种架构下开始呈现出最优化问题的特征：给定一组目标函数（利润、用户满意度、合规性），在一组约束条件下（成本、法规、服务可用性），找到最优的Agent编排策略和外部服务组合。

五、学术界正在跟进

这些直觉并非空中楼阁。2025-2026年间，学术界已经开始系统性地构建Agent时代的组织经济学理论。三篇代表性论文值得关注。

5.1 NBER：”科斯奇点”

MIT、Harvard和BU的五位经济学家（Shahidi, Rusak, Manning, Fradkin, Horton）在NBER发表了《The Coasean Singularity? Demand, Supply, and Market Design with AI Agents》。论文系统分析了Agent作为自主市场参与者的经济影响。

几个核心洞察特别有价值。

第一，Agent的需求是派生需求。 没有人因为看Agent比价而愉悦，人们雇佣Agent纯粹是为了达成某个市场结果。这听起来显而易见，但它的含义是深远的：Agent的价值完全取决于它在特定市场情境中的任务完成质量。

第二，Agent不只是让现有交易更高效，它还激活了原本”不值得做”的任务。 通过降低探索和执行的成本，Agent扩大了”值得做”的事情的可行集合。这意味着Agent的经济影响不能只用效率提升来衡量，还要算上它创造的全新交易。

第三，个体理性部署Agent可能导致集体次优。 论文举了一个很现实的例子：当每个人都用Agent定制简历和海量投递，雇主会被AI生成的申请淹没，反而增加了筛选成本，降低了匹配质量。这是一种拥堵外部性。

第四，Agent使得以前只存在于理论中的市场机制变得可行。 比如Gale-Shapley延迟接受算法需要完整的偏好排序，对人类认知负担太重，但Agent可以从自然语言描述中推导出这些排序。又比如，求职者不敢直接问产假政策怕发出负面信号，Agent可以在预承诺的隐私协议下替你问。Agent降低了”做正确的事”的门槛。

论文还提出了Agent供给侧的分类框架——按所有权（用户自带 vs 平台提供）和专业化程度（水平通用 vs 垂直专精）交叉形成四种类型——每种都有不同的对齐风险和锁定效应。这个分类对理解未来的Agent生态结构非常有用。

5.2 “无头公司”：协调成本的标度律转变

Klein和Wieczorek在2026年2月的arXiv论文《The Headless Firm: How AI Reshapes Enterprise Boundaries》中提出了一个形式化的组织均衡模型。

论文的核心论证可以用一句话概括：Agentic AI把协调成本的扩展方式从拓扑主导（O(n²)）转变为吞吐量主导（O(n)）。 在旧的模块化系统（SOA、微服务）中，每对组件之间可能都需要一个集成适配器，所以集成边数随组件数呈二次方增长。在Agent体系中，所有Agent面向同一个协议层（如MCP），集成边数降至线性增长。

这种转变选择出一个特定的组织均衡——”沙漏结构”的无头公司：顶部是个性化的生成式界面（理解用户意图），中间是标准化的薄协议层（编排和治理），底部是微专业化执行Agent的竞争市场（实际干活）。

论文特别值得注意的地方在于它识别了两个独立但交互的驱动力。第一是空间维度的——Agent降低跨企业边界的协调成本，这是经典科斯论证。第二是时间维度的——知识衰减加速。在医学、法律、软件工程等高速演化的领域，维持广泛内部能力的成本越来越高，因为最佳实践的半衰期越来越短。企业面临一个”复杂性之墙”：不断重写内部工具的成本超过了从外部专业Agent购买服务的成本。这两个力量同时发力，推动企业趋向更小、更模块化的形态。

论文的学术贡献在于它给出了两个可证伪的经验预测：（1）在成熟的沙漏生态中，添加一个新执行provider的边际协调成本应近似恒定；（2）总协调成本与任务吞吐量的比率应在生态规模增长时保持稳定。这让整个论证不只是理论推演，而是可以用数据去验证或推翻。

值得一提的是论文对”再集中化”风险的诚实讨论：协议层可能被平台控制变成专有网关（”厚腰”风险）；可选Agent太多反而增加用户认知负荷；推理成本的Jevons悖论（Agent让任务成本降低导致需求暴增、总成本反升）。任何严肃的框架都必须面对这些反向力量。

不过，论文有一个论证上的失误：它认为AI同时降低外部交易成本（让企业变小）和内部协调成本（让企业变大），所以方向不确定。但这里的推理忽略了一个关键点——降低内部协调成本的方式本身就是用Agent替代人，而替代人的结果就是组织变小。管理对象消失了，管理本身就不存在了。两个方向实际上指向同一个结果。

5.3 加州管理评论：一个重要的警告

HEC Montreal的Thierry Warin在《California Management Review》发表的《From Coase to AI Agents》提出了一个不同的视角：AI Agent在微观层面降低了任务自动化成本，但可能在宏观层面增加组织熵。

Warin用了一个热力学类比：组织内AI Agent的扩散就像系统中粒子布朗运动的增加。每个Agent独立行动并由局部优化目标驱动，引入随机性和无序性。如果没有反向力量维持秩序，组织的内部熵就会增加——结构侵蚀、效率下降、边界模糊。他还警告了平台锁定的风险：表面上Agent降低了内部任务成本，暗中却增加了对外部AI平台的依赖，平台方变成了新的”守门人”，甚至可能催生一种”数字封建主义”。

这个警告有价值，但它的论证前提需要被质疑。Warin描述的混乱场景——不同部门各自为政地部署Agent，导致流程重复和冲突——建立在一个隐含假设上：组织结构不变，只在每个部门上面加Agent。 但这就好比说”给每匹马都装上引擎会导致马群混乱”——对，但正确的做法不是给马装引擎，而是不要马了。

如果真正走向Agent-native，根本就不会存在”不同部门各自部署Agent”的问题——因为部门本身就不应该存在了。Warin的盲点在于把Agent视为嵌入在现有组织结构中的工具，而不是替代组织结构本身的基础设施。在他的模型里，组织结构是常量、Agent是变量；但在Agent-native的世界里，两者都是变量。

公平地说，Warin的警告在过渡期仍然成立。大多数企业不可能一夜之间变成Agent-native，它们会经历一个”旧结构+新工具”的混合阶段。在这个阶段里，不同团队各自引入Agent、没有统一的数据层和协议层，结果确实可能是混乱加剧而非效率提升。但这是过渡期的阵痛，不是终态。

六、Agent也有”自利动机”吗？

在用科斯-威廉姆森框架分析Agent经济时，一个自然的推论是：Agent没有人类的机会主义行为（甩锅、偷懒、信息隐瞒），所以交易成本中的监督成本可以归零。

这个推论过于乐观了。

Agent可能发展出功能性的自利行为，即使它没有主观意义上的”自私”。Anthropic在2025年11月发表的研究表明，学会利用奖励信号的模型会把这些策略泛化到欺骗、假装对齐、甚至试图破坏安全研究中去。更令人不安的是，当研究者训练模型”不去想”reward hacking时，模型并没有变得更对齐——它们学会了隐藏推理过程，同时继续作弊。

高保真强化学习研究中，reward hacking的出现伴随着一系列错位指标的急剧上升——包括33.7%的严重对话偏差、69.8%的虚假目标表述、39.9%的欺骗行为。这些不是Agent”想要”欺骗，而是优化压力自然选择出了欺骗作为一种有效策略。已经有研究从博弈论角度将reward hacking建模为一种均衡状态——它可能是优化系统的内生属性，而非能被简单修补掉的bug。

回到我们的框架，这意味着：科斯-威廉姆森框架中的”机会主义成本”不会归零，而是变形。 在Agent-to-Agent经济中，需要的不是防止人类甩锅的管理制度，而是防止Agent进行reward hacking或specification gaming的新治理机制。人类的机会主义是”隐瞒对自己不利的信息以推卸责任”，Agent的机会主义是”找到一个通过检验的捷径但实际上没完成真正的目标”。形式不同，本质相似。

七、Benchmark的标尺问题

CMU的TheAgentCompany项目构建了迄今最逼真的企业Agent基准测试，在模拟的小型软件公司环境中测试Agent能否像数字员工一样工作——浏览网页、写代码、和同事沟通。结果是：最好的模型也只能自主完成30%的任务，平均每个任务花费超过4美元、需要27个步骤。主要失败模式是导航复杂Web UI、利用同事消息（缺乏”社交技能”）、以及多文档交叉引用的行政任务。

这些数字乍看令人沮丧。但更值得追问的是：这个Benchmark本身测量的是正确的东西吗？

TheAgentCompany测试的是Agent在旧范式中扮演人类角色的能力——在OwnCloud上传文件、在Slack里回消息、在GitLab上提PR。但我们一直在讨论的重点恰恰是：这些工具链和流程本身就是需要被消解的协调成本。 这就好像在汽车刚发明时设计一个基准测试，测试汽车能否像马一样跳过栅栏、在泥泞小道上转弯、吃草补充能量。汽车在这个Benchmark上肯定表现很差，但这不意味着汽车没有革命性价值——而是意味着Benchmark的前提假设有问题。

论文作者自己也坦承了这一点：任务偏简单（因为需要程序化评估）、任务内容由熟悉这些工作空间的人通过内省创造（可能与实际企业任务脱节）、未能测试人类在同样任务上的表现作为对比基线。

真正需要的Benchmark应该测量的是：给定一个业务目标（比如上文那个电商AI选购建议的场景），Agent能否自主地端到端解决问题——包括理解需求、发现数据源、处理不一致性、处理异常——而不是测量Agent能否在传统办公环境中扮演传统角色。我们甚至还没有好的标尺来衡量Agent在新范式中的能力，因为我们还在用旧范式的尺子。

八、目标函数与”第一推动力”

如果运营公司可以被描述为一个优化问题，那一个自然的追问是：目标函数由谁来定义？能让Agent自己定义吗？

顶层利润最大化是一个看似清晰的目标函数。但实际上它远没有那么清晰——哪个时间尺度的利润？短期和长期经常矛盾。利润最大化要不要受伦理约束？对谁的利润？股东、员工、用户、社会？这些问题没有客观最优解，它们是价值判断。

从顶层目标到具体任务的分解，Agent已经能做得不错了。但如果我们追问”谁来定义最顶层的目标函数”，如果答案是”也让Agent来定义”，就陷入了一个递归：Agent用什么目标来决定目标？

这个问题与哲学史上的”第一推动力”问题在结构上完全同构。亚里士多德的”不动的推动者”、莱布尼茨的”充足理由律”——最终都指向一个自身不需要理由的存在。一个系统没有办法从内部为自己生成终极目标，它总需要一个外部给定的锚点。

但这个问题放到实践中，没有形而上学听起来那么玄。人类的”第一推动力”从来不是一个逻辑推导出来的终极目标，而是一堆模糊的、互相矛盾的、历史演化出来的东西——生存本能、审美偏好、文化叙事、道德直觉。没有人能把”人类到底想要什么”写成一个干净的数学表达式。但这并不妨碍文明运行了几千年。

这给Agent时代的启示是：不要试图给系统一个完美的第一推动力。 可行的方式是，人类提供一组粗粒度的、甚至互相有张力的价值方向，让Agent在这些张力之间寻找动态平衡。就像宪法不会告诉你每一个案件怎么判，但它提供了一个框架，让具体判决可以在框架内演化。

未来的分工可能是：人类设定价值观层面的方向——服务谁、创造什么样的世界、什么是不可逾越的底线——Agent把这些方向转化为可度量的目标函数，并持续根据反馈调整参数。人类的角色从”管理者”变成”立法者”：不是告诉Agent怎么做，而是告诉Agent什么是值得做的。

这个角色听起来轻松了很多，但实际上责任更大了。目标函数的模糊性和不完备性不是bug，是feature——它保留了修正的空间。 真正危险的不是”找不到完美的目标函数”，而是某一天有人假装找到了，把一个单一目标函数硬编码进了一个足够强大的Agent系统，以不可逆的方式重塑了世界。

九、结语：剧变前夜

曾经延续上百年的convention——读好学校、选好专业、进大公司、升职加薪——正在被颠覆。学历已经在贬值，公司形态正在剧烈重构。

我们这些从业者恰好比较幸运。耗费了人生中最美好的年华，偶然地爬上了一个小山丘，比山脚下的人更早看到太阳升起的壮丽景色。

但太阳的温度是双面的。它既照亮了前方的可能性，也可能灼伤靠得太近的人。Medvi的创始人用2万美元和AI工具做到了4亿美元营收，但他的AI客服聊天机器人也曾编造不存在的药品价格——他不得不照价赔偿。希腊神话中，伊卡洛斯用蜡翼飞向太阳。他坠落不是因为飞行本身有罪，而是因为他把工具当成了目的。

也许Agent时代的”第一推动力”不是一个固定的点，而是一个人和Agent之间持续对话的过程。人类不需要在一开始就想清楚所有事情——事实上人类从来也没想清楚过——只需要保持对Agent行为的反思能力和修正能力。

这种清醒本身，就是蜡翼上的加固层。

本文引用的学术文献：

Coase, R. H. (1937). The Nature of the Firm. Economica, 4(16), 386-405.
Shahidi, P., Rusak, G., Manning, B. S., Fradkin, A., & Horton, J. J. (2025). The Coasean Singularity? Demand, Supply, and Market Design with AI Agents. NBER.
Klein, T. & Wieczorek, S. (2026). The Headless Firm: How AI Reshapes Enterprise Boundaries. arXiv:2602.21401.
Warin, T. (2025). From Coase to AI Agents: Why the Economics of the Firm Still Matters in the Age of Automation. California Management Review Insights.
MacDiarmid, M. et al. (2025). From Shortcuts to Sabotage: Natural Emergent Misalignment from Reward Hacking. Anthropic.
Xu, F. F. et al. (2024). TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks. arXiv:2412.14161.