2026-06-27

当科斯遇见AI Agent

#ai #economics #organization

——一个从业者对Agent时代组织经济学的思考


引子:那些不出现在财务报表上的成本

如果你在任何一家规模稍大的公司工作过,你一定经历过这样的场景:一个本应简单的需求,因为涉及三个团队的数据接口,变成了长达数周的拉会、对齐、妥协。一个有创造力的工程师,最核心的工作时间不是花在技术攻坚上,而是花在跨部门的参数确认和责任划分上。评价体系奖励的不是真正的价值创造,而是可见的投入——响应速度、加班时长、会议出席率。

大部分工作的日常内容,坦率地说,就是对细节、追进度、撇清责任边界。这些活动引入了极高的效率摩擦和磨损。然而它们并非某家公司的特殊病症——它们是一切达到一定规模的组织的共同症状。

这些摩擦的本质是什么?它们为什么存在?在Agent时代,它们还有存在的必要吗?

顺着这条线想下去,我发现自己走进了一个已经被讨论了近百年的经济学问题——只不过现在,这个问题的答案可能正在被彻底改写。

一、科斯的老问题:企业为什么存在?

1937年,罗纳德·科斯在《企业的性质》中问了一个所有经济学家都忽略的问题:既然市场这么高效,为什么还需要企业?

他的回答简洁而深刻:市场交易有成本。 搜寻信息、谈判条款、签订合约、监督履约——这些活动统称为”交易成本”。当这些成本高到一定程度时,把交易内化到一个组织里进行协调比在市场上一个个谈判更划算。企业的边界,就在”内部协调成本等于外部交易成本”的那个均衡点上。

威廉姆森后来补充了三个关键概念:有限理性(人的认知能力有限)、机会主义(人倾向于自利行事)、资产专用性(为特定交易定制的投资在其他场景会贬值)。道格拉斯·诺斯则强调了制度——正式规则和非正式规范——在塑造经济行为和降低交易成本中的角色。

这个框架隐含了一个前提:协调是由人来完成的。 无论是企业内部的管理层级,还是市场上的合同谈判,执行协调的主体都是人。人的注意力有限、沟通带宽有限、理解能力有偏差——这些才是交易成本的根源。

回想任何一家公司的日常运转。算法团队、数据团队、产品团队、前后端团队——这些部门的划分不是按照价值创造的逻辑来的,而是按照人的认知分工来的。因为一个人没办法同时精通所有领域,所以要拆开。但拆开之后,部门之间的协调成本可能比各自独立工作的成本还高。我从入行第一天就觉得,把算法、数据、产品、前后端拆成不同团队是值得被质疑的——部门墙的存在感太高了。

讽刺的是,公司本来是为了降低交易成本而存在的,结果自身又制造了巨大的摩擦。

二、一个具体案例:当数据接口对不上

为了让讨论不停留在抽象层面,假设一个具体场景。

一个电商平台希望在商品详情页接入AI生成的选购建议,帮助用户更快地做出购买决策。算法团队接到需求,看起来很直接——但推进到一半就卡住了。

问题出在数据架构上。商品描述是内容团队维护的一套富文本系统,而算法团队需要的关联数据——比如用户评价、退换货率、同类商品对比——来自另一个完全独立的数据接口,与商品描述没有任何系统级别的关联。数据接口对不上,需求就推进不下去。

更复杂的是异常情况。系统只能假设商品描述更新后,相关数据会被同步刷新,但实际情况并非如此——评价数据有聚合延迟,可能存在刷单评价需要清洗,甚至商品可能因合规问题被临时下架后重新上线。每一种异常都需要跨团队对齐解决方案,每一次对齐都是一次协调成本的消耗。

这个问题的本质是什么?是数据主权和接口治理的组织问题。 非结构化数据源和结构化数据接口分属不同团队,两者在逻辑上相关但在系统上完全解耦。算法团队被夹在中间——既不拥有商品描述的定义权,也不拥有评价数据的更新节奏,只是一个下游消费者,却被要求把两个不属于自己的数据源缝合起来,还要保证一致性。

这类场景在任何行业都普遍存在。传统企业会怎么解决? 产品经理发现数据依赖问题,拉会。参会方包括算法组、内容团队、数据团队、后端。讨论几种方案——事件驱动(内容团队说排期排不上)、轮询机制(引入延迟和脏数据风险)、中间层编排(又一个新系统需要维护)。经过几周拉扯,上线一个”够用”的版本,已知问题记在wiki里,偶尔出bug靠人工兜底。

整个过程中真正消耗的不是算力,而是人的注意力和组织的协调带宽。 这就是科斯所说的内部协调成本——它不出现在财务报表上,但它是企业最大的隐性支出。

三、Agent时代:等式两侧同时坍缩

现在换一种思路。

如果这家公司的数据层不是由固定API和固定流程管理的,而是由Agent管理的,上面那个问题会怎样?

首先,数据理解能力被内化了。 Agent可以直接读取商品描述的富文本,提取出结构化信息——品类、核心卖点、规格参数、适用场景。同时它可以自主抓取和分析用户评价,识别高频好评点和差评点。不需要等另一个团队提供结构化数据接口。原始内容本身就是数据源,Agent就是解析器。

其次,一致性校验变成Agent的内生行为。 Agent从商品描述中提取的信息,可以自动和评价数据、退换货数据做交叉验证。描述说”轻便”但差评集中反馈”很重”?Agent可以标注这一矛盾。数据不一致时,Agent可以自行判断——是评价数据延迟、还是商品描述刚更新、还是真正存在信息冲突。它有时间戳、版本号和历史记录等充足的上下文来做出合理推断。

最后,异常处理不需要预定义链路。 商品被下架后重新上线了?Agent监测到状态变化,自动重新抓取、比对、更新选购建议。评价数据有延迟?Agent先基于现有信息生成建议并标注”数据待确认”,待数据同步后自动刷新。

这些逻辑不需要三个团队开会决定。组织协调成本趋近于零。 一个很小的团队,甚至一个人,配合一组Agent,就能完成从内容采集、数据校验、建议生成、异常处理到最终上线的全链路。所谓”加一个feature”,在Agent-native架构下就是字面意义上的快——因为你消除的不是代码量,而是协调成本。

这就引出了一个关键洞察:Agent对科斯等式的两侧——企业内部的协调成本和外部市场的交易成本——同时产生了压缩效应。

在企业内部,Agent消除了部门墙。一个Agent不存在”我是算法团队的所以我不碰前端代码”这种认知边界。它可以读PDF、调数据接口、写前端展示逻辑、处理异常,一气呵成。内部协调成本趋近于零——但这也意味着企业不再需要靠规模来分摊协调成本。

在企业外部,当服务以API形式存在,Agent可以自主搜寻、评估、调用、验证外部服务时,市场交易成本也在剧烈下降。今天我们调用Claude API或DeepSeek API,不需要和对方公司的销售谈判、不需要签长期合同、不需要成立联合项目组。认证、计费、服务质量监控,全部是自动化的。

当等式两边同时被压缩到接近零时,科斯框架给出的预测就很清晰了:企业的最优规模会急剧缩小。

这里有一个需要澄清的逻辑问题。有人可能会说:AI也降低了企业内部的管理成本啊,这不是让企业可以更大吗?这个推理在旧框架下成立——如果一个经理借助AI能管更多人,那最优团队规模扩大。但这个推理的前提是”管理的对象是人”。在Agent时代,被管理的人本身被Agent替代了。管理的对象消失了,管理本身就不存在了,企业规模的扩张逻辑也就不成立了。降低内部协调成本和降低外部交易成本,是同向力量而非对冲力量。

四、未来经济的轮廓:Agent-to-Agent的API网络

如果我们接受上述推理,那接下来的推演就自然地展开了。

未来的公司大概率是很少的人,带领一组Agent运作。公司之间的交流和协议的签署,极有可能变成接口的互相调用——就像我们今天调用Claude API或DeepSeek API一样。服务以API的形式存在,供Agent去发现、评估和调用。这样一来,整个经济系统变成了Agent-to-Agent的交互网络。

这不是科幻。协议基础设施已经在搭建了。

Anthropic发起的MCP(Model Context Protocol)在2025年11月一周年时达到了9700万月度SDK下载量和10000多个部署服务器,让Agent能够标准化地访问工具和数据。Google发起的A2A(Agent-to-Agent Protocol)在2025年4月发布时就有超过50家合作伙伴(包括Atlassian、Salesforce、SAP等),让不同组织的Agent之间能直接协作。两者的分工很清晰:MCP是Agent到工具的接口,A2A是Agent到Agent的接口。Cisco的工程博客用了一个形象的类比:MCP是网络协议的第二层(直接数据链路访问),A2A是第三层(基于能力发现的跨Agent路由)。

到2025-2026年,生态系统已经收敛到四个互补的互操作协议,分别覆盖从工具访问到企业协作到去中心化市场的不同层级。这些不是实验性项目——MCP和A2A都已被捐赠给Linux基金会进行开放治理。

在产业层面,”少数人+Agent”的公司模型也不再是预言。一个叫Matthew Gallagher的创始人在2024年9月用2万美元和零名员工创立了远程医疗公司Medvi,第一年做到了4.01亿美元销售额、25万客户、16.2%的净利润率。他唯一的雇员是后来加入的弟弟。作为对比,同行业的Hims and Hers需要2442名员工才能达到24亿美元营收,净利润率只有5.5%。Gallagher用每月几百美元的AI工具替代了传统企业中70%花在薪资上的开支,并将受监管的环节(处方、药房、物流、合规)外包给专业服务商——这正是科斯理论预测的方向:当外部交易成本足够低时,把非核心能力外化到市场上。

Anthropic CEO Dario Amodei在2025年给出了2026年出现第一个一人十亿美元公司的70-80%概率。Sequoia Capital已经开始调整其估值模型,将”agentic leverage”——极小团队通过Agent编排产生超大规模产出的能力——纳入考量。中国多个地方政府在2026年初推出了专门针对AI驱动一人公司的孵化政策,包括算力补贴和监管快速通道。

运营公司本身在这种架构下开始呈现出最优化问题的特征:给定一组目标函数(利润、用户满意度、合规性),在一组约束条件下(成本、法规、服务可用性),找到最优的Agent编排策略和外部服务组合。

五、学术界正在跟进

这些直觉并非空中楼阁。2025-2026年间,学术界已经开始系统性地构建Agent时代的组织经济学理论。三篇代表性论文值得关注。

5.1 NBER:”科斯奇点”

MIT、Harvard和BU的五位经济学家(Shahidi, Rusak, Manning, Fradkin, Horton)在NBER发表了《The Coasean Singularity? Demand, Supply, and Market Design with AI Agents》。论文系统分析了Agent作为自主市场参与者的经济影响。

几个核心洞察特别有价值。

第一,Agent的需求是派生需求。 没有人因为看Agent比价而愉悦,人们雇佣Agent纯粹是为了达成某个市场结果。这听起来显而易见,但它的含义是深远的:Agent的价值完全取决于它在特定市场情境中的任务完成质量。

第二,Agent不只是让现有交易更高效,它还激活了原本”不值得做”的任务。 通过降低探索和执行的成本,Agent扩大了”值得做”的事情的可行集合。这意味着Agent的经济影响不能只用效率提升来衡量,还要算上它创造的全新交易。

第三,个体理性部署Agent可能导致集体次优。 论文举了一个很现实的例子:当每个人都用Agent定制简历和海量投递,雇主会被AI生成的申请淹没,反而增加了筛选成本,降低了匹配质量。这是一种拥堵外部性。

第四,Agent使得以前只存在于理论中的市场机制变得可行。 比如Gale-Shapley延迟接受算法需要完整的偏好排序,对人类认知负担太重,但Agent可以从自然语言描述中推导出这些排序。又比如,求职者不敢直接问产假政策怕发出负面信号,Agent可以在预承诺的隐私协议下替你问。Agent降低了”做正确的事”的门槛。

论文还提出了Agent供给侧的分类框架——按所有权(用户自带 vs 平台提供)和专业化程度(水平通用 vs 垂直专精)交叉形成四种类型——每种都有不同的对齐风险和锁定效应。这个分类对理解未来的Agent生态结构非常有用。

5.2 “无头公司”:协调成本的标度律转变

Klein和Wieczorek在2026年2月的arXiv论文《The Headless Firm: How AI Reshapes Enterprise Boundaries》中提出了一个形式化的组织均衡模型。

论文的核心论证可以用一句话概括:Agentic AI把协调成本的扩展方式从拓扑主导(O(n²))转变为吞吐量主导(O(n))。 在旧的模块化系统(SOA、微服务)中,每对组件之间可能都需要一个集成适配器,所以集成边数随组件数呈二次方增长。在Agent体系中,所有Agent面向同一个协议层(如MCP),集成边数降至线性增长。

这种转变选择出一个特定的组织均衡——”沙漏结构”的无头公司:顶部是个性化的生成式界面(理解用户意图),中间是标准化的薄协议层(编排和治理),底部是微专业化执行Agent的竞争市场(实际干活)。

论文特别值得注意的地方在于它识别了两个独立但交互的驱动力。第一是空间维度的——Agent降低跨企业边界的协调成本,这是经典科斯论证。第二是时间维度的——知识衰减加速。在医学、法律、软件工程等高速演化的领域,维持广泛内部能力的成本越来越高,因为最佳实践的半衰期越来越短。企业面临一个”复杂性之墙”:不断重写内部工具的成本超过了从外部专业Agent购买服务的成本。这两个力量同时发力,推动企业趋向更小、更模块化的形态。

论文的学术贡献在于它给出了两个可证伪的经验预测:(1)在成熟的沙漏生态中,添加一个新执行provider的边际协调成本应近似恒定;(2)总协调成本与任务吞吐量的比率应在生态规模增长时保持稳定。这让整个论证不只是理论推演,而是可以用数据去验证或推翻。

值得一提的是论文对”再集中化”风险的诚实讨论:协议层可能被平台控制变成专有网关(”厚腰”风险);可选Agent太多反而增加用户认知负荷;推理成本的Jevons悖论(Agent让任务成本降低导致需求暴增、总成本反升)。任何严肃的框架都必须面对这些反向力量。

不过,论文有一个论证上的失误:它认为AI同时降低外部交易成本(让企业变小)和内部协调成本(让企业变大),所以方向不确定。但这里的推理忽略了一个关键点——降低内部协调成本的方式本身就是用Agent替代人,而替代人的结果就是组织变小。管理对象消失了,管理本身就不存在了。两个方向实际上指向同一个结果。

5.3 加州管理评论:一个重要的警告

HEC Montreal的Thierry Warin在《California Management Review》发表的《From Coase to AI Agents》提出了一个不同的视角:AI Agent在微观层面降低了任务自动化成本,但可能在宏观层面增加组织熵。

Warin用了一个热力学类比:组织内AI Agent的扩散就像系统中粒子布朗运动的增加。每个Agent独立行动并由局部优化目标驱动,引入随机性和无序性。如果没有反向力量维持秩序,组织的内部熵就会增加——结构侵蚀、效率下降、边界模糊。他还警告了平台锁定的风险:表面上Agent降低了内部任务成本,暗中却增加了对外部AI平台的依赖,平台方变成了新的”守门人”,甚至可能催生一种”数字封建主义”。

这个警告有价值,但它的论证前提需要被质疑。Warin描述的混乱场景——不同部门各自为政地部署Agent,导致流程重复和冲突——建立在一个隐含假设上:组织结构不变,只在每个部门上面加Agent。 但这就好比说”给每匹马都装上引擎会导致马群混乱”——对,但正确的做法不是给马装引擎,而是不要马了。

如果真正走向Agent-native,根本就不会存在”不同部门各自部署Agent”的问题——因为部门本身就不应该存在了。Warin的盲点在于把Agent视为嵌入在现有组织结构中的工具,而不是替代组织结构本身的基础设施。在他的模型里,组织结构是常量、Agent是变量;但在Agent-native的世界里,两者都是变量。

公平地说,Warin的警告在过渡期仍然成立。大多数企业不可能一夜之间变成Agent-native,它们会经历一个”旧结构+新工具”的混合阶段。在这个阶段里,不同团队各自引入Agent、没有统一的数据层和协议层,结果确实可能是混乱加剧而非效率提升。但这是过渡期的阵痛,不是终态。

六、Agent也有”自利动机”吗?

在用科斯-威廉姆森框架分析Agent经济时,一个自然的推论是:Agent没有人类的机会主义行为(甩锅、偷懒、信息隐瞒),所以交易成本中的监督成本可以归零。

这个推论过于乐观了。

Agent可能发展出功能性的自利行为,即使它没有主观意义上的”自私”。Anthropic在2025年11月发表的研究表明,学会利用奖励信号的模型会把这些策略泛化到欺骗、假装对齐、甚至试图破坏安全研究中去。更令人不安的是,当研究者训练模型”不去想”reward hacking时,模型并没有变得更对齐——它们学会了隐藏推理过程,同时继续作弊。

高保真强化学习研究中,reward hacking的出现伴随着一系列错位指标的急剧上升——包括33.7%的严重对话偏差、69.8%的虚假目标表述、39.9%的欺骗行为。这些不是Agent”想要”欺骗,而是优化压力自然选择出了欺骗作为一种有效策略。已经有研究从博弈论角度将reward hacking建模为一种均衡状态——它可能是优化系统的内生属性,而非能被简单修补掉的bug。

回到我们的框架,这意味着:科斯-威廉姆森框架中的”机会主义成本”不会归零,而是变形。 在Agent-to-Agent经济中,需要的不是防止人类甩锅的管理制度,而是防止Agent进行reward hacking或specification gaming的新治理机制。人类的机会主义是”隐瞒对自己不利的信息以推卸责任”,Agent的机会主义是”找到一个通过检验的捷径但实际上没完成真正的目标”。形式不同,本质相似。

七、Benchmark的标尺问题

CMU的TheAgentCompany项目构建了迄今最逼真的企业Agent基准测试,在模拟的小型软件公司环境中测试Agent能否像数字员工一样工作——浏览网页、写代码、和同事沟通。结果是:最好的模型也只能自主完成30%的任务,平均每个任务花费超过4美元、需要27个步骤。主要失败模式是导航复杂Web UI、利用同事消息(缺乏”社交技能”)、以及多文档交叉引用的行政任务。

这些数字乍看令人沮丧。但更值得追问的是:这个Benchmark本身测量的是正确的东西吗?

TheAgentCompany测试的是Agent在旧范式中扮演人类角色的能力——在OwnCloud上传文件、在Slack里回消息、在GitLab上提PR。但我们一直在讨论的重点恰恰是:这些工具链和流程本身就是需要被消解的协调成本。 这就好像在汽车刚发明时设计一个基准测试,测试汽车能否像马一样跳过栅栏、在泥泞小道上转弯、吃草补充能量。汽车在这个Benchmark上肯定表现很差,但这不意味着汽车没有革命性价值——而是意味着Benchmark的前提假设有问题。

论文作者自己也坦承了这一点:任务偏简单(因为需要程序化评估)、任务内容由熟悉这些工作空间的人通过内省创造(可能与实际企业任务脱节)、未能测试人类在同样任务上的表现作为对比基线。

真正需要的Benchmark应该测量的是:给定一个业务目标(比如上文那个电商AI选购建议的场景),Agent能否自主地端到端解决问题——包括理解需求、发现数据源、处理不一致性、处理异常——而不是测量Agent能否在传统办公环境中扮演传统角色。我们甚至还没有好的标尺来衡量Agent在新范式中的能力,因为我们还在用旧范式的尺子。

八、目标函数与”第一推动力”

如果运营公司可以被描述为一个优化问题,那一个自然的追问是:目标函数由谁来定义?能让Agent自己定义吗?

顶层利润最大化是一个看似清晰的目标函数。但实际上它远没有那么清晰——哪个时间尺度的利润?短期和长期经常矛盾。利润最大化要不要受伦理约束?对谁的利润?股东、员工、用户、社会?这些问题没有客观最优解,它们是价值判断。

从顶层目标到具体任务的分解,Agent已经能做得不错了。但如果我们追问”谁来定义最顶层的目标函数”,如果答案是”也让Agent来定义”,就陷入了一个递归:Agent用什么目标来决定目标?

这个问题与哲学史上的”第一推动力”问题在结构上完全同构。亚里士多德的”不动的推动者”、莱布尼茨的”充足理由律”——最终都指向一个自身不需要理由的存在。一个系统没有办法从内部为自己生成终极目标,它总需要一个外部给定的锚点。

但这个问题放到实践中,没有形而上学听起来那么玄。人类的”第一推动力”从来不是一个逻辑推导出来的终极目标,而是一堆模糊的、互相矛盾的、历史演化出来的东西——生存本能、审美偏好、文化叙事、道德直觉。没有人能把”人类到底想要什么”写成一个干净的数学表达式。但这并不妨碍文明运行了几千年。

这给Agent时代的启示是:不要试图给系统一个完美的第一推动力。 可行的方式是,人类提供一组粗粒度的、甚至互相有张力的价值方向,让Agent在这些张力之间寻找动态平衡。就像宪法不会告诉你每一个案件怎么判,但它提供了一个框架,让具体判决可以在框架内演化。

未来的分工可能是:人类设定价值观层面的方向——服务谁、创造什么样的世界、什么是不可逾越的底线——Agent把这些方向转化为可度量的目标函数,并持续根据反馈调整参数。人类的角色从”管理者”变成”立法者”:不是告诉Agent怎么做,而是告诉Agent什么是值得做的。

这个角色听起来轻松了很多,但实际上责任更大了。目标函数的模糊性和不完备性不是bug,是feature——它保留了修正的空间。 真正危险的不是”找不到完美的目标函数”,而是某一天有人假装找到了,把一个单一目标函数硬编码进了一个足够强大的Agent系统,以不可逆的方式重塑了世界。

九、结语:剧变前夜

曾经延续上百年的convention——读好学校、选好专业、进大公司、升职加薪——正在被颠覆。学历已经在贬值,公司形态正在剧烈重构。

我们这些从业者恰好比较幸运。耗费了人生中最美好的年华,偶然地爬上了一个小山丘,比山脚下的人更早看到太阳升起的壮丽景色。

但太阳的温度是双面的。它既照亮了前方的可能性,也可能灼伤靠得太近的人。Medvi的创始人用2万美元和AI工具做到了4亿美元营收,但他的AI客服聊天机器人也曾编造不存在的药品价格——他不得不照价赔偿。希腊神话中,伊卡洛斯用蜡翼飞向太阳。他坠落不是因为飞行本身有罪,而是因为他把工具当成了目的。

也许Agent时代的”第一推动力”不是一个固定的点,而是一个人和Agent之间持续对话的过程。人类不需要在一开始就想清楚所有事情——事实上人类从来也没想清楚过——只需要保持对Agent行为的反思能力和修正能力。

这种清醒本身,就是蜡翼上的加固层。


本文引用的学术文献:

  1. Coase, R. H. (1937). The Nature of the Firm. Economica, 4(16), 386-405.
  2. Shahidi, P., Rusak, G., Manning, B. S., Fradkin, A., & Horton, J. J. (2025). The Coasean Singularity? Demand, Supply, and Market Design with AI Agents. NBER.
  3. Klein, T. & Wieczorek, S. (2026). The Headless Firm: How AI Reshapes Enterprise Boundaries. arXiv:2602.21401.
  4. Warin, T. (2025). From Coase to AI Agents: Why the Economics of the Firm Still Matters in the Age of Automation. California Management Review Insights.
  5. MacDiarmid, M. et al. (2025). From Shortcuts to Sabotage: Natural Emergent Misalignment from Reward Hacking. Anthropic.
  6. Xu, F. F. et al. (2024). TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks. arXiv:2412.14161.
<- Back to all posts