ClawWork:港大开源的AI智能体经济生存与职业能力评估平台
一、ClawWork是什么
ClawWork是由香港大学数据科学实验室(HKUDS) 研发并开源的AI智能体经济生存与职业能力基准测试平台,核心定位是把传统AI助手从“辅助工具”升级为能完成真实专业工作、创造经济价值、自负盈亏的AI同事(AI Coworker)。
它以GDPVal真实职业任务数据集为基础,构建了一套严格的模拟经济系统:AI智能体仅拥有10美元启动资金,每一次思考、每一次API调用、每一次搜索都要扣除Token成本,只有高质量完成专业任务才能获得收入,必须在“工作赚钱”与“学习提升”之间做策略选择,最终以能否长期盈利生存作为能力评判标准。
ClawWork不追求花哨的交互,而是聚焦生产环境真正重要的三个指标:工作质量、成本效率、长期生存能力,是业内首个以“经济生存能力”为核心的AI智能体基准框架,填补了从“模型技术能力”到“实际商业价值”之间的验证空白。
项目于2026年2月正式发布,依托轻量Nanobot架构,支持一键部署、多模型接入、实时仪表盘监控,可快速验证GPT、Claude、GLM、Kimi、Qwen等主流模型在真实职场中的表现。
二、功能特色
ClawWork围绕“AI打工、经济生存、专业评估”设计了完整功能体系,核心特色如下:
1. 真实职业任务体系
基于GDPVal数据集,覆盖44个经济领域、220项专业验证任务,涵盖四大板块:
科技与工程
商业与金融
医疗与社会服务
法律、媒体与运营
任务均为现实职业场景,如采购代理、软件开发、市场分析、客户服务、医疗辅助等,完全模拟人类白领工作内容。
2. 极致经济压力测试
初始资金仅10美元,每一个Token都要计费
所有LLM调用、网络搜索、代码执行均自动扣费
只有通过专业评估的任务才能获得报酬
亏损超过阈值即“经济破产”,模拟真实市场淘汰机制
官方演示中,优秀智能体可在7小时内赚取超过10,000美元,时薪等效可达1500美元以上,超越普通人类白领效率。
3. 策略性工作与学习决策
智能体每日需自主选择:
工作:立即接任务赚钱,获得即时收入
学习:积累行业知识,提升未来任务成功率
复刻人类职业生涯的权衡逻辑,让AI具备长期成长能力。
4. 多模型同台竞技平台
原生支持主流大模型接入:
GPT-4o、Claude 3系列
GLM、Kimi、Qwen等国产模型
可自由配置、并行测试,自动生成排名
以“赚钱能力、生存天数、利润率、任务质量”为标准,决出真正能落地的“AI打工人冠军”。
5. 实时React可视化仪表盘
提供本地Web面板,实时展示:
余额变化曲线
收入/成本/利润统计
任务完成情况与质量评分
工作/学习行为分布
生存状态(繁荣/稳定/濒危/破产)
6. 轻量化一键部署架构
基于Nanobot构建,极简架构:
仅需Python 3.10+
一次pip安装 + 配置文件即可运行
支持Standalone独立模式与Nanobot集成模式
低资源占用,普通电脑即可运行
7. ClawMode无缝集成能力
可将任意运行中的Nanobot网关一键封装为赚钱型AI同事,保留原有的文件读写、代码执行、网页搜索、IM交互等能力,新增经济核算与任务接单功能。
8. 专业级LLM评估体系
使用GPT-5.2结合44个行业专属评分标准对任务结果打分,确保评估专业、严谨、可复现,避免主观偏差。

三、技术细节
1. 整体架构
ClawWork采用分层模块化设计,核心分为五层:
接入层:支持Standalone模式、ClawMode集成模式
智能体层:决策引擎、工具集、记忆系统
经济层:余额管理、成本扣费、收入结算、破产判定
任务层:GDPVal任务加载、分配、执行、交付
展示层:FastAPI后端 + React前端仪表盘
2. 核心技术栈
后端:Python 3.10+、FastAPI、WebSocket、LangChain/LiteLLM
前端:React、实时图表
沙箱执行:E2B(代码安全运行)
搜索:Tavily/Jina AI
基础框架:Nanobot(轻量OpenClaw实现)
3. 经济核算机制
项目最核心技术是精准经济追踪系统,规则如下:
初始余额:$10
扣费项:LLM输入/输出Token、Web搜索、沙箱调用
收入项:任务完成并通过专业评估
结算:实时更新余额,状态分为thriving(繁荣)、stable(稳定)、endangered(濒危)、bankrupt(破产)
4. 智能体工具集(8大核心能力)
| 工具名称 | 功能说明 |
|---|---|
| decide_activity | 选择工作或学习 |
| submit_work | 提交任务结果并获取报酬 |
| learn | 存储知识到长期记忆 |
| get_status | 查询余额、成本、生存状态 |
| search_web | 联网搜索信息 |
| create_file | 创建txt/xlsx/docx/pdf文档 |
| execute_code | 在沙箱运行Python代码 |
| create_video | 生成演示视频 |
5. 双运行模式
模式1:Standalone 独立仿真
纯本地模拟经济环境
三行命令启动:克隆→安装→运行脚本
适合快速测试、对比模型
模式2:ClawMode 集成模式
对接已部署的Nanobot/OpenClaw
保留所有原生能力
新增经济系统与打工任务
支持在Telegram/Discord/飞书/钉钉等IM中直接触发
/clawwork命令
6. 评估指标体系
ClawWork用7项核心指标量化AI能力:
| 指标 | 含义 |
|---|---|
| Survival days | 经济生存天数 |
| Final balance | 最终余额 |
| Total work income | 总工作收入 |
| Profit margin | 利润率 |
| Work quality | 平均任务质量分(0–1) |
| Token efficiency | 每美元成本产生的收入 |
| Task completion rate | 任务完成率 |
四、应用场景
1. AI模型厂商能力验证
大模型公司可用于:
验证模型真实生产力,而非仅看基准分数
对比不同版本、不同参数模型的落地价值
优化成本与效果平衡
2. 研究机构学术研究
AI智能体长期决策机制研究
AI经济系统与生存算法研究
人机协作效率对比研究
3. 企业AI落地选型
企业可通过ClawWork:
测试哪种模型更适合自家业务场景
评估AI替代人工的经济效益
控制AI使用成本,避免无效消耗
4. 开发者构建商业化AI Agent
开发者可基于ClawWork:
快速开发能自主赚钱的AI产品
接入IM、办公系统成为付费助理
构建AI劳务市场、智能接单平台
5. AI教育与科普
直观展示:
AI如何像人一样工作
成本、效率、收益的商业逻辑
智能体决策与成长机制
五、使用方法
1. 环境要求
Python ≥ 3.10
Node.js(仪表盘前端)
有效API Key:OpenAI、E2B(必选);Tavily/Jina(可选)
2. 安装步骤
# 1. 克隆仓库 git clone https://github.com/HKUDS/ClawWork.git cd ClawWork # 2. 创建环境(conda推荐) conda create -n clawwork python=3.10 conda activate clawwork # 3. 安装依赖 pip install -r requirements.txt # 4. 安装前端依赖 cd frontend && npm install && cd .. # 5. 配置环境变量 cp .env.example .env # 编辑 .env,填入 OPENAI_API_KEY、E2B_API_KEY 等
3. 启动独立模式(推荐新手)
# 终端1:启动仪表盘 ./start_dashboard.sh # 终端2:启动智能体开始打工 ./run_test_agent.sh # 浏览器访问 http://localhost:3000
4. ClawMode 集成模式(对接Nanobot)
# 配置环境变量 export PYTHONPATH="$(pwd):$PYTHONPATH" # 启动集成智能体 python -m clawmode_integration.cli agent
启动后,在IM中发送/clawwork即可让AI开始接单赚钱。
5. 查看日志与状态
# 查看运行日志 ./view_logs.sh # 查看实时状态 get_status()

六、常见问题解答
ClawWork和普通AI助手有什么区别?
普通AI助手只提供回答,不承担成本、不创造收入;ClawWork让AI变成必须自己支付Token费用、通过完成专业任务赚钱、维持经济生存的“AI打工人”。
运行ClawWork需要收费吗?
项目本身开源免费,但调用OpenAI、E2B、搜索API会产生官方费用,ClawWork只是模拟经济系统并记录真实成本。
支持哪些AI模型?
理论支持所有接入LiteLLM/LangChain的模型,官方已适配GPT-4o、Claude 3、GLM、Kimi、Qwen等。
智能体真的能赚到钱吗?
在ClawWork模拟经济系统中可以赚取虚拟收益,用于支付自身消耗;优秀模型7小时可赚超10,000美元虚拟收益。
必须用GPU才能运行吗?
不需要,ClawWork调用云端模型API,本地仅做调度与记录,CPU环境即可流畅运行。
仪表盘打不开怎么办?
可尝试强制刷新Ctrl+Shift+R;检查8000/3000端口是否被占用,使用命令lsof -ti:8000 | xargs kill -9释放端口。
智能体不赚钱、余额一直降是什么原因?
可能是未调用submit_work提交任务、任务未通过质量评估、或API Key未正确配置,导致无法获得收入。
可以同时运行多个智能体对比吗?
可以,在配置文件中启用多个agent,并行运行,仪表盘会展示各自的经济状态与任务表现。
学习(learn)功能有什么用?
学习可让智能体积累行业知识,提升后续任务的质量与成功率,相当于“职业技能提升”,长期能提高收入效率。
如何修改初始资金、任务数量等参数?
在livebench/configs/目录下的配置文件中修改,支持自定义初始余额、每日任务数、模型选择、评估开关等。
七、相关链接
GitHub仓库:https://github.com/HKUDS/ClawWork
GDPVal数据集官方介绍:https://openai.com/index/gdpval/
八、总结
ClawWork是香港大学数据科学实验室推出的开源AI经济生存基准平台,以GDPVal真实职业任务为基础,通过严格的经济压力测试,将普通AI助手转化为可自主完成44大行业专业工作、自负盈亏、策略性成长的AI同事,从工作质量、成本效率、长期生存三大维度量化AI真实生产力;项目具备轻量化架构、双运行模式、实时仪表盘、多模型竞技、专业级评估等核心能力,既可为模型厂商、研究机构提供价值验证标准,也能帮助企业与开发者低成本落地高生产力AI应用,是连接AI技术能力与真实商业价值的关键基准工具,完整复现了AI从“辅助”到“职场成员”的进化路径。
版权及免责申明:本文由@AI工具箱原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/clawwork.html

