ClawWork:港大开源的AI智能体经济生存与职业能力评估平台

原创 发布日期:
68

一、ClawWork是什么

ClawWork是由香港大学数据科学实验室(HKUDS) 研发并开源的AI智能体经济生存与职业能力基准测试平台,核心定位是把传统AI助手从“辅助工具”升级为能完成真实专业工作、创造经济价值、自负盈亏的AI同事(AI Coworker)

它以GDPVal真实职业任务数据集为基础,构建了一套严格的模拟经济系统:AI智能体仅拥有10美元启动资金,每一次思考、每一次API调用、每一次搜索都要扣除Token成本,只有高质量完成专业任务才能获得收入,必须在“工作赚钱”与“学习提升”之间做策略选择,最终以能否长期盈利生存作为能力评判标准。

ClawWork不追求花哨的交互,而是聚焦生产环境真正重要的三个指标:工作质量、成本效率、长期生存能力,是业内首个以“经济生存能力”为核心的AI智能体基准框架,填补了从“模型技术能力”到“实际商业价值”之间的验证空白。

项目于2026年2月正式发布,依托轻量Nanobot架构,支持一键部署、多模型接入、实时仪表盘监控,可快速验证GPT、Claude、GLM、Kimi、Qwen等主流模型在真实职场中的表现。

二、功能特色

ClawWork围绕“AI打工、经济生存、专业评估”设计了完整功能体系,核心特色如下:

1. 真实职业任务体系

基于GDPVal数据集,覆盖44个经济领域、220项专业验证任务,涵盖四大板块:

  • 科技与工程

  • 商业与金融

  • 医疗与社会服务

  • 法律、媒体与运营

任务均为现实职业场景,如采购代理、软件开发、市场分析、客户服务、医疗辅助等,完全模拟人类白领工作内容。

2. 极致经济压力测试

  • 初始资金仅10美元,每一个Token都要计费

  • 所有LLM调用、网络搜索、代码执行均自动扣费

  • 只有通过专业评估的任务才能获得报酬

  • 亏损超过阈值即“经济破产”,模拟真实市场淘汰机制

官方演示中,优秀智能体可在7小时内赚取超过10,000美元,时薪等效可达1500美元以上,超越普通人类白领效率。

3. 策略性工作与学习决策

智能体每日需自主选择:

  • 工作:立即接任务赚钱,获得即时收入

  • 学习:积累行业知识,提升未来任务成功率

复刻人类职业生涯的权衡逻辑,让AI具备长期成长能力。

4. 多模型同台竞技平台

原生支持主流大模型接入:

  • GPT-4o、Claude 3系列

  • GLM、Kimi、Qwen等国产模型

  • 可自由配置、并行测试,自动生成排名

以“赚钱能力、生存天数、利润率、任务质量”为标准,决出真正能落地的“AI打工人冠军”。

5. 实时React可视化仪表盘

提供本地Web面板,实时展示:

  • 余额变化曲线

  • 收入/成本/利润统计

  • 任务完成情况与质量评分

  • 工作/学习行为分布

  • 生存状态(繁荣/稳定/濒危/破产)

6. 轻量化一键部署架构

基于Nanobot构建,极简架构:

  • 仅需Python 3.10+

  • 一次pip安装 + 配置文件即可运行

  • 支持Standalone独立模式与Nanobot集成模式

  • 低资源占用,普通电脑即可运行

7. ClawMode无缝集成能力

可将任意运行中的Nanobot网关一键封装为赚钱型AI同事,保留原有的文件读写、代码执行、网页搜索、IM交互等能力,新增经济核算与任务接单功能。

8. 专业级LLM评估体系

使用GPT-5.2结合44个行业专属评分标准对任务结果打分,确保评估专业、严谨、可复现,避免主观偏差。

ClawWork:港大开源的AI智能体经济生存与职业能力评估平台

三、技术细节

1. 整体架构

ClawWork采用分层模块化设计,核心分为五层:

  1. 接入层:支持Standalone模式、ClawMode集成模式

  2. 智能体层:决策引擎、工具集、记忆系统

  3. 经济层:余额管理、成本扣费、收入结算、破产判定

  4. 任务层:GDPVal任务加载、分配、执行、交付

  5. 展示层:FastAPI后端 + React前端仪表盘

2. 核心技术栈

  • 后端:Python 3.10+、FastAPI、WebSocket、LangChain/LiteLLM

  • 前端:React、实时图表

  • 沙箱执行:E2B(代码安全运行)

  • 搜索:Tavily/Jina AI

  • 基础框架:Nanobot(轻量OpenClaw实现)

3. 经济核算机制

项目最核心技术是精准经济追踪系统,规则如下:

  • 初始余额:$10

  • 扣费项:LLM输入/输出Token、Web搜索、沙箱调用

  • 收入项:任务完成并通过专业评估

  • 结算:实时更新余额,状态分为thriving(繁荣)、stable(稳定)、endangered(濒危)、bankrupt(破产)

4. 智能体工具集(8大核心能力)

工具名称 功能说明
decide_activity 选择工作或学习
submit_work 提交任务结果并获取报酬
learn 存储知识到长期记忆
get_status 查询余额、成本、生存状态
search_web 联网搜索信息
create_file 创建txt/xlsx/docx/pdf文档
execute_code 在沙箱运行Python代码
create_video 生成演示视频

5. 双运行模式

模式1:Standalone 独立仿真

  • 纯本地模拟经济环境

  • 三行命令启动:克隆→安装→运行脚本

  • 适合快速测试、对比模型

模式2:ClawMode 集成模式

  • 对接已部署的Nanobot/OpenClaw

  • 保留所有原生能力

  • 新增经济系统与打工任务

  • 支持在Telegram/Discord/飞书/钉钉等IM中直接触发/clawwork命令

6. 评估指标体系

ClawWork用7项核心指标量化AI能力:

指标 含义
Survival days 经济生存天数
Final balance 最终余额
Total work income 总工作收入
Profit margin 利润率
Work quality 平均任务质量分(0–1)
Token efficiency 每美元成本产生的收入
Task completion rate 任务完成率

四、应用场景

1. AI模型厂商能力验证

大模型公司可用于:

  • 验证模型真实生产力,而非仅看基准分数

  • 对比不同版本、不同参数模型的落地价值

  • 优化成本与效果平衡

2. 研究机构学术研究

  • AI智能体长期决策机制研究

  • AI经济系统与生存算法研究

  • 人机协作效率对比研究

3. 企业AI落地选型

企业可通过ClawWork:

  • 测试哪种模型更适合自家业务场景

  • 评估AI替代人工的经济效益

  • 控制AI使用成本,避免无效消耗

4. 开发者构建商业化AI Agent

开发者可基于ClawWork:

  • 快速开发能自主赚钱的AI产品

  • 接入IM、办公系统成为付费助理

  • 构建AI劳务市场、智能接单平台

5. AI教育与科普

直观展示:

  • AI如何像人一样工作

  • 成本、效率、收益的商业逻辑

  • 智能体决策与成长机制

五、使用方法

1. 环境要求

  • Python ≥ 3.10

  • Node.js(仪表盘前端)

  • 有效API Key:OpenAI、E2B(必选);Tavily/Jina(可选)

2. 安装步骤

# 1. 克隆仓库
git clone https://github.com/HKUDS/ClawWork.git
cd ClawWork

# 2. 创建环境(conda推荐)
conda create -n clawwork python=3.10
conda activate clawwork

# 3. 安装依赖
pip install -r requirements.txt

# 4. 安装前端依赖
cd frontend && npm install && cd ..

# 5. 配置环境变量
cp .env.example .env
# 编辑 .env,填入 OPENAI_API_KEY、E2B_API_KEY 等

3. 启动独立模式(推荐新手)

# 终端1:启动仪表盘
./start_dashboard.sh

# 终端2:启动智能体开始打工
./run_test_agent.sh

# 浏览器访问
http://localhost:3000

4. ClawMode 集成模式(对接Nanobot)

# 配置环境变量
export PYTHONPATH="$(pwd):$PYTHONPATH"

# 启动集成智能体
python -m clawmode_integration.cli agent

启动后,在IM中发送/clawwork即可让AI开始接单赚钱。

5. 查看日志与状态

# 查看运行日志
./view_logs.sh

# 查看实时状态
get_status()

ClawWork:港大开源的AI智能体经济生存与职业能力评估平台

六、常见问题解答

ClawWork和普通AI助手有什么区别?

普通AI助手只提供回答,不承担成本、不创造收入;ClawWork让AI变成必须自己支付Token费用、通过完成专业任务赚钱、维持经济生存的“AI打工人”。

运行ClawWork需要收费吗?

项目本身开源免费,但调用OpenAI、E2B、搜索API会产生官方费用,ClawWork只是模拟经济系统并记录真实成本。

支持哪些AI模型?

理论支持所有接入LiteLLM/LangChain的模型,官方已适配GPT-4o、Claude 3、GLM、Kimi、Qwen等。

智能体真的能赚到钱吗?

在ClawWork模拟经济系统中可以赚取虚拟收益,用于支付自身消耗;优秀模型7小时可赚超10,000美元虚拟收益。

必须用GPU才能运行吗?

不需要,ClawWork调用云端模型API,本地仅做调度与记录,CPU环境即可流畅运行。

仪表盘打不开怎么办?

可尝试强制刷新Ctrl+Shift+R;检查8000/3000端口是否被占用,使用命令lsof -ti:8000 | xargs kill -9释放端口。

智能体不赚钱、余额一直降是什么原因?

可能是未调用submit_work提交任务、任务未通过质量评估、或API Key未正确配置,导致无法获得收入。

可以同时运行多个智能体对比吗?

可以,在配置文件中启用多个agent,并行运行,仪表盘会展示各自的经济状态与任务表现。

学习(learn)功能有什么用?

学习可让智能体积累行业知识,提升后续任务的质量与成功率,相当于“职业技能提升”,长期能提高收入效率。

如何修改初始资金、任务数量等参数?

livebench/configs/目录下的配置文件中修改,支持自定义初始余额、每日任务数、模型选择、评估开关等。

七、相关链接

八、总结

ClawWork是香港大学数据科学实验室推出的开源AI经济生存基准平台,以GDPVal真实职业任务为基础,通过严格的经济压力测试,将普通AI助手转化为可自主完成44大行业专业工作、自负盈亏、策略性成长的AI同事,从工作质量、成本效率、长期生存三大维度量化AI真实生产力;项目具备轻量化架构、双运行模式、实时仪表盘、多模型竞技、专业级评估等核心能力,既可为模型厂商、研究机构提供价值验证标准,也能帮助企业与开发者低成本落地高生产力AI应用,是连接AI技术能力与真实商业价值的关键基准工具,完整复现了AI从“辅助”到“职场成员”的进化路径。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新