CLI-Anything:港大开源AI智能体CLI生成工具,一键让任意软件成为Agent原生

原创 发布日期:
65

一、CLI-Anything是什么

CLI-Anything是由香港大学数据科学学院(HKUDS) 研发并开源的AI智能体软件适配框架,核心定位是让所有软件一键变成Agent-Native(智能体原生)。它不是API包装器,也不是基于截图点击的UI自动化工具,而是通过全自动流水线,从软件源码直接生成标准化、可测试、可直接投入生产的命令行接口(CLI),让AI智能体以最稳定、最高效的文本方式操控任意软件。

项目的核心理念是:**Today’s Software Serves Humans. Tomorrow’s Users will be Agents.**(今天的软件为人而生,明天的用户是智能体)。CLI-Anything的出现,解决了AI智能体无法稳定、完整、低成本调用专业桌面软件的行业痛点,打通了大模型从“推理大脑”到“执行手脚”的关键链路。

简单来说,CLI-Anything的价值可以概括为三点:

  1. 一行命令,生成全套CLI:无需开发、无需封装,输入目标软件路径即可全自动产出可直接使用的命令行工具。

  2. 调用真实后端,不做平替:生成的CLI直接调用软件原生无头模式/后台接口,100%保留软件全部功能与渲染质量。

  3. 智能体优先设计:自带REPL交互、结构化JSON输出、状态管理、撤销重做,完全适配LLM理解与执行。

CLI-Anything本质是一套从GUI软件到Agent可控工具的完整转化方法论,它不仅提供已适配好的主流软件CLI,更赋予用户将任意软件转化为智能体可用工具的能力,是AI Agent生态中基础设施级的项目。

二、功能特色

CLI-Anything的功能围绕“全自动生成、稳定可靠、智能体友好、开箱即用”四大核心设计目标,具备极强的工程价值与落地能力,核心特色如下:

1. 七阶段全自动CLI生成流水线

只需执行一条命令 /cli-anything ./软件目录,系统自动完成从源码到可发布CLI的全流程:

  1. 分析:扫描源码,映射GUI操作到底层API与函数

  2. 设计:规划命令结构、状态模型、输出格式

  3. 实现:生成基于Click的Python CLI,内置REPL、JSON输出、Undo/Redo

  4. 测试规划:生成TEST.md测试计划

  5. 测试编写:自动生成单元测试+端到端测试

  6. 文档化:更新说明文档与测试结果

  7. 发布:生成setup.py,一键安装到系统PATH

2. 真实后端调用,零功能损耗

与用第三方库模拟功能的工具不同,CLI-Anything坚持原生调用

  • LibreOffice → 调用 libreoffice --headless 生成标准PDF

  • Blender → 调用 blender --background 执行完整渲染

  • GIMP → 调用GEGL与Script-Fu内核处理图像

  • 音视频软件 → 调用原生编码器与渲染引擎

确保输出格式、精度、效果与人工操作完全一致,无任何功能阉割。

3. Agent-First 标准化输出

所有生成的CLI统一具备智能体友好特性:

  • 支持 --json 参数,输出结构化JSON,无需正则解析

  • 统一REPL交互界面,带状态提示符,智能体可维持上下文

  • 命令可链式组合,支持批处理与脚本化执行

  • 自带 --help 自描述文档,智能体可自主学习用法

4. 工业级测试保障

项目已覆盖9大类主流专业软件,完成1436个测试用例,**通过率100%**,包含:

  • 单元测试1011个

  • 端到端真实后端调用测试425个

覆盖从项目创建、参数调整到文件导出、格式校验的全流程,可直接用于生产环境。

5. 零改造、零代码、低侵入

  • 不修改目标软件源码

  • 不依赖额外中间件

  • 不要求软件提供API

  • 支持本地离线运行,数据不上云,安全性更高

6. 跨领域全覆盖

已内置支持的软件覆盖全场景生产力工具:

  • 图像编辑:GIMP

  • 3D建模渲染:Blender

  • 矢量绘图:Inkscape

  • 音频处理:Audacity

  • 视频剪辑:Kdenlive、Shotcut

  • 办公套件:LibreOffice

  • 直播录屏:OBS Studio

  • 流程图:Draw.io

7. 可扩展、可定制

用户可将CLI-Anything用于任意开源/内部软件,只需提供源码路径,即可生成专属CLI,快速扩展智能体能力边界。

CLI-Anything:港大开源AI智能体CLI生成工具,一键让任意软件成为Agent原生

三、技术细节

CLI-Anything采用高度工程化的架构设计,技术栈清晰、机制可靠,核心技术细节如下:

1. 技术栈

  • 开发语言:Python 3.10+

  • CLI框架:Click(命令行构建)

  • 测试框架:pytest(全覆盖测试)

  • 运行环境:本地离线运行,支持Windows/macOS/Linux

  • 插件宿主:Claude Code(主流AI编码智能体)

2. 核心架构

CLI-Anything整体分为三层:

  1. 插件调度层:负责接收命令、启动七阶段生成流水线

  2. CLI生成引擎:负责代码解析、命令设计、代码生成

  3. Agent适配层:提供统一REPL、JSON输出、状态管理、Undo/Redo

宏观架构可理解为:GUI软件 → 源码分析 → CLI生成 → 智能体调用 → 原生后端执行

3. 关键技术机制

(1)GUI操作到CLI命令的映射机制

通过抽象语法树(AST)分析软件源码,识别:

  • 可调用的后端函数/API

  • 配置项与参数约束

  • 文件格式与工程结构

  • 状态流转逻辑

将用户可见的按钮、菜单、面板,转化为结构化命令。

(2)统一状态管理模型

生成的CLI自带状态机,记录:

  • 当前打开项目

  • 当前选中图层/轨道/对象

  • 修改状态

  • 历史操作序列

让无状态的LLM可以像人类一样“保持上下文”操作复杂软件。

(3)双模输出机制

  • 人类使用:彩色终端、表格、进度条、友好提示

  • 智能体使用:--json 参数输出结构化JSON,便于解析与决策

(4)安全沙箱与权限可控

CLI执行权限与用户权限一致,可通过系统权限限制智能体行为:

  • 可限定文件读写目录

  • 可禁止网络访问

  • 所有操作可日志审计

  • 不提供提权能力

相比直接开放API更安全可控。

4. 已支持软件与测试情况(表格)

软件名称 应用领域 CLI入口命令 测试用例数 核心调用后端
GIMP 图像编辑 cli-anything-gimp 107 GEGL / Script-Fu
Blender 3D建模渲染 cli-anything-blender 208 bpy / 后台渲染
Inkscape 矢量绘图 cli-anything-inkscape 202 SVG/XML操作
Audacity 音频处理 cli-anything-audacity 161 wave / sox
LibreOffice 办公套件 cli-anything-libreoffice 158 无头模式导出
OBS Studio 直播录屏 cli-anything-obs-studio 153 obs-websocket
Kdenlive 视频剪辑 cli-anything-kdenlive 155 melt渲染器
Shotcut 视频剪辑 cli-anything-shotcut 154 MLT XML
Draw.io 流程图 cli-anything-drawio 138 mxGraph XML

四、应用场景

CLI-Anything适用于AI智能体开发、自动化流程、批量内容生产、企业效率工具、低代码平台等广泛场景,典型落地场景如下:

1. AI智能体能力扩展

让大模型智能体直接具备专业软件操作能力,例如:

  • 让Claude Code用Blender批量渲染3D资产

  • 让智能体用GIMP自动做商品图抠图、美化

  • 让办公Agent用LibreOffice生成财报PDF、PPT、Excel

2. 创意内容自动化生产

  • 设计师:批量处理图片、生成多尺寸海报、自动导出多格式素材

  • 视频创作者:自动粗剪、配音合成、字幕生成、格式转码

  • 3D艺术家:批量渲染、自动贴图、灯光预设套用

  • 新媒体运营:自动生成报告、信息图表、流程图

3. 企业办公与数据自动化

  • 自动将数据库导出结果转为专业Excel/PPT/PDF

  • 批量处理合同、文档格式标准化

  • 自动化报表生成与分发

  • 遗留系统无API自动化(无接口也能自动化)

4. DevOps与系统自动化

  • 自动化构建、测试、部署流程

  • 批量管理服务器与容器

  • 监控数据可视化自动生成图表

  • 日志分析与报告自动输出

5. 低代码/无代码平台能力增强

为低代码平台提供专业软件操作能力,无需开发复杂插件,一键接入GIMP、Blender、LibreOffice等工业级工具。

6. 教育与科研自动化

  • 论文图表自动化生成

  • 实验数据批量处理与可视化

  • 教学素材标准化制作

  • 批量作业批改与报告生成

CLI-Anything:港大开源AI智能体CLI生成工具,一键让任意软件成为Agent原生

五、使用方法

CLI-Anything以Claude Code插件形式提供,使用流程极简,全程零代码,步骤如下:

1. 环境准备

  • 安装 Claude Code(支持插件的版本)

  • 安装 Python 3.10 或以上版本

  • 确保目标软件(如Blender、GIMP)已安装并可在终端调用

2. 安装CLI-Anything插件

  1. 添加插件仓库

/plugin marketplace add HKUDS/CLI-Anything
  1. 安装核心插件

/plugin install cli-anything

3. 一键生成目标软件CLI

/cli-anything ./软件源码目录

示例:

/cli-anything ./gimp
/cli-anything ./blender
/cli-anything ./libreoffice

4. 安装并使用生成的CLI

  1. 进入生成的目录

cd 软件名/agent-harness
  1. 安装到系统PATH

pip install -e .
  1. 查看帮助

cli-anything-软件名 --help

示例:

cli-anything-gimp --help
cli-anything-blender --help

5. 两种使用模式

模式1:命令行直接调用(适合脚本/智能体)

cli-anything-gimp project new --width 1920 --height 1080 -o output.png
cli-anything-blender render scene.blend --output result.png

模式2:交互式REPL(适合调试/人工操作)

cli-anything-gimp

进入交互模式后,可连续执行命令,自带状态提示。

6. 智能体调用最佳实践

  • 始终添加 --json 参数获取结构化结果

  • 利用REPL维持状态,避免重复打开文件

  • 使用Undo/Redo保证操作可回滚

  • 批量任务写成脚本一次性执行

六、常见问题解答(FAQ)

CLI-Anything与UI自动化工具有什么区别?

CLI-Anything不做截图、不模拟鼠标键盘、不依赖界面布局,而是直接调用软件底层后端接口,稳定性极高,界面更新不影响使用;UI自动化极易受分辨率、主题、弹窗影响,极易失败。

CLI-Anything是否需要修改原软件的代码?

不需要。它完全不侵入原软件,不修改源码、不编译、不打补丁,只做分析与生成,安全无风险。

生成的CLI是否支持Windows/macOS/Linux全平台?

支持。生成的CLI基于Python与原生后端调用,只要目标软件支持跨平台,CLI即可跨平台使用。

没有编程基础可以使用CLI-Anything吗?

可以。全程只需复制粘贴命令,无需写代码,生成后的CLI有完善的--help说明,上手门槛极低。

CLI-Anything可以用于闭源商业软件吗?

原则上需要软件源码才能做完整分析与生成。对于无源码的闭源软件,可通过命令行参数与现有接口做有限适配,但无法实现全功能覆盖。

生成的CLI是否可以商用?

可以。CLI-Anything采用MIT开源协议,生成的CLI归属用户,可自由用于个人、商业项目,无版权风险。

为什么选择CLI而不是API?

绝大多数专业桌面软件没有完整API,而CLI是更轻量、更通用、更稳定的接口形式;同时CLI天然适合LLM文本交互,无需网络,无需服务端部署。

AI智能体通过CLI-Anything操作软件是否安全?

安全。所有操作权限与当前用户一致,可限制目录、禁止网络、全程日志可查,不提供提权能力,比开放API更可控。

支持的软件太少怎么办?

用户可自行扩展。只需提供任意软件的源码路径,执行一条命令即可生成专属CLI,社区也会持续新增支持列表。

生成一个软件的CLI需要多长时间?

通常在几分钟内完成,取决于软件代码规模,小型软件几十秒,大型软件如Blender约3–5分钟。

七、相关链接

八、总结

CLI-Anything是香港大学数据科学学院推出的革命性AI智能体适配开源工具,它以命令行接口为桥梁,通过七阶段全自动生成流水线,将任意带源码的软件转化为AI智能体可直接、稳定、高效调用的Agent-Native工具,彻底摒弃脆弱的UI自动化与高成本API封装,坚持调用软件原生后端,确保功能完整、效果准确、生产可用。项目覆盖设计、3D、办公、音视频、直播等全场景生产力软件,通过1436项工业级测试验证,具备零代码、零改造、跨平台、安全可控、可无限扩展等优势,为AI智能体提供了连接现实专业软件的标准化通路,是构建下一代Agent-Computer Interaction(ACI)体系的关键基础设施,可广泛应用于智能体开发、内容自动化、企业办公、低代码平台等场景,大幅降低AI落地专业工具的成本与门槛,让现有软件资产平滑进入智能体时代。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新