GenericAgent:复旦大学知识工场实验室开源的自进化AI智能体框架

原创 发布日期:
63

一、GenericAgent是什么

GenericAgent是一款轻量、极简、具备自进化能力的开源自治AI智能体框架,由复旦大学知识工场实验室与深圳夸夸菁领科技联合打造,2026年1月正式开源,三个月内GitHub斩获6200+Star并登顶Trending榜首,技术报告收录于arXiv(2604.17091)。

其核心定位是用最少代码实现最强系统级控制与自主进化:核心代码仅约3300行,核心调度循环(Agent Loop)仅92行,无需复杂依赖与部署流程,即可让任意大语言模型(LLM)深度操控本地计算机,覆盖浏览器、终端、文件系统、键鼠输入、屏幕视觉、ADB移动设备等全维度能力,彻底打破传统AI智能体“能力固化、部署复杂、资源消耗高”的痛点。

最核心的设计哲学是「无需预装技能,用则进化」——区别于传统框架预加载固定技能的模式,GenericAgent无预设复杂技能库,用户每完成一个新任务,智能体都会自主探索、调试并将执行路径“结晶”为专属技能写入记忆层,使用越久,技能树越丰富,最终形成完全贴合个人需求的个性化智能体能力体系。

GenericAgent:复旦大学知识工场实验室开源的自进化AI智能体框架

二、功能特色

1. 核心特色:自进化技能生长机制

这是GenericAgent区别于所有竞品的核心壁垒,彻底重构AI智能体的能力获取模式:

  • 零预装技能:初始状态仅9个原子工具,无任何预制复杂技能(如微信操作、量化交易);

  • 自主探索学习:面对新任务(如“读取微信聊天记录”),自动完成依赖安装、环境配置、脚本编写、调试验证全流程;

  • 技能结晶固化:任务成功后,自动将完整执行路径封装为可复用技能,存入长期记忆;

  • 一键复用升级:后续同类任务直接调用技能,无需重复探索,且可在使用中迭代优化技能,形成“使用—积累—变强”的正向循环。

2. 极简架构:轻量高效,零部署门槛

  • 超精简代码:核心约3300行Python代码,Agent Loop仅92行,无冗余逻辑;

  • 极低依赖:仅需requestsstreamlitpywebview等基础库,无复杂中间件;

  • 跨平台兼容:支持Windows、macOS、Linux,可通过Termux部署至Android设备;

  • 一键启动pip安装+配置API Key即可运行,无需容器编排、多服务部署。

3. 系统级全维度控制:9个原子工具覆盖全场景

仅通过9个原子工具,实现对本地设备的深度、无死角操控,工具设计遵循“Unix哲学”——以极简原语组合实现无限能力:

code_run    # 执行任意Python代码(核心工具,覆盖装包、脚本编写、硬件控制)
file_read    # 读取本地文件
file_write   # 写入/创建本地文件
file_patch   # 增量修改文件
web_scan    # 感知网页内容(文本、结构、元素定位)
web_execute_js # 控制浏览器(注入真实浏览器,保留登录会话)
ask_user    # 人机交互确认(关键操作二次验证)
update_working_checkpoint # 持久化当前任务上下文
start_long_term_update   # 将技能写入长期记忆

4. 分层记忆系统:极低Token消耗,低幻觉高成功率

采用L0-L4五层分层记忆架构,彻底解决传统智能体上下文膨胀、噪声多、幻觉高的问题,将Token消耗压缩至竞品的15%-35%:

  • L0(Meta Rules):基础行为规则与系统约束(常驻上下文,极小体积);

  • L1(Insight Index):极简索引层,快速路由任务、召回技能(仅存关键词与路径);

  • L2(Global Facts):长期积累的稳定知识(如常用路径、API地址,定期精炼);

  • L3(Task Skills/SOPs):结晶后的可复用技能(核心资产,按场景分类存储);

  • L4(Session Archive):已完成任务的归档记录(用于长程回溯与技能优化,按需加载)。

5. 高兼容性:全主流大模型适配,多前端接入

  • 模型适配:支持Claude、Gemini、Kimi、MiniMax、GPT-3.5/4等主流大模型,可灵活切换;

  • 多前端接入:支持微信、QQ、Telegram作为控制前端,远程下发任务、接收结果;

  • 能力扩展:可通过code_run工具动态集成第三方库、API,无限扩展能力边界。

三、技术细节

1. 整体架构:感知—理解—行动—记忆闭环

GenericAgent基于认知循环架构构建,92行Agent Loop串联全流程,实现“感知→理解→行动→反馈→记忆→迭代”的完整闭环,每个环节输入输出清晰,逻辑极简:

  1. 感知(Sense):通过web_scanfile_read、屏幕视觉、环境检查工具,获取外部信息(网页内容、文件数据、屏幕画面、系统状态),输出Markdown格式结构化数据;

  2. 理解(Think):LLM结合系统提示词、分层记忆、感知数据,推理生成结构化决策(工具调用计划、参数、执行顺序);

  3. 行动(Act):调用9个原子工具执行操作(代码运行、浏览器控制、文件修改等),实时获取执行结果;

  4. 反馈分析(Feedback):对比行动结果与任务目标,判断成功/失败,分析差异;

  5. 记忆更新(Memory):成功任务结晶为技能存入L3,关键信息精炼后更新L2/L1,失败任务记录错误日志并触发重试;

  6. 循环迭代(Loop):基于更新后的记忆,进入下一轮感知—理解—行动,直至任务完成。

2. 核心模块拆解

(1)Agent Loop(agent_loop.py,92行)

整个框架的调度核心,负责串联感知、理解、行动、记忆全流程,控制循环节奏、工具调用顺序、记忆读写时机,无冗余逻辑,极致精简,确保高效稳定运行。

(2)原子工具层(tools/,约500行)

9个工具均为轻量独立模块,无相互依赖,每个工具聚焦单一能力,通过标准化输入输出接口与Agent Loop交互,code_run为核心中的核心,可动态生成并执行任意代码,间接扩展出无限能力。

(3)分层记忆系统(memory/,约800行)

实现五层记忆的存储、检索、压缩、更新

  • 存储:采用JSON格式轻量化存储,无数据库依赖;

  • 检索:基于L1索引快速召回相关技能与知识,减少上下文加载量;

  • 压缩:支持片段级、消息级、标签级、消息驱逐四层压缩,严格控制上下文Token数量(<30K);

  • 更新:闲置时段自动“过夜整理”,精炼碎片化信息,清理无效记忆,优化检索效率。

(4)模型适配层(llm/,约600行)

统一接口适配所有主流大模型,封装不同模型的API调用逻辑、参数格式、响应解析,用户可通过配置文件一键切换模型,无需修改核心代码。

3. 关键技术创新点

  • 技能结晶机制:首次将“任务执行路径”转化为“可复用技能”并持久化,实现能力自主生长;

  • 超精简Agent Loop:92行代码实现完整认知循环,打破“复杂功能必须复杂代码”的固有认知;

  • 分层记忆+四级压缩:将上下文Token消耗控制在30K以内,远低于竞品200K-1M的消耗,降低使用成本、减少幻觉;

  • 真实浏览器注入:直接注入本地真实浏览器,保留登录会话(如微信、支付宝、电商账号),无需沙箱/无头浏览器,交互更真实、无登录限制。

GenericAgent:复旦大学知识工场实验室开源的自进化AI智能体框架

四、应用场景

GenericAgent凭借系统级控制+自进化能力,覆盖个人、办公、金融、生活等全场景,以下为典型落地案例:

1. 生活娱乐场景

  • 自动下单外卖:浏览外卖平台、选餐、结算,全程模拟人类操作;

  • 批量发送微信消息:定位微信窗口、输入内容、群发,支持图文排版;

  • 社交媒体自动化:自动发朋友圈、点赞、评论,适配平台界面变化。

2. 金融理财场景

  • 量化选股:筛选创业板股票(EXPMA金叉、换手率>5%、市盈率<30),自动生成报告;

  • 股票监控提醒:定时爬取股价、成交量,触发预设条件(如涨停、跌破均线)时微信通知;

  • 消费记录汇总:读取支付宝/微信支付账单,按日期、金额、分类统计,生成月度报表。

3. 办公效率场景

  • 网页内容批量汇总:抓取多个行业网站新闻、政策,提炼核心要点,生成文档;

  • 文件批量处理:批量重命名、格式转换(Word→PDF)、内容替换,自动归档;

  • 邮件自动管理:读取Gmail/QQ邮箱,分类归档、自动回复、附件下载整理。

4. 移动设备控制场景(ADB)

  • 手机APP自动化:操控微信、支付宝、抖音,完成消息读取、转账、视频点赞;

  • 手机数据备份:自动备份通讯录、照片、聊天记录至电脑;

  • 手机状态监控:实时查看电量、内存、网络状态,异常时触发提醒。

5. 定制化复杂场景

  • 代码开发辅助:自动生成Python/JavaScript代码、调试、运行,输出结果;

  • 数据采集分析:爬取行业数据、清洗、建模、可视化,生成分析报告;

  • 定时任务自动化:配置cron定时,自动执行备份、更新、监控等任务。

五、使用方法

环境要求

  • Python 3.8+;

  • 操作系统:Windows 10+、macOS 11+、Linux(Ubuntu 20.04+);

  • 网络:可访问大模型API(Claude/Gemini/Kimi等);

  • 浏览器:Chrome、Edge(用于真实浏览器注入)。

安装步骤(3种方式,新手推荐便携版)

方式1:标准安装(通用,推荐)

# 1. 克隆仓库
git clone https://github.com/lsdefine/GenericAgent.git
cd GenericAgent

# 2. 安装极简依赖
pip install requests streamlit pywebview

# 3. 配置LLM API Key
cp mykey_template.py mykey.py
# 编辑mykey.py,填写你的大模型API Key(如Kimi、Claude)

# 4. 启动(Windows用launch.pyw,macOS/Linux用python launch.py)
python launch.pyw

方式2:Windows便携版(新手首选,免安装)

  1. 访问GitHub Releases页面,下载便携版压缩包(约19MB);

  2. 解压至任意目录(无中文路径);

  3. 编辑mykey.py填写API Key;

  4. 双击launch.exe直接启动,无需配置Python环境。

方式3:Android部署(Termux)

  1. 安装Termux,执行:

cd /sdcard/ga
pip install requests streamlit pywebview
python agentmain.py
  1. 配置API Key后启动,可通过手机控制本地电脑或直接执行手机任务。

基础使用流程

  1. 启动界面:运行后自动弹出Web UI(浏览器窗口),输入任务指令(自然语言,如“帮我筛选今天涨幅>5%的创业板股票”);

  2. 自主执行:智能体自动感知环境、规划步骤、调用工具执行,过程可实时查看日志;

  3. 人机确认:关键操作(如文件删除、转账)会触发ask_user,确认后继续;

  4. 技能结晶:任务成功后,自动保存技能,下次同类任务直接调用;

  5. 结果输出:任务完成后,在Web UI输出结果(文本、文件、链接),可下载或分享。

进阶配置(可选)

  • 多前端接入:配置微信/QQ/Telegram机器人,远程下发任务;

  • 模型切换:修改mykey.py中的模型参数,一键切换Claude/Gemini/Kimi;

  • 技能管理:Web UI内置技能管理面板,可查看、编辑、删除、导出技能;

  • 定时任务:集成cron,配置定时执行任务(如每日9点生成股票报告)。

六、竞品对比

选取OpenClaw(通用智能体框架,代码量50万+行)、Claude Code(代码智能体,专注开发场景)两大主流竞品,从核心指标、能力、资源消耗等维度对比,凸显GenericAgent的差异化优势:

对比维度 GenericAgentOpenClaw Claude Code
代码量 ~3,300行(极简) ~530,000行(庞大) 大型开源项目(体量高)
部署难度 极简(pip+API Key,一键启动) 复杂(多服务编排、容器部署) 中等(CLI+订阅,需环境配置)
核心设计理念 自进化(用则生长,无预装技能) 插件生态(预装+扩展插件) 会话无状态(单次交互,无记忆)
记忆系统 五层分层记忆(L0-L4),Token<30K 有限长期记忆,上下文膨胀 无长期记忆,会话间独立
Token消耗 极低(竞品15%-35%) 高(200K+) 高(200K+)
浏览器控制 真实浏览器注入(保留登录态) 沙箱/无头浏览器(无登录会话) MCP插件(有限控制)
移动设备控制 ✅ 支持ADB(手机全维度操控) ❌ 不支持 ❌ 不支持
自进化能力 ✅ 技能自动结晶、复用、迭代 ❌ 无自主生长,依赖插件 ❌ 无记忆,无法积累能力
适用场景 全场景(生活、办公、金融、移动) 企业级复杂流程、多智能体协作 代码开发、调试、文档生成
GitHub Stars(2026.04) 6200+ 5000+ 4000+

对比结论:GenericAgent在代码精简度、部署便捷性、资源消耗、自进化能力、场景覆盖五大核心维度全面领先,尤其适合个人用户、中小团队快速搭建低成本、高成长性的智能助手;OpenClaw更侧重企业级复杂流程与多智能体协作,部署与维护成本高;Claude Code专注代码开发场景,能力单一且无记忆积累,适用范围有限。

七、常见问题解答

1. GenericAgent需要付费吗?

 

完全免费开源,采用MIT许可证,个人与企业均可免费使用、修改、二次分发,无任何付费功能或隐藏收费项。

2. 支持本地部署的大模型吗?

支持,可通过修改模型适配层配置,接入本地部署的Llama 2、Qwen、Yi等开源大模型,无需依赖第三方API,保障数据隐私。

3. 技能会丢失吗?如何备份?

技能存储在项目目录下的memory/skills文件夹,以JSON格式保存,只要不删除该目录,技能永久保留;可直接复制memory文件夹至其他设备,完成技能备份与迁移。

4. 执行任务时出错怎么办?

智能体具备自动重试与错误修复机制:轻微错误(如网络波动、元素定位临时失效)会自动重试3次;严重错误(如依赖缺失、脚本错误)会输出详细错误日志,用户可查看日志定位问题,或指令智能体自动修复依赖与脚本。

5. 能否同时执行多个任务?

支持多任务并行,可在Web UI同时下发多个任务,智能体会自动分配资源、并行处理,任务间隔离互不干扰,执行效率高。

6. 数据隐私安全吗?会上传我的文件/数据吗?

绝对安全,GenericAgent所有数据(文件、技能、记忆)均存储在本地设备,不会主动上传任何数据至云端;仅在调用大模型API时,会将任务指令与必要感知数据发送至模型服务商,可通过接入本地模型彻底杜绝数据外传风险。

7. 新手没有编程基础,能使用吗?

完全可以,提供Web可视化UI,所有操作通过自然语言指令完成,无需编写代码;Windows便携版免安装,解压即用,新手5分钟即可上手,完成简单任务(如文件处理、网页信息获取)。

八、相关链接

九、总结

GenericAgent是一款以极简架构、自进化能力、极低资源消耗、全场景覆盖为核心优势的开源自治AI智能体框架,由复旦大学知识工场实验室打造,核心代码仅约3300行,通过9个原子工具与分层记忆系统,实现对本地计算机的系统级控制,彻底重构AI智能体“能力获取—积累—升级”的模式,让智能体从“能力固化”走向“自主生长”。其无需预装技能、零部署门槛、跨平台兼容、数据本地存储的特性,既适合新手快速上手搭建个性化智能助手,也满足个人与中小团队低成本、高隐私、高成长性的自动化需求,在生活、办公、金融、移动设备控制等场景具备极高的实用价值,是当前AI智能体领域“少即是多”设计哲学的标杆项目,为轻量级、普惠型AI智能体的发展提供了全新思路与实践范式。

打赏
THE END
作者头像
AI工具集
工具不孤岛,AI集大成——这里有你要的一切智能解法