GenericAgent:复旦大学知识工场实验室开源的自进化AI智能体框架
一、GenericAgent是什么
GenericAgent是一款轻量、极简、具备自进化能力的开源自治AI智能体框架,由复旦大学知识工场实验室与深圳夸夸菁领科技联合打造,2026年1月正式开源,三个月内GitHub斩获6200+Star并登顶Trending榜首,技术报告收录于arXiv(2604.17091)。
其核心定位是用最少代码实现最强系统级控制与自主进化:核心代码仅约3300行,核心调度循环(Agent Loop)仅92行,无需复杂依赖与部署流程,即可让任意大语言模型(LLM)深度操控本地计算机,覆盖浏览器、终端、文件系统、键鼠输入、屏幕视觉、ADB移动设备等全维度能力,彻底打破传统AI智能体“能力固化、部署复杂、资源消耗高”的痛点。
最核心的设计哲学是「无需预装技能,用则进化」——区别于传统框架预加载固定技能的模式,GenericAgent无预设复杂技能库,用户每完成一个新任务,智能体都会自主探索、调试并将执行路径“结晶”为专属技能写入记忆层,使用越久,技能树越丰富,最终形成完全贴合个人需求的个性化智能体能力体系。

二、功能特色
1. 核心特色:自进化技能生长机制
这是GenericAgent区别于所有竞品的核心壁垒,彻底重构AI智能体的能力获取模式:
零预装技能:初始状态仅9个原子工具,无任何预制复杂技能(如微信操作、量化交易);
自主探索学习:面对新任务(如“读取微信聊天记录”),自动完成依赖安装、环境配置、脚本编写、调试验证全流程;
技能结晶固化:任务成功后,自动将完整执行路径封装为可复用技能,存入长期记忆;
一键复用升级:后续同类任务直接调用技能,无需重复探索,且可在使用中迭代优化技能,形成“使用—积累—变强”的正向循环。
2. 极简架构:轻量高效,零部署门槛
超精简代码:核心约3300行Python代码,Agent Loop仅92行,无冗余逻辑;
极低依赖:仅需
requests、streamlit、pywebview等基础库,无复杂中间件;跨平台兼容:支持Windows、macOS、Linux,可通过Termux部署至Android设备;
一键启动:
pip安装+配置API Key即可运行,无需容器编排、多服务部署。
3. 系统级全维度控制:9个原子工具覆盖全场景
仅通过9个原子工具,实现对本地设备的深度、无死角操控,工具设计遵循“Unix哲学”——以极简原语组合实现无限能力:
code_run # 执行任意Python代码(核心工具,覆盖装包、脚本编写、硬件控制) file_read # 读取本地文件 file_write # 写入/创建本地文件 file_patch # 增量修改文件 web_scan # 感知网页内容(文本、结构、元素定位) web_execute_js # 控制浏览器(注入真实浏览器,保留登录会话) ask_user # 人机交互确认(关键操作二次验证) update_working_checkpoint # 持久化当前任务上下文 start_long_term_update # 将技能写入长期记忆
4. 分层记忆系统:极低Token消耗,低幻觉高成功率
采用L0-L4五层分层记忆架构,彻底解决传统智能体上下文膨胀、噪声多、幻觉高的问题,将Token消耗压缩至竞品的15%-35%:
L0(Meta Rules):基础行为规则与系统约束(常驻上下文,极小体积);
L1(Insight Index):极简索引层,快速路由任务、召回技能(仅存关键词与路径);
L2(Global Facts):长期积累的稳定知识(如常用路径、API地址,定期精炼);
L3(Task Skills/SOPs):结晶后的可复用技能(核心资产,按场景分类存储);
L4(Session Archive):已完成任务的归档记录(用于长程回溯与技能优化,按需加载)。
5. 高兼容性:全主流大模型适配,多前端接入
模型适配:支持Claude、Gemini、Kimi、MiniMax、GPT-3.5/4等主流大模型,可灵活切换;
多前端接入:支持微信、QQ、Telegram作为控制前端,远程下发任务、接收结果;
能力扩展:可通过
code_run工具动态集成第三方库、API,无限扩展能力边界。
三、技术细节
1. 整体架构:感知—理解—行动—记忆闭环
GenericAgent基于认知循环架构构建,92行Agent Loop串联全流程,实现“感知→理解→行动→反馈→记忆→迭代”的完整闭环,每个环节输入输出清晰,逻辑极简:
感知(Sense):通过
web_scan、file_read、屏幕视觉、环境检查工具,获取外部信息(网页内容、文件数据、屏幕画面、系统状态),输出Markdown格式结构化数据;理解(Think):LLM结合系统提示词、分层记忆、感知数据,推理生成结构化决策(工具调用计划、参数、执行顺序);
行动(Act):调用9个原子工具执行操作(代码运行、浏览器控制、文件修改等),实时获取执行结果;
反馈分析(Feedback):对比行动结果与任务目标,判断成功/失败,分析差异;
记忆更新(Memory):成功任务结晶为技能存入L3,关键信息精炼后更新L2/L1,失败任务记录错误日志并触发重试;
循环迭代(Loop):基于更新后的记忆,进入下一轮感知—理解—行动,直至任务完成。
2. 核心模块拆解
(1)Agent Loop(agent_loop.py,92行)
整个框架的调度核心,负责串联感知、理解、行动、记忆全流程,控制循环节奏、工具调用顺序、记忆读写时机,无冗余逻辑,极致精简,确保高效稳定运行。
(2)原子工具层(tools/,约500行)
9个工具均为轻量独立模块,无相互依赖,每个工具聚焦单一能力,通过标准化输入输出接口与Agent Loop交互,code_run为核心中的核心,可动态生成并执行任意代码,间接扩展出无限能力。
(3)分层记忆系统(memory/,约800行)
实现五层记忆的存储、检索、压缩、更新:
存储:采用JSON格式轻量化存储,无数据库依赖;
检索:基于L1索引快速召回相关技能与知识,减少上下文加载量;
压缩:支持片段级、消息级、标签级、消息驱逐四层压缩,严格控制上下文Token数量(<30K);
更新:闲置时段自动“过夜整理”,精炼碎片化信息,清理无效记忆,优化检索效率。
(4)模型适配层(llm/,约600行)
统一接口适配所有主流大模型,封装不同模型的API调用逻辑、参数格式、响应解析,用户可通过配置文件一键切换模型,无需修改核心代码。
3. 关键技术创新点
技能结晶机制:首次将“任务执行路径”转化为“可复用技能”并持久化,实现能力自主生长;
超精简Agent Loop:92行代码实现完整认知循环,打破“复杂功能必须复杂代码”的固有认知;
分层记忆+四级压缩:将上下文Token消耗控制在30K以内,远低于竞品200K-1M的消耗,降低使用成本、减少幻觉;
真实浏览器注入:直接注入本地真实浏览器,保留登录会话(如微信、支付宝、电商账号),无需沙箱/无头浏览器,交互更真实、无登录限制。

四、应用场景
GenericAgent凭借系统级控制+自进化能力,覆盖个人、办公、金融、生活等全场景,以下为典型落地案例:
1. 生活娱乐场景
自动下单外卖:浏览外卖平台、选餐、结算,全程模拟人类操作;
批量发送微信消息:定位微信窗口、输入内容、群发,支持图文排版;
社交媒体自动化:自动发朋友圈、点赞、评论,适配平台界面变化。
2. 金融理财场景
量化选股:筛选创业板股票(EXPMA金叉、换手率>5%、市盈率<30),自动生成报告;
股票监控提醒:定时爬取股价、成交量,触发预设条件(如涨停、跌破均线)时微信通知;
消费记录汇总:读取支付宝/微信支付账单,按日期、金额、分类统计,生成月度报表。
3. 办公效率场景
网页内容批量汇总:抓取多个行业网站新闻、政策,提炼核心要点,生成文档;
文件批量处理:批量重命名、格式转换(Word→PDF)、内容替换,自动归档;
邮件自动管理:读取Gmail/QQ邮箱,分类归档、自动回复、附件下载整理。
4. 移动设备控制场景(ADB)
手机APP自动化:操控微信、支付宝、抖音,完成消息读取、转账、视频点赞;
手机数据备份:自动备份通讯录、照片、聊天记录至电脑;
手机状态监控:实时查看电量、内存、网络状态,异常时触发提醒。
5. 定制化复杂场景
代码开发辅助:自动生成Python/JavaScript代码、调试、运行,输出结果;
数据采集分析:爬取行业数据、清洗、建模、可视化,生成分析报告;
定时任务自动化:配置cron定时,自动执行备份、更新、监控等任务。
五、使用方法
环境要求
Python 3.8+;
操作系统:Windows 10+、macOS 11+、Linux(Ubuntu 20.04+);
网络:可访问大模型API(Claude/Gemini/Kimi等);
浏览器:Chrome、Edge(用于真实浏览器注入)。
安装步骤(3种方式,新手推荐便携版)
方式1:标准安装(通用,推荐)
# 1. 克隆仓库 git clone https://github.com/lsdefine/GenericAgent.git cd GenericAgent # 2. 安装极简依赖 pip install requests streamlit pywebview # 3. 配置LLM API Key cp mykey_template.py mykey.py # 编辑mykey.py,填写你的大模型API Key(如Kimi、Claude) # 4. 启动(Windows用launch.pyw,macOS/Linux用python launch.py) python launch.pyw
方式2:Windows便携版(新手首选,免安装)
访问GitHub Releases页面,下载便携版压缩包(约19MB);
解压至任意目录(无中文路径);
编辑
mykey.py填写API Key;双击
launch.exe直接启动,无需配置Python环境。
方式3:Android部署(Termux)
安装Termux,执行:
cd /sdcard/ga pip install requests streamlit pywebview python agentmain.py
配置API Key后启动,可通过手机控制本地电脑或直接执行手机任务。
基础使用流程
启动界面:运行后自动弹出Web UI(浏览器窗口),输入任务指令(自然语言,如“帮我筛选今天涨幅>5%的创业板股票”);
自主执行:智能体自动感知环境、规划步骤、调用工具执行,过程可实时查看日志;
人机确认:关键操作(如文件删除、转账)会触发
ask_user,确认后继续;技能结晶:任务成功后,自动保存技能,下次同类任务直接调用;
结果输出:任务完成后,在Web UI输出结果(文本、文件、链接),可下载或分享。
进阶配置(可选)
多前端接入:配置微信/QQ/Telegram机器人,远程下发任务;
模型切换:修改
mykey.py中的模型参数,一键切换Claude/Gemini/Kimi;技能管理:Web UI内置技能管理面板,可查看、编辑、删除、导出技能;
定时任务:集成cron,配置定时执行任务(如每日9点生成股票报告)。
六、竞品对比
选取OpenClaw(通用智能体框架,代码量50万+行)、Claude Code(代码智能体,专注开发场景)两大主流竞品,从核心指标、能力、资源消耗等维度对比,凸显GenericAgent的差异化优势:
| 对比维度 | GenericAgent | OpenClaw | Claude Code |
|---|---|---|---|
| 代码量 | ~3,300行(极简) | ~530,000行(庞大) | 大型开源项目(体量高) |
| 部署难度 | 极简(pip+API Key,一键启动) | 复杂(多服务编排、容器部署) | 中等(CLI+订阅,需环境配置) |
| 核心设计理念 | 自进化(用则生长,无预装技能) | 插件生态(预装+扩展插件) | 会话无状态(单次交互,无记忆) |
| 记忆系统 | 五层分层记忆(L0-L4),Token<30K | 有限长期记忆,上下文膨胀 | 无长期记忆,会话间独立 |
| Token消耗 | 极低(竞品15%-35%) | 高(200K+) | 高(200K+) |
| 浏览器控制 | 真实浏览器注入(保留登录态) | 沙箱/无头浏览器(无登录会话) | MCP插件(有限控制) |
| 移动设备控制 | ✅ 支持ADB(手机全维度操控) | ❌ 不支持 | ❌ 不支持 |
| 自进化能力 | ✅ 技能自动结晶、复用、迭代 | ❌ 无自主生长,依赖插件 | ❌ 无记忆,无法积累能力 |
| 适用场景 | 全场景(生活、办公、金融、移动) | 企业级复杂流程、多智能体协作 | 代码开发、调试、文档生成 |
| GitHub Stars(2026.04) | 6200+ | 5000+ | 4000+ |
对比结论:GenericAgent在代码精简度、部署便捷性、资源消耗、自进化能力、场景覆盖五大核心维度全面领先,尤其适合个人用户、中小团队快速搭建低成本、高成长性的智能助手;OpenClaw更侧重企业级复杂流程与多智能体协作,部署与维护成本高;Claude Code专注代码开发场景,能力单一且无记忆积累,适用范围有限。
七、常见问题解答
1. GenericAgent需要付费吗?
完全免费开源,采用MIT许可证,个人与企业均可免费使用、修改、二次分发,无任何付费功能或隐藏收费项。
2. 支持本地部署的大模型吗?
支持,可通过修改模型适配层配置,接入本地部署的Llama 2、Qwen、Yi等开源大模型,无需依赖第三方API,保障数据隐私。
3. 技能会丢失吗?如何备份?
技能存储在项目目录下的memory/skills文件夹,以JSON格式保存,只要不删除该目录,技能永久保留;可直接复制memory文件夹至其他设备,完成技能备份与迁移。
4. 执行任务时出错怎么办?
智能体具备自动重试与错误修复机制:轻微错误(如网络波动、元素定位临时失效)会自动重试3次;严重错误(如依赖缺失、脚本错误)会输出详细错误日志,用户可查看日志定位问题,或指令智能体自动修复依赖与脚本。
5. 能否同时执行多个任务?
支持多任务并行,可在Web UI同时下发多个任务,智能体会自动分配资源、并行处理,任务间隔离互不干扰,执行效率高。
6. 数据隐私安全吗?会上传我的文件/数据吗?
绝对安全,GenericAgent所有数据(文件、技能、记忆)均存储在本地设备,不会主动上传任何数据至云端;仅在调用大模型API时,会将任务指令与必要感知数据发送至模型服务商,可通过接入本地模型彻底杜绝数据外传风险。
7. 新手没有编程基础,能使用吗?
完全可以,提供Web可视化UI,所有操作通过自然语言指令完成,无需编写代码;Windows便携版免安装,解压即用,新手5分钟即可上手,完成简单任务(如文件处理、网页信息获取)。
八、相关链接
GitHub仓库(源码+文档):https://github.com/lsdefine/GenericAgent
技术报告(arXiv):https://arxiv.org/abs/2604.17091
九、总结
GenericAgent是一款以极简架构、自进化能力、极低资源消耗、全场景覆盖为核心优势的开源自治AI智能体框架,由复旦大学知识工场实验室打造,核心代码仅约3300行,通过9个原子工具与分层记忆系统,实现对本地计算机的系统级控制,彻底重构AI智能体“能力获取—积累—升级”的模式,让智能体从“能力固化”走向“自主生长”。其无需预装技能、零部署门槛、跨平台兼容、数据本地存储的特性,既适合新手快速上手搭建个性化智能助手,也满足个人与中小团队低成本、高隐私、高成长性的自动化需求,在生活、办公、金融、移动设备控制等场景具备极高的实用价值,是当前AI智能体领域“少即是多”设计哲学的标杆项目,为轻量级、普惠型AI智能体的发展提供了全新思路与实践范式。
版权及免责申明:本文由@AI工具集原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/genericagent.html

