ClawLess:南科大与港科大联合发布的AI智能体专用形式化安全框架

原创 发布日期:
65

ClawLess是什么

ClawLess是由南方科技大学、香港科技大学研究团队联合研发,2026年4月7日发布于arXiv的AI智能体形式化安全框架,论文编号arXiv:2604.06284,聚焦LLM驱动自主AI智能体的安全防护难题。

当前自主AI智能体可自主推理、规划、执行代码、访问网络与系统资源,但传统安全方案(提示词约束、训练对齐、普通容器)无法提供底层安全保证,难以应对智能体非确定性输出与最坏威胁场景。ClawLess跳出“对齐智能体”的传统思路,以最坏威胁模型(假设智能体本身可被诱导为对抗性)为设计基础,通过形式化安全模型+用户态内核隔离+BPF系统调用拦截,构建可数学验证、强制生效、与智能体内部实现无关的安全防护体系,从根源阻断智能体恶意行为,平衡安全与可用性。

功能特色

1. 最坏威胁模型适配

  • 基于两大核心假设:AI智能体具备复杂攻击能力智能体终将被诱导为恶意,覆盖最严苛安全场景

  • 不依赖智能体合规性,即便智能体被提示注入、数据投毒诱导,仍可强制约束其行为

  • 缩小可信基,仅依赖用户态内核、硬件等最小可信组件,降低攻击面

2. 形式化可验证安全策略

  • 构建覆盖系统实体、信任域、权限、动态行为的完整形式化模型

  • 支持SMT求解器(如Z3)验证策略,实现安全规则无冲突、无越权、可证明

  • 用线性时序逻辑(LTL)表达动态策略,适配智能体运行时行为变化

3. 三层信任域深度隔离

  • 划分Monitor(监控层)、Agent(智能体层)、Sandbox(外部脚本层) 三级信任域

  • 权限严格遵循:Sandbox权限 ⊆ Agent权限 ⊆ Monitor权限,杜绝越权提升

  • 外部脚本、第三方工具强制放入Sandbox,实现“沙箱中沙箱”的深度防御

4. 细粒度权限创新设计

  • 定义Read、Write、Append、NoExecute、Visible五类核心权限

  • 创新Visible权限:凭证等敏感信息对智能体仅可见名称,不可读取内容,兼顾可用性与安全

  • 支持路径、PID、网络地址等属性匹配,实现最小权限原则精准管控

5. 无侵入式运行时 enforcement

  • 基于用户态内核+BPF系统调用拦截,无需修改主机内核

  • 实时拦截、审计文件/网络/进程/设备操作,违规行为立即阻断

  • 支持策略热更新,无需重启智能体即可调整安全规则

6. 全框架兼容与轻量化

  • 框架无关,兼容OpenClaw、AutoGPT、LangChain等所有主流LLM智能体框架

  • 用户态部署,性能开销低,适配云原生、服务器、边缘设备等多环境

  • 提供策略编译器,自动将形式化规则转为系统调用拦截规则,降低使用门槛

技术细节

1. 核心形式化安全模型

ClawLess通过形式化语言统一定义系统安全规则,核心四要素:

  • 实体(Entity):文件、进程、Socket、设备、凭证等系统资源集合

  • 信任域(Scope):Monitor、Agent、Sandbox三层隔离域

  • 权限(Permission):P={Read, Write, Append, NoExecute, Visible}

  • 属性(Attribute):路径、PID、端口等,支持正则匹配精准管控资源

  • 采用一阶逻辑+线性时序逻辑(LTL) 表达动态策略,例如读取敏感文件后禁止外发网络请求。

2. 策略编译与验证流程

形式化策略 → SMT验证(Z3) → 系统调用映射 → BPF规则生成 → 运行时 enforcement
  1. 策略编写:用专用语言定义信任域、权限、动态规则

  2. 形式化验证:SMT求解器校验策略一致性、无冲突性

  3. 规则编译:将抽象权限映射为Linux系统调用规则(Read→read/open,NoExecute→拦截execve)

  4. 加载执行:生成BPF字节码,由用户态内核加载运行。

3. 隔离与拦截核心技术

  • 用户态内核隔离:以gVisor为Monitor层,隔离智能体与主机内核,避免内核漏洞风险

  • BPF系统调用拦截:通过raw_tracepoint截获sys_enter事件,高效校验所有系统调用

  • 双层沙箱:内层隔离智能体,外层隔离外部脚本,权限逐级收缩

  • 凭证安全代理:Monitor层托管敏感凭证,智能体仅Visible,代理执行需凭证操作。

4. 安全策略与系统调用映射表

权限类型 文件操作 目录操作 Socket操作 进程操作
Read read/mmap/sendfile getdents recvfrom/recvmsg semget/semop
Write write/mmap/sendfile mkdir/rmdir/creat sendto/sendmsg  
Append lseek/open mkdir/creat    
NoExecute execve     clone/fork
Visible stat     proc fs

ClawLess:南科大与港科大联合发布的AI智能体专用形式化安全框架

应用场景

1. 企业级AI智能体部署

覆盖办公自动化、研发运维、客户服务等场景,约束智能体文件访问、网络请求、代码执行权限,防止业务数据泄露、系统越权、内部网络攻击,保障企业核心资产安全。

2. 金融行业智能体应用

适用于智能风控、反欺诈、客户资料管理、支付清算自动化等场景,满足等保2.0、PCI DSS、GDPR等合规要求,保护金融数据、交易信息、客户隐私,杜绝恶意交易与越权操作。

3. 医疗健康数据处理

用于电子病历录入、诊断报告生成、医保理赔自动化等场景,严格遵循HIPAA等隐私规范,隔离患者敏感数据,防止医疗信息泄露、篡改,保障医疗数据安全合规。

4. 政务与法律场景

支撑公文自动化、法律文书生成、合规审计、档案管理等场景,保护政务敏感信息、法律文书、商业机密,符合政企安全规范,避免信息泄露与违规操作。

5. 云原生DevSecOps

嵌入CI/CD流程、云资源运维、微服务治理,防止容器逃逸、代码投毒、供应链攻击、云资源越权,实现AI智能体与云原生环境的安全融合。

使用方法

1. 环境依赖

  • 系统:Linux Kernel 5.8+(支持BPF)

  • 核心组件:gVisor(用户态内核)、Z3 SMT求解器、Clang/LLVM

  • 架构:x86_64,生产建议≥4核8GB内存

2. 部署流程

# 安装依赖
sudo apt install clang llvm z3 libz3-dev
# 安装gVisor
curl -fsSL https://gvisor.dev/setup.sh | sh

3. 安全策略定义

# 定义信任域权限
scope Monitor: trusted, full_permissions
scope Agent: untrusted, default_deny
scope Sandbox: untrusted, minimal_permissions

# 文件权限规则
allow Agent Read /data/**
deny Agent Write /etc/** /root/**
allow Agent Visible /credentials/**

# 动态防泄露规则
when Agent Read /credentials/*
then deny Agent Send *

4. 策略验证与启动

# 策略形式化验证
clawless verify --policy agent_policy.claw
# 编译为运行时规则
clawless compile --policy agent_policy.claw --output ./rules/
# 启动受保护智能体
clawless run --policy ./rules/ --agent openclaw --sandbox external

5. 运行时管理

clawless status # 查看安全状态
clawless logs -f # 实时审计日志
clawless update --policy new_policy.claw # 热更新策略

竞品对比

对比维度 ClawLess IronClaw gVisor原生隔离
研发机构 南方科技大学、香港科技大学 NearAI Google
安全模型 形式化验证+三层隔离+LTL动态策略 层级防御+WASM沙箱 单用户态内核隔离
威胁适配 最坏威胁模型(智能体对抗) 高风险场景 普通不可信应用
权限粒度 极细粒度(5类权限+时序动态) 工具级细粒度 系统调用级中粒度
策略验证 SMT形式化数学证明 渗透测试+代码审计 无形式化验证
智能体适配 全主流LLM智能体框架 OpenClaw生态 通用应用无定制
性能开销 <15% ~20% ~12%
部署难度 中等(需gVisor+Z3+BPF) 低(单二进制) 低(仅gVisor)
核心优势 可验证、动态适配、AI智能体专用 易用、OpenClaw原生适配 通用、稳定、轻量

常见问题解答

ClawLess和普通Docker容器的核心区别是什么?

Docker依赖Linux内核cgroup、namespace实现隔离,权限粗粒度、规则静态、无形式化验证,无法应对AI智能体非确定性自主行为;ClawLess基于用户态内核+BPF动态拦截+形式化验证,针对智能体设计细粒度动态策略,安全强度远高于普通容器,可对抗最坏威胁场景。

ClawLess会降低AI智能体的任务执行能力吗?

ClawLess遵循最小权限原则,仅拦截违规操作,正常任务无感知;基于用户态内核与BPF轻量化设计,整体性能开销<15%,远低于虚拟机;同时通过动态权限调整,在安全前提下最大化保留智能体任务能力。

ClawLess支持哪些AI智能体框架?

ClawLess框架无关,完全兼容所有主流LLM自主智能体框架,包括OpenClaw、AutoGPT、LangChain、LlamaIndex、AutoGen、CrewAI等,只需指定框架名称即可无缝接入。

编写ClawLess安全策略需要形式化专业知识吗?

不需要。ClawLess提供类自然语言的专用策略语言,语法简洁易懂;官方内置企业、金融、医疗等多场景预设模板,直接复用或简单修改即可使用,搭配策略验证工具,自动检查语法与逻辑错误。

ClawLess能防御提示词注入攻击吗?

可以。ClawLess不依赖智能体自身防护,从系统底层强制拦截所有违规系统调用;即便智能体被提示注入诱导执行恶意操作,仍会被严格校验并阻断,从根源防御攻击生效。

ClawLess的可信基是什么,安全性如何保障?

ClawLess最小化可信基,仅包含用户态内核(gVisor)、BPF执行环境、硬件等核心组件;通过形式化验证消除策略逻辑漏洞,双层沙箱缩小攻击面,不依赖智能体与容器内软件栈,保障底层安全。

相关链接

总结

ClawLess作为南方科技大学与香港科技大学联合推出的AI智能体形式化安全框架,以最坏威胁模型为设计基石,通过形式化安全建模、三层信任域隔离、细粒度动态权限管控、SMT策略验证与BPF系统调用拦截五大核心技术,构建了不依赖智能体内部实现、可数学证明、强制生效的安全防护体系,有效解决传统安全方案无法适配LLM智能体非确定性与自主性行为的痛点,在安全强度、兼容性、性能与易用性之间实现平衡,为企业、金融、医疗、政务等高安全场景的自主AI智能体落地提供了底层安全保障。

打赏
THE END
作者头像
AI工具箱
一个喜欢收集AI工具的小萌新