DataClaw:开源 AI 对话数据处理工具,安全脱敏导出与合规共享数据集
一、DataClaw是什么
DataClaw是一款开源、轻量、命令行驱动的AI对话数据处理工具,基于Python开发,托管于GitHub,由开发者Peter O’Malley创建,核心定位是把用户与AI编码助手的原生对话历史,转化为标准化、结构化、可直接用于研究与训练的开源数据集,并提供全流程隐私保护与合规发布能力。
它不仅是一个技术工具,更是一个面向AI数据开放的“行为艺术项目”——针对当前大模型企业“取用公开数据训练,却封闭用户交互数据”的现状,DataClaw赋予用户对自身AI对话数据的所有权、控制权与共享权,让普通开发者、研究者、个人用户都能安全、合规地将AI协作数据转化为社区公共资源。
DataClaw的核心价值可以概括为三点:
数据主权回归:用户完全掌控自己与AI的对话数据,决定是否导出、审核、共享;
安全脱敏处理:内置多层自动化脱敏机制,杜绝密钥、隐私、个人信息泄露;
开放数据生态:降低高质量AI编程对话数据的获取门槛,助力小团队、研究者模型迭代。
它的目标用户覆盖:AI开发者、独立研究者、编程爱好者、数据科学家、开源社区贡献者、AI伦理与数据合规从业者。
二、功能特色
DataClaw以极简操作、强隐私保护、高结构化、全流程可控为核心特色,功能覆盖从数据解析到发布的全链路。
1. 多源AI对话解析
支持主流编码助手对话历史导入与解析,当前已适配:
Claude Code(claude.ai/code)
OpenAI Codex
兼容Gemini CLI、OpenCode、OpenClaw等工具对话日志
可自动识别对话结构:用户输入、模型回复、工具调用记录、代码块、文件操作、会话元数据,无需手动整理。
2. 七层自动化隐私脱敏(核心特色)
DataClaw提供行业领先的七层脱敏保护,全程本地执行,不上传原始数据:
路径匿名化:文件路径转为项目相对路径,隐藏系统目录与个人目录
用户名哈希:系统用户名、配置用户名替换为稳定哈希值,不可逆向
密钥检测:自动识别并屏蔽API Key、数据库密码、私钥、JWT Token
熵值分析:标记高熵字符串,识别潜在密钥与敏感信息
邮箱脱敏:自动移除个人邮箱地址
自定义脱敏:支持用户添加自定义敏感词、项目名、域名规则
预截断脱敏:在数据截断前完成密钥处理,避免残留
3. 本地优先审核机制
所有数据处理默认在本地完成:
先导出、后审核、再发布,强制本地预览
支持项目筛选、会话过滤、时间范围限定
可排除指定项目、文件、关键词内容
导出前提供数据统计、样本预览
4. 标准化结构化输出
将非结构化对话转为通用数据集格式,适配Hugging Face、模型训练框架:
输出JSON/JSONL标准格式
包含会话ID、项目信息、时间戳、消息序列、角色标记、工具调用
自动统计token数、会话数、项目数、消息数
统一数据schema,便于批量训练与分析
5. 一键发布至Hugging Face
完成审核后,可一键推送至Hugging Face Datasets:
自动添加
dataclaw标签,便于社区检索支持用户署名、声明附加
发布前强制合规确认,留存操作记录
支持增量更新、多版本管理
6. 轻量化CLI与无门槛使用
纯命令行操作,一条命令完成安装与配置
无需前端界面、无需数据库、无需复杂依赖
提供引导式代理模式,新手可跟随步骤完成
支持配置文件持久化,重复使用无需重复设置
7. 开源透明与可扩展
全程开源,代码可审计,无后门、无数据上传
模块化架构,支持新增数据源、脱敏规则、导出目标
提供完整测试用例,保证稳定性
遵循MIT开源协议,可自由修改与商用
三、技术细节
1. 技术栈
| 技术模块 | 选型 |
|---|---|
| 开发语言 | Python 3.8+ |
| CLI框架 | 原生命令行+引导式交互 |
| 数据解析 | 正则匹配、结构化日志解析 |
| 脱敏引擎 | 多规则匹配、熵值计算、哈希加密 |
| 数据格式 | JSON/JSONL、Hugging Face Dataset |
| 配置管理 | YAML配置文件、本地存储 |
| 发布接口 | Hugging Face Hub API |
2. 核心架构
DataClaw采用管道式处理架构,数据流清晰:
数据源读取模块:读取本地AI助手对话日志
解析模块:拆解消息、角色、代码、工具调用
脱敏模块:七层脱敏流水线处理
结构化模块:按schema重组为标准数据集
导出模块:本地保存、预览、统计
发布模块:Hugging Face授权、推送、标签管理
所有模块解耦,可独立替换与扩展。
3. 脱敏技术原理
密钥检测:正则匹配主流云厂商、AI平台密钥格式
熵值计算:对字符串做信息熵计算,高于阈值判定为高敏感
哈希处理:使用稳定哈希算法,同一用户名始终映射为同一ID
路径归一:提取项目根目录,移除系统路径、用户主目录
红敏替换:敏感内容统一替换为占位符,不破坏数据结构
4. 数据格式标准
单条样本结构:
{
"conversation_id": "唯一会话ID",
"project": "项目名(匿名化)",
"source": "claude_code/codex",
"timestamp": "时间戳",
"messages": [
{"role": "user", "content": "用户输入", "code": "代码块(如有)"},
{"role": "assistant", "content": "模型回复", "tool_call": "工具调用"}
],
"metadata": {
"input_tokens": 输入token数,
"output_tokens": 输出token数,
"model": "模型版本",
"anonymized": 是否脱敏
}
}5. 安全设计原则
最小权限:仅读取对话文件,不访问无关系统数据
本地优先:所有敏感处理在本地完成
显式授权:发布必须用户手动确认
可审计:保留导出、审核、发布日志
可回滚:支持删除已发布数据集
四、应用场景
1. AI模型训练与微调
为代码大模型、对话模型提供高质量编程对话数据
小团队、学术研究低成本获取训练数据
构建垂直领域编程助手、代码生成模型
2. AI行为与交互研究
分析开发者与AI协作模式、提问习惯、错误类型
研究工具调用、思维链、调试流程
优化AI助手交互设计、提示词工程
3. 个人数据资产管理
备份、归档、整理与AI的长期对话
转化为可检索、可复用的个人知识库
安全共享有价值的编程协作案例
4. 开源社区数据贡献
贡献高质量数据集,推动开放AI生态
形成分布式、众包式AI对话数据库
对抗数据垄断,提升行业透明度
5. 合规与数据主权实践
个人/企业实践AI数据所有权、合规导出
满足隐私法规(GDPR、CCPA等)要求
实现数据最小化与脱敏合规

五、使用方法
1. 环境准备
Python 3.8及以上
本地安装pip
Hugging Face账号与Access Token(发布用)
2. 安装
pip install dataclaw
3. 基础配置
# 查看版本 dataclaw --version # 配置数据源(claude/codex/all) dataclaw config --source all # 排除不需要导出的项目 dataclaw config --exclude "private-project" "secret-dir"
4. 查看可导出数据
# 列出所有可解析项目 dataclaw list # 查看数据源状态 dataclaw status
5. 本地导出与审核(必须步骤)
# 导出到本地,不推送 dataclaw export --no-push
导出后会在本地生成数据集文件,用户可打开检查脱敏效果、内容准确性。
6. 合规声明与确认
dataclaw confirm --full-name "你的名字" \ --attest-pii "我已审核数据,无未脱敏PII" \ --attest-consent "我获得所有数据相关授权"
7. 发布到Hugging Face
# 登录HF(使用token,不暴露密码) huggingface-cli login --token your-token # 发布数据集 dataclaw export --publish
8. 高级用法
# 仅导出最近30天数据 dataclaw export --days 30 # 自定义脱敏词表 dataclaw config --redact "关键词1" "关键词2" # 清空配置 dataclaw reset
六、常见问题解答
DataClaw会上传我的原始对话数据吗?
不会。DataClaw所有解析、脱敏、导出操作都在本地执行,不会自动上传任何原始数据。只有你手动执行发布命令,才会将已脱敏、已审核的结构化数据推送到Hugging Face。
DataClaw支持哪些AI助手的数据?
当前稳定支持Claude Code与OpenAI Codex的对话历史;同时兼容Gemini CLI、OpenCode、OpenClaw等工具的日志格式,项目会持续更新支持更多数据源。
脱敏功能是否足够安全?会不会漏敏感信息?
DataClaw提供七层脱敏,覆盖路径、用户名、密钥、邮箱、高熵字符串等,并支持自定义规则。工具会最大程度自动脱敏,但项目仍强制要求用户本地审核后再发布,这是安全的最后一道防线。
我不懂代码,能使用DataClaw吗?
可以。DataClaw提供引导式代理模式,只需按提示输入命令、确认选项即可完成导出与发布,无需编写代码或理解数据结构。
导出的数据可以用于商业模型训练吗?
可以。DataClaw本身为MIT开源协议,你导出的你自己的对话数据所有权归你,可自由用于研究、训练、商用;但发布到Hugging Face时,需遵守平台协议与你附加的授权声明。
发布到Hugging Face后,我可以删除吗?
可以。你可以随时在Hugging Face网站删除数据集,或通过huggingface-cli删除,DataClaw不保留任何控制权。
DataClaw会收集我的使用信息吗?
不会。项目无埋点、无统计、无上报,完全本地运行,代码开源可审计。
导出的数据格式是什么?可以直接用于训练吗?
默认导出JSONL格式,可直接被Hugging Face Datasets、PyTorch、TensorFlow加载,无需额外格式转换。
我可以只导出部分项目或部分会话吗?
可以。支持按项目排除、按时间范围过滤、按关键词筛选,灵活控制导出范围。
使用DataClaw需要付费吗?
完全免费、开源,无付费功能、无订阅、无限制。
七、相关链接
八、总结
DataClaw是一款以用户数据主权、隐私安全、开放共享为核心的AI对话数据处理工具,它通过轻量化Python实现,将Claude Code、Codex等AI编码助手的原生对话转化为标准化、脱敏后的结构化数据集,支持本地审核与一键发布至Hugging Face,以极简流程降低个人贡献高质量AI数据的门槛,同时以七层脱敏与严格的本地优先机制保障隐私与合规,既满足个人对AI对话数据的管理需求,也为AI研究、模型训练、开放生态提供可信数据源,在封闭的数据壁垒中构建了一条用户可控、安全合规、社区共赢的数据开放路径。
版权及免责申明:本文由@AI铺子原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/dataclaw.html

