BigSet：开源 AI 多智能体数据集工具，自然语言驱动全自动数据采集

AI新闻 AI铺子 1个月前

106

一、BigSet 是什么

BigSet 是一款基于AI多智能体（Multi-Agent） 架构打造的开源数据集自动化构建工具，开源协议为 AGPL-3.0，主体代码采用 TypeScript 开发，支持本地部署、Docker 私有化部署两种运行模式。

传统数据集制作、网页数据采集工作，往往需要开发者编写爬虫脚本、手动设计数据表结构、配置抓取规则、后期清洗整理，整个流程技术门槛高、耗时久，普通非技术人员难以上手。而 BigSet 彻底重构了数据采集与数据集生产逻辑，全程无需代码、无需配置爬虫规则，用户仅通过自然语言描述数据需求，系统便可自动完成数据源检索、字段定义、并行抓取、数据清洗、格式导出、定时更新全流程工作。

该项目核心目标是降低结构化数据集的生产门槛，让运营、市场、数据分析、中小开发者等群体，都能快速从公开互联网信息中生成标准、可用的结构化数据集，同时依托多智能体协同机制保障数据真实、完整、合规。

Blockquote：BigSet 摒弃传统爬虫工具的操作逻辑，以大模型+多智能体为核心，实现“自然语言指令 → 全自动数据集产出”的一站式能力。

二、功能特色

BigSet 围绕零代码、自动化、智能化、易维护四大核心方向设计功能，覆盖数据集从创建、采集、清洗到长期维护的全生命周期，核心特色如下：

1. 自然语言驱动，零代码创建任务

用户无需掌握编程、爬虫、数据库相关知识，直接使用日常语言描述想要采集的数据内容、字段维度，系统会自动理解需求，替代人工完成数据表结构设计，包括字段名称、数据类型、主键、分类规则等基础配置。

2. 多智能体协同并行采集

项目采用分布式多智能体分工架构，不同智能体承担独立职责，各司其职、并行作业：

调度智能体：根据用户需求全网检索合规公开数据源，梳理采集目标与来源链接；
执行智能体：多实例并行抓取对应页面数据，提升采集效率；
校验智能体：实时核验数据真实性，拒绝虚构、篡改内容，保证数据集可靠。

3. 全自动数据清洗与规整

采集完成后自动执行标准化处理流程，包含数据去重、格式统一、空值过滤、内容纠错等操作，无需人工二次整理，输出格式统一的结构化数据。

4. 灵活定时自动更新

支持多档位定时任务配置，可设置 30 分钟、6 小时、12 小时、每日、每周等更新周期，针对价格、招聘、行情等动态变化的数据，实现数据集长期自动迭代，杜绝数据滞后问题。

5. 多格式导出，适配多场景使用

最终数据集支持主流办公与数据格式导出，包含 CSV、XLSX（Excel），可直接用于表格统计、数据分析、业务报表、二次开发等场景。

6. 私有化部署，保障数据隐私

原生支持 Docker 容器化部署，用户可将项目部署在本地服务器、内网环境中，所有采集请求、数据内容均留存于私有环境，规避公网服务的数据泄露风险，满足企业隐私合规要求。

BigSet（图1）

三、技术细节

本节从开发语言、架构设计、核心组件、运行部署、数据处理逻辑五个维度，拆解 BigSet 底层技术实现，内容通俗易懂，兼顾技术人员与普通使用者阅读。

1. 基础开发环境

主力开发语言：TypeScript，依托 Node.js 运行时执行后端逻辑，兼顾代码健壮性与跨平台运行能力；
运行环境：支持 Windows、Linux、macOS 全主流操作系统，适配本地单机运行与服务器部署；
开源协议：AGPL-3.0，使用者可自由使用、修改、二次开发，二次分发需遵循对应开源协议规范。

2. 核心架构：多智能体协同架构

这是 BigSet 最核心的技术亮点，整体采用主从式多智能体架构，架构分层清晰：

交互层：前端可视化操作界面，负责接收用户自然语言指令、展示任务状态、提供导出与配置入口；
调度中枢层：全局任务调度模块，解析用户自然语言需求，拆解采集任务，分配给不同执行智能体；
智能体执行层：由检索智能体、抓取智能体、校验智能体、清洗智能体组成，各模块解耦独立运行，支持横向扩容；
数据存储层：本地文件/轻量存储持久化采集任务、原始数据、清洗后数据集，轻量化设计，无需依赖重型数据库。

3. 自然语言理解模块

集成大模型能力完成需求解析与表结构生成：将用户非结构化的文字描述，转化为标准化的数据表 Schema，自动定义字段名、字段属性、数据约束，替代传统人工建表工作。

4. 数据采集与网络请求

采用轻量化网络请求引擎，模拟正常浏览器访问行为，降低公开网页的反爬拦截概率；
任务支持并行调度，多抓取智能体同时工作，大幅提升大批量数据采集速度；
内置访问频率控制机制，合规控制请求频次，避免高频请求对目标站点造成压力。

5. 数据清洗引擎

内置规则化清洗逻辑，执行流程固定且自动化：
原始采集数据 → 重复数据剔除 → 空字段过滤 → 文本格式统一 → 异常数据标记 → 标准结构化数据集

6. 部署方式技术说明

项目提供两种部署方案，对应不同使用需求：

本地直接运行：依赖 Node.js 环境，拉取代码后安装依赖即可启动，适合个人、小型团队临时使用；
Docker 容器部署：官方提供标准镜像，一条命令即可完成部署，环境隔离、一键启停、迁移方便，是企业、长期使用的首选方案。

Docker 部署核心示例代码

# 拉取 BigSet 镜像
docker pull tinyfish-io/bigset

# 启动容器并映射端口与数据目录
docker run -d -p 8080:8080 -v /data/bigset:/app/data --name bigset tinyfish-io/bigset

四、应用场景

BigSet 凭借零代码、自动化、定时更新的特性，可广泛应用于个人办公、中小企业运营、行业数据分析、小型开发等场景，覆盖公开结构化数据采集的绝大多数需求：

行业行情与价格采集
采集各类云服务 API 报价、硬件产品报价、电商商品价格、服务资费等动态价格数据，搭配定时更新功能，自动维护价格台账。
企业信息与招聘数据整理
批量采集企业工商公开信息、全网招聘岗位、岗位薪资、任职要求等内容，快速生成行业招聘数据集，用于人力分析、行业调研。
竞品信息汇总分析
收集同行产品功能、版本更新、官方动态、套餐服务等信息，定期自动更新，辅助产品运营、市场人员做竞品调研。
本地商户与公开信息收集
采集线下商户地址、联系方式、营业状态、服务项目等公开信息，快速制作商户名录表格。
资讯与文献类数据整合
针对公开论文、行业资讯、公告通知等内容，提取标题、发布时间、来源、摘要等字段，生成结构化资讯数据集。
个人办公与台账制作
普通办公人员可用来批量整理公开榜单、名单、统计类数据，省去手动复制粘贴、排版整理的工作。

五、使用方法

BigSet 操作流程极简，全程可视化界面操作，分为部署启动、创建采集任务、查看与导出数据、配置定时更新四大步骤，零基础用户也可快速上手。

步骤1：部署并启动项目

根据自身需求选择部署方式：

个人临时使用：安装 Node.js 环境，克隆项目代码，执行依赖安装与启动命令，访问本地端口进入网页端；
企业/长期使用：使用前文提供的 Docker 命令完成容器部署，通过服务器 IP+端口访问操作界面。

步骤2：新建数据采集任务

进入系统首页，点击新建任务按钮；
在输入框中使用自然语言描述采集需求，示例：采集全网主流AI大模型名称、官方地址、收费模式、调用价格；
提交需求，系统自动解析并生成数据表字段，无需手动修改即可进入下一步。

步骤3：执行数据采集

确认系统自动生成的字段无误后，点击开始采集；
后台多智能体自动检索数据源、并行抓取数据，界面实时展示采集进度、成功数量、异常数量；
采集完成后，系统自动执行数据清洗工作。

步骤4：预览、导出数据集

采集清洗完成后，在任务列表中点击查看数据，在线预览完整结构化表格；
点击导出按钮，选择 CSV 或 XLSX 格式，将数据集下载至本地使用。

步骤5（可选）：配置定时自动更新

进入对应任务的设置页面；
开启定时更新开关，选择更新周期（30分钟/6小时/12小时/每日/每周）；
保存配置，系统将按照设定周期自动重新采集、更新数据集。

六、竞品对比

选取市面上主流的无代码数据采集/爬虫工具进行横向对比，包含两款商业工具、一款开源爬虫工具，从核心定位、使用门槛、自动化能力、部署方式、授权协议、定时更新六大维度对比，直观体现 BigSet 差异化优势。

对比维度	BigSet	八爪鱼采集器（商业版）	WebScraper（开源爬虫插件）
核心定位	多智能体AI全自动数据集构建工具	可视化规则配置式网页爬虫工具	浏览器插件式简易爬虫工具
使用门槛	极低，纯自然语言指令，零配置	中等，需手动框选页面元素、配置抓取规则	中等，需手动选择抓取节点、配置选择器
自动化能力	全流程自动化（建表+采集+清洗+更新）	采集自动化，表结构需手动设置	仅采集自动化，无自动建表、深度清洗能力
部署方式	本地运行 / Docker 私有化部署	云端SaaS / 本地客户端	仅浏览器插件，无法独立部署
授权协议	AGPL-3.0 开源免费，可二次开发	闭源商业软件，分免费/付费套餐	开源免费，仅插件功能
定时更新	原生支持多周期定时自动更新	付费版本支持定时任务	无原生定时更新功能

对比总结：

相较于传统商业爬虫工具八爪鱼采集器，BigSet 最大优势是抛弃规则配置，改用自然语言交互，门槛更低，且完全开源可私有化部署，无商业授权成本；
相较于浏览器插件 WebScraper，BigSet 功能更完整，具备自动建表、数据清洗、定时更新、独立部署能力，不再局限于浏览器环境，适合批量、长期的数据采集工作；
三款工具中，BigSet 是唯一以AI多智能体为核心、面向“数据集生产”设计的产品，而非单纯的网页爬虫。

七、常见问题解答

Q：使用 BigSet 需要会编程或者爬虫技术吗？

A：不需要。该工具主打零代码使用，所有操作都在可视化网页界面完成，仅需用自然语言描述采集需求，系统会自动完成后续所有技术操作，零基础用户也能正常使用。

Q：BigSet 采集的数据是否会被平台留存？

A：取决于部署方式。如果使用官方在线服务，数据会按照平台规则存储；如果采用本地或 Docker 私有化部署，所有采集任务、原始数据、最终数据集都仅保存在用户自己的设备/服务器中，外部无法访问，隐私安全性更高。

Q：采集过程中出现部分数据缺失是什么原因？

A：主要原因分为三类：一是目标网页存在反爬机制，限制了访问与数据抓取；二是部分数据源页面结构不规范，智能体识别出现偏差；三是对应公开信息本身为空。可以尝试补充更精准的自然语言描述，或更换数据源范围重新采集。

Q：支持采集需要登录才能访问的网页数据吗？

A：目前 BigSet 主要面向公开无权限限制的网页数据采集，暂不支持账号登录、验证码验证、权限访问类页面的数据抓取，这也是为了遵守网络合规要求。

Q：修改代码后二次分发 BigSet 有什么限制？

A：项目遵循 AGPL-3.0 开源协议，若你修改源码并对外分发、部署提供服务，需要同步开源修改后的完整代码，遵守协议相关规范即可。

Q：定时更新任务最多可以设置几种周期？

A：系统内置5种常用更新周期，分别为30分钟、6小时、12小时、每日、每周，可根据数据更新频率自由选择。

Q：导出的 CSV 和 XLSX 文件可以直接用办公软件打开吗？

A：可以。两种格式都是通用办公格式，Excel、WPS、金山表格等主流软件均可直接打开、编辑、统计数据。

八、相关链接

Github仓库：https://github.com/tinyfish-io/bigset

九、总结

BigSet 是一款创新性十足的开源数据集构建工具，依托 TypeScript 与多智能体AI架构，打破了传统爬虫、数据集制作工具技术门槛高、操作繁琐的痛点，将自然语言交互融入数据采集全流程，实现了从需求描述到结构化数据集产出的全自动化。它不仅具备自动建表、并行采集、数据清洗、定时更新、多格式导出等完善功能，还支持灵活的私有化部署方案，兼顾个人临时使用与企业隐私合规需求。对比传统爬虫工具，BigSet 在易用性、智能化程度上具备明显优势，覆盖行情调研、竞品分析、办公台账、行业数据整理等多元化应用场景，无论是普通办公人员、行业运营人员，还是中小开发者，都能借助该工具高效完成公开结构化数据的收集与整理工作，是当下轻量化、零代码数据采集领域实用性极强的开源解决方案。

打赏

版权及免责申明：本文由@AI铺子原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/bigset.html

THE END

AI铺子

关注ai行业发展，专注ai工具推荐

+ 关注