Bee:清华大学联合腾讯混元推出的全开源多模态大语言模型

原创 发布日期:
7

一、Bee是什么?

Bee是由清华大学与腾讯混元团队联合研发的全开源多模态大语言模型(MLLMs)全栈解决方案,核心聚焦现有开源模型数据质量不足、复杂推理能力薄弱的痛点。项目通过三大核心产出——1500万条双级思维链(CoT)增强的高质量SFT数据集Honey-Data-15M、自动化数据处理管道HoneyPipe及底层DataStudio框架、8B参数SOTA模型Bee-8B,构建了从数据生成到模型训练的完整生态。Bee-8B在通用视觉问答、图表理解、数学推理等多类基准测试中刷新全开源模型性能上限,部分任务表现媲美甚至超越半开源模型,为全开源MLLMs社区提供了可直接复用的数据集、工具链与模型资源,推动开源多模态AI技术的工业化落地。

Bee并非单一模型或数据集,而是一套覆盖“数据生成-模型训练-性能验证”的完整解决方案,其核心目标是通过标准化的高质量数据处理流程与丰富的推理数据,解锁全开源MLLMs的先进能力,让开源社区无需依赖闭源数据或模型,即可开发出具备工业级性能的多模态AI应用。

项目的核心构成包含三部分:

  1. 高质量SFT数据集Honey-Data-15M:1500万条双级CoT增强的QA对,覆盖7大核心任务领域;

  2. 自动化数据处理工具链:含HoneyPipe数据处理管道与DataStudio底层框架,支持从原始数据到高质量SFT数据的全流程自动化生成;

  3. SOTA全开源模型Bee-8B:基于Qwen3-8B训练的8B参数多模态模型,刷新全开源MLLMs性能上限。

作为全开源项目,Bee的所有核心资源(数据集、工具链代码、模型权重、训练食谱、评估工具)均向社区开放,旨在降低高质量多模态AI研发的门槛,推动全开源MLLMs生态的标准化与工业化发展。

二、功能特色

Bee项目的核心竞争力源于“数据质量+工具链效率+模型性能”的三重突破,其功能特色可概括为以下五大核心亮点:

1. 1500万条双级CoT数据集,填补开源推理数据空白

Honey-Data-15M是Bee项目的核心基石,也是当前全开源领域规模最大、质量最高的双级CoT增强SFT数据集之一,彻底解决了现有开源数据集“推理数据不足”的痛点:

  • 规模与覆盖度领先:包含1500万条精心筛选的QA对,源自2400万条多源图文对的严格清洗,覆盖通用视觉理解(36.8%)、图表分析(24.6%)、图像描述(15.1%)、STEM(7.6%)、文档理解(5.9%)、定位计数(5.1%)、OCR(4.9%)7大核心领域,基本覆盖多模态AI的主流应用场景;

  • 双级CoT精准适配不同复杂度任务:创新设计“短CoT+长CoT”双级思维链增强策略——1220万条短CoT针对中等复杂度任务(如基础视觉问答、简单计数),提供简洁步骤化解释;270万条长CoT针对高复杂度任务(如数学推理、逻辑分析、图表深度解读),提供多步骤详细解决方案,让模型在不同难度场景下均能获得精准的推理训练;

  • 数据质量严格可控:经过“去重→噪声过滤→CoT生成→保真度验证”四级质控流程,采用规则驱动+模型驱动双过滤机制剔除低质样本,并用“LLM-as-a-Judge”验证CoT的正确性与一致性,确保数据集无明显噪声、逻辑连贯。

2. 自动化数据处理管道,实现“原始数据→高质量SFT数据”一键生成

HoneyPipe作为基于DataStudio框架构建的自动化数据处理管道,打破了传统“静态数据集发布”的局限,为社区提供了可复用、可定制的高质量数据生成工具:

  • 全流程自动化:无需人工干预,即可完成“数据聚合→噪声过滤→CoT增强→保真度验证”的端到端处理,将原始杂乱的图文数据转化为可直接用于SFT训练的高质量数据集;

  • 高度透明与可复现:每个处理步骤的逻辑、参数与算子均完全开源,社区可清晰追溯数据生成过程,同时支持根据自身需求调整参数(如CoT生成模型、过滤阈值),复现或优化数据处理流程;

  • 适配性强:底层DataStudio框架提供灵活的算子接口,支持替换数据来源、CoT生成模型、过滤规则等核心模块,可适配通用视觉、STEM、文档处理等不同场景的数据集生成需求。

3. 8B参数SOTA模型,全开源领域性能天花板

Bee-8B是基于Honey-Data-15M全量训练的8B参数多模态模型,以Qwen3-8B为基础模型,在多个权威基准测试中刷新全开源MLLMs性能上限:

  • 综合性能领先:在General VQA、图表/OCR处理、数学推理三大核心领域均表现突出,例如CountBench(计数任务)达93.0分、MMVet(综合多模态能力)达83.9分、MathVerse(视觉数学推理)达67.0分,远超同类全开源模型;

  • 媲美半开源模型:在部分任务中性能接近或超越半开源模型(如InternVL3.5-8B),例如LogicVista(逻辑推理)达61.3分(超InternVL3.5-8B的57.3分)、MMVP(多模态视频问答)达82.0分(超InternVL3.5-8B的无数据记录),证明全开源模型通过高质量数据训练可具备与半开源模型竞争的能力;

  • 部署成本低:仅8B参数规模,支持单机部署,兼顾性能与部署效率,适合中小企业、科研机构及开发者快速应用。

4. 全栈资源开放,降低多模态AI研发门槛

Bee项目并非单一组件开源,而是提供“数据集+工具链+模型+训练/评估工具”的全栈资源,彻底降低多模态AI研发的技术门槛:

  • 数据集开放:Honey-Data-15M可通过HuggingFace、ModelScope直接下载,支持主流框架(PyTorch、TensorFlow)调用;

  • 工具链开放:HoneyPipe与DataStudio的完整代码即将开源,提供详细的使用文档与示例,支持二次开发;

  • 模型资源开放:Bee-8B的模型权重、训练食谱(超参数设置、训练流程)、评估工具均完全开源,开发者可直接部署或基于此进行微调优化;

  • 文档支持完善:提供项目网页、论文、示例代码、基准测试结果等全套文档,方便不同技术水平的用户快速上手。

5. 多领域适配,兼顾科研与工业应用

Bee的核心资源(数据集、模型、工具链)均经过多领域验证,既能满足学术研究的标准化需求,也能适配工业场景的实际应用:

  • 科研层面:提供高质量、可复现的数据集与模型基线,为全开源MLLMs的性能对比、技术创新提供统一基准;

  • 工业层面:数据集覆盖图表分析、OCR、文档理解等高频工业场景,模型部署成本低、推理速度快,工具链支持定制化数据生成,可直接应用于智能办公、教育、金融、医疗等领域的多模态AI产品开发。

三、技术细节

Bee项目的技术核心围绕“高质量数据生成”与“高效模型训练”展开,以下从数据集构建、数据处理管道、模型训练三个维度拆解关键技术细节:

1. Honey-Data-15M数据集构建技术

Honey-Data-15M的高质量源于精细化的构建流程与创新的双级CoT设计,具体技术细节如下:

(1)数据来源与聚合策略

  • 原始数据池:整合2400万条多源图文对,涵盖开源数据集(如LLaVA-NeXT-Data、ALLaVA、TinyChart)、学术数据集(如AI2D、SciencQA)、真实场景数据(如K12 Printing、ArXiv OCR)等,确保数据多样性;

  • 去重机制:采用“文本指纹+图像特征哈希”双重去重策略,剔除完全重复或高度相似的样本,减少数据冗余,提升训练效率;

  • 类别均衡优化:针对高频应用领域(如通用视觉、图表分析)适当增加数据占比,同时保证小众领域(如STEM、定位计数)的基础覆盖,避免数据偏斜。

(2)双级CoT生成技术

  • 短CoT生成:针对中等复杂度任务(如“识别图像中的物体数量”“描述图像内容”),采用Qwen2.5-VL-72B/32B模型生成步骤化解释,生成规则为“明确任务目标→拆解核心步骤→给出结论”,确保解释简洁且逻辑连贯,共产出1220万条样本;

  • 长CoT生成:针对高复杂度任务(如“解几何题”“分析图表中的趋势并计算数值”),采用顶级闭源MLLMs生成多步骤详细解决方案,生成规则为“理解问题背景→拆解核心难点→分步推导→验证结论→总结思路”,确保推理过程完整、可追溯,共产出270万条样本;

  • CoT质量控制:通过“语义一致性校验”(确保CoT与问题、答案高度相关)、“逻辑连贯性校验”(确保步骤间无矛盾)、“准确性校验”(通过LLM-as-a-Judge对比标准答案或合理推导结果)三层验证,剔除不合格CoT样本。

(3)噪声过滤技术

  • 规则驱动过滤:基于正则表达式、格式校验等规则,剔除格式错误(如缺少答案、图文链接失效)、内容无意义(如随机字符、重复语句)的样本;

  • 模型驱动过滤:采用预训练多模态模型(如Qwen2.5-VL-7B)对样本进行质量评分,剔除低质量图像(如模糊、分辨率过低)、图文不匹配(如问题询问“猫的数量”,图像中无猫)的样本;

  • 人工抽样校验:对过滤后的样本进行1%抽样人工审核,调整过滤阈值,确保过滤效果——最终噪声率控制在0.5%以下。

2. HoneyPipe数据处理管道技术

HoneyPipe是基于DataStudio框架的自动化数据处理管道,包含5个核心技术阶段,各阶段技术细节如下表所示:

技术阶段 核心目标 关键技术手段 输出结果
数据聚合与去重 构建多样化、无冗余的原始数据池 多源数据整合+文本指纹去重+图像特征哈希去重 2400万条去重后图文对
噪声与无关性过滤 剔除低质、不相关样本 规则驱动过滤(格式校验、正则匹配)+模型驱动过滤(多模态质量评分、图文匹配校验) 1800万条高质量图文对
短CoT增强 为中等复杂度任务添加步骤化解释 Qwen2.5-VL-72B/32B模型生成+语义一致性校验 1220万条短CoT样本
长CoT增强循环 为高复杂度任务添加详细推理过程 顶级闭源MLLMs生成+逻辑连贯性校验+准确性校验 270万条长CoT样本
保真度验证 确保CoT与样本的正确性、一致性 LLM-as-a-Judge语义对比+人工抽样校验 1500万条最终Honey-Data-15M样本

(1)DataStudio底层框架

DataStudio是支撑HoneyPipe运行的核心框架,其技术特点包括:

  • 算子化设计:将数据处理的每个环节(如去重、过滤、CoT生成、验证)封装为独立算子,支持灵活组合、替换,适配不同数据处理需求;

  • 流程可视化:提供可视化流程配置界面(即将开源),支持拖拽式搭建数据处理流程,降低非专业用户的使用门槛;

  • 分布式支持:支持多节点并行处理,可高效处理千万级以上规模的数据集,提升数据处理速度。

3. Bee-8B模型训练技术

Bee-8B以Qwen3-8B为基础模型,通过全量Honey-Data-15M训练实现性能突破,核心训练技术如下:

  • 预训练基础:Qwen3-8B具备强大的语言理解与视觉编码能力,为多模态任务提供坚实基础;

  • 训练策略:采用“全量SFT训练”模式,将Honey-Data-15M的1500万条QA对(含双级CoT)全部用于模型微调,确保模型充分学习推理逻辑;

  • 超参数设置:训练批次大小(batch size)为64,学习率为2e-5,训练轮次(epochs)为3,采用AdamW优化器,权重衰减(weight decay)为0.01,避免过拟合;

  • 推理优化:采用量化技术(INT8)降低部署成本,同时保持性能损失小于1%,支持CPU/GPU混合部署,适配不同硬件环境;

  • RL微调增强(可选):提供RL(强化学习)微调方案,基于人类反馈强化学习(RLHF)进一步优化模型的回答质量与用户体验,Bee-8B-RL版本在部分任务中性能优于SFT版本。

Bee:清华大学联合腾讯混元推出的全开源多模态大语言模型

四、应用场景

Bee项目的全栈资源(数据集、工具链、模型)具备极强的实用性,可广泛应用于科研、工业、教育等多个领域,具体应用场景如下:

1. 通用视觉理解场景

  • 应用场景:图像内容识别、物体检测与计数、场景描述生成、视觉问答(如“图像中红色物体的数量是多少?”“描述这幅图的内容”);

  • 核心资源支撑:Honey-Data-15M的General(36.8%)与Grounding & Counting(5.1%)类别数据,包含大量基础视觉任务样本;Bee-8B模型在CountBench达93.0分,在MMBench-EN/CN分别达85.5分/84.2分,具备高精度视觉理解能力;

  • 适用领域:智能监控、自动驾驶辅助、智能家居(如图像唤醒指令)、社交媒体内容分析。

2. 图表与文档处理场景

  • 应用场景:图表数据提取与分析(如折线图趋势判断、柱状图数值计算)、PDF/文档内容问答(如“文档中提到的核心结论是什么?”)、表格数据解读、Infographic信息提取;

  • 核心资源支撑:Honey-Data-15M的Chart(24.6%)与Document(5.9%)类别数据,包含TinyChart、Ureader Chart等大规模图表/文档数据集;Bee-8B在CharXiv_DQ达84.8分、DocVQA达87.0分,具备强大的图表/文档理解能力;

  • 适用领域:智能办公(如自动生成报表分析)、金融数据分析(如股票图表解读)、学术论文辅助阅读(如提取论文图表核心数据)、政务文档处理。

3. STEM教育与科研场景

  • 应用场景:数学题解题(含几何、代数)、物理/化学实验分析、科学问题推理(如“为什么冰会浮在水面上?”)、工程图纸解读;

  • 核心资源支撑:Honey-Data-15M的STEM(7.6%)类别数据,包含MetaMathQA、Geo170K、SciencQA等高质量科研/教育数据集,且含大量长CoT样本;Bee-8B在MathVerse(vision only)达67.0分、LogicVista达61.3分,具备优秀的科学推理能力;

  • 适用领域:K12教育(如智能解题助手)、高等教育(如科研辅助工具)、工程设计(如图纸审核辅助)。

4. OCR与文本提取场景

  • 应用场景:印刷体/手写体文本识别、图像中文字提取与翻译、场景文字理解(如路牌、广告牌文字解读)、PDF扫描件文字提取;

  • 核心资源支撑:Honey-Data-15M的OCR(4.9%)类别数据,包含K12 Printing、ArXiv OCR、TextOCR等多场景OCR数据集;Bee-8B在OCRBench达82.5分,具备高精度文本提取与理解能力;

  • 适用领域:智能翻译(如实时场景文字翻译)、文档数字化(如古籍扫描件文字提取)、金融票据识别(如发票文字提取)、交通标识识别。

5. 多模态AI产品研发场景

  • 应用场景:企业级多模态AI助手、智能客服(支持图文混合咨询)、多模态内容生成(如根据文本描述生成图像并解释)、低代码多模态AI开发平台;

  • 核心资源支撑:HoneyPipe工具链支持定制化数据集生成,Honey-Data-15M可作为基础训练数据,Bee-8B可直接部署或二次微调;

  • 适用领域:互联网产品研发、企业数字化转型、SaaS工具开发(如智能办公软件集成)。

6. 学术研究场景

  • 应用场景:全开源MLLMs性能对比、数据质量对模型性能的影响研究、CoT增强技术创新、多模态模型训练方法优化;

  • 核心资源支撑:标准化的数据集(Honey-Data-15M)、模型基线(Bee-8B)、评估工具,所有资源可复现、可对比;

  • 适用领域:高校AI实验室、科研机构、AI算法研究团队。

五、使用方法

Bee项目的核心资源(数据集、模型、工具链)均提供便捷的获取与使用方式,以下分步骤详细说明:

1. 环境准备

  • 硬件要求:

    • 数据集使用:最低8GB内存(用于加载子集),推荐32GB内存(用于加载全量Honey-Data-15M);

    • 模型部署:最低16GB GPU显存(INT8量化版本),推荐24GB GPU显存(FP16版本);

    • 工具链使用:推荐GPU(NVIDIA A10、A100等)加速数据处理,CPU也可运行(处理速度较慢)。

  • 软件要求:

    • 操作系统:Linux(推荐Ubuntu 20.04+)、Windows 10+、macOS 12+;

    • 依赖框架:Python 3.8+、PyTorch 2.0+、Transformers 4.30+、Datasets 2.10+、OpenCV 4.5+;

    • 其他依赖:安装项目requirements.txt中的依赖包(后续将随代码开源发布)。

2. 获取核心资源

(1)获取Honey-Data-15M数据集

Honey-Data-15M已在HuggingFace与ModelScope开放下载,支持两种获取方式:

  • 方式1:通过HuggingFace获取

    from datasets import load_dataset
    # 加载全量数据集(约1500万条样本,需充足存储)
    dataset = load_dataset("TencentHunyuan/Bee-Honey-Data-15M")
    # 或加载特定类别子集(如Chart类别)
    dataset = load_dataset("TencentHunyuan/Bee-Honey-Data-15M", split="chart")
  • 方式2:通过ModelScope获取

    from modelscope import MsDataset
    dataset = MsDataset.load("TencentHunyuan/Bee-Honey-Data-15M", split="train")
  • 数据集格式:每条样本包含“image”(图像数据)、“question”(问题)、“answer”(答案)、“cot”(思维链解释)、“category”(类别标签)五个字段,支持JSON、Parquet等格式导出。

(2)获取Bee-8B模型

Bee-8B模型权重已在HuggingFace与ModelScope开放,支持直接加载部署:

  • 方式1:通过HuggingFace Transformers加载

    from transformers import AutoModelForCausalLM, AutoTokenizer
    # 加载模型与Tokenizer
    model = AutoModelForCausalLM.from_pretrained(
      "TencentHunyuan/Bee-8B",
      device_map="auto",
      torch_dtype="auto"
    )
    tokenizer = AutoTokenizer.from_pretrained("TencentHunyuan/Bee-8B")
    # 多模态推理示例(图像+文本问题)
    from PIL import Image
    image = Image.open("example.jpg")
    prompt = "请描述这幅图像的内容,并说明其中的关键物体。"
    inputs = tokenizer(prompt, image, return_tensors="pt").to(model.device)
    outputs = model.generate(**inputs, max_new_tokens=512)
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))
  • 方式2:通过ModelScope加载

    from modelscope import AutoModelForCausalLM, AutoTokenizer
    model = AutoModelForCausalLM.from_pretrained(
      "TencentHunyuan/Bee-8B",
      device_map="auto",
      trust_remote_code=True
    )
    tokenizer = AutoTokenizer.from_pretrained("TencentHunyuan/Bee-8B")

(3)获取HoneyPipe与DataStudio工具链

工具链代码即将开源,获取方式如下:

  • 代码仓库:关注GitHub仓库(https://github.com/open-bee/bee,即将上线);

  • 安装方式:代码开源后,可通过pip安装或源码编译:

    # pip安装(预计支持)
    pip install bee-pipeline
    # 或源码编译
    git clone https://github.com/open-bee/bee.git
    cd bee
    pip install -e .
  • 快速使用:工具链提供命令行接口(CLI)与Python API,支持快速配置数据处理流程:

    # CLI示例:使用HoneyPipe处理自定义数据
    bee-pipeline run --config config.yaml --input raw_data/ --output high_quality_data/

3. 核心功能使用示例

(1)使用Bee-8B进行多模态推理

以“图表分析”任务为例,步骤如下:

  1. 准备图表图像(如example_chart.jpg);

  2. 构造问题:“请分析这幅折线图的趋势,并计算2023年与2024年的数值差值。”;

  3. 调用模型推理(代码如2.2节所示);

  4. 输出结果:模型将返回包含“结论+长CoT解释”的回答,例如:“2023年数值为85,2024年数值为98,差值为13。推理过程:1. 识别图表类型为折线图,横轴为年份(2020-2024),纵轴为数值;2. 定位2023年对应纵轴数值为85,2024年对应数值为98;3. 计算差值:98-85=13;4. 趋势分析:2020-2024年数值呈逐年上升趋势,年均增长率约5%。”

(2)使用HoneyPipe生成自定义SFT数据集

以“生成STEM领域SFT数据集”为例,步骤如下:

  1. 准备原始数据:收集10万条STEM领域图文对(如数学题图像+问题);

  2. 配置config.yaml:指定数据路径、过滤规则、CoT生成模型(如Qwen2.5-VL-32B)、输出格式;

  3. 运行HoneyPipe:执行命令bee-pipeline run --config config.yaml

  4. 获取结果:工具链将输出经过去重、过滤、CoT增强的高质量STEM数据集,可直接用于模型微调。

(3)基于Honey-Data-15M微调自定义模型

以微调7B参数多模态模型为例,步骤如下:

  1. 加载Honey-Data-15M的STEM子集;

  2. 准备基础模型(如LLaVA-7B);

  3. 采用标准SFT训练流程(参考Bee-8B训练食谱);

  4. 训练完成后,使用项目提供的评估工具验证性能。

4. 评估工具使用

项目提供专用评估工具,支持在主流基准测试(如MMBench、MathVista、ChartQA)中验证模型性能:

from bee.evaluation import BeeEvaluator
# 初始化评估器
evaluator = BeeEvaluator(benchmarks=["mmbench", "mathvista", "chartqa"])
# 评估自定义模型
results = evaluator.evaluate(model, tokenizer)
# 输出评估报告
print(results.report())

Bee:清华大学联合腾讯混元推出的全开源多模态大语言模型

六、常见问题解答(FAQ)

1. Bee与其他开源多模态模型(如LLaVA、Molmo)的核心区别是什么?

核心区别在于“数据驱动的全栈解决方案”:其他开源模型多聚焦于模型本身,而Bee同时提供“高质量数据集(Honey-Data-15M)+自动化数据处理工具链(HoneyPipe)+SOTA模型(Bee-8B)”,解决了开源社区“高质量数据短缺”的核心痛点。此外,Bee的双级CoT设计与严格的数据质控流程,使其模型在复杂推理任务中表现更优。

2. Honey-Data-15M的使用有版权限制吗?

Honey-Data-15M基于开源数据集与合规数据构建,采用Apache 2.0开源协议,允许商业使用与二次开发,但需遵守协议要求:保留原作者署名、不用于非法用途、不修改协议条款。具体版权信息可参考项目GitHub仓库的LICENSE文件。

3. Bee-8B支持中文任务吗?性能如何?

支持中文任务。Honey-Data-15M包含中文相关数据(如MMBench-CN测试集),Bee-8B在MMBench-CN_dev达84.2分,在中文图文问答、中文文档理解等任务中表现优秀,可直接用于中文场景的多模态应用开发。

4. 部署Bee-8B需要什么级别的硬件?

  • 量化版本(INT8):最低16GB GPU显存(如NVIDIA RTX 3090、A10),可支持实时推理;

  • 半精度版本(FP16):推荐24GB GPU显存(如NVIDIA A100、RTX 4090),推理速度更快;

  • CPU部署:支持CPU+内存部署(最低32GB内存),但推理速度较慢,适合小规模测试。

5. HoneyPipe工具链支持自定义数据来源吗?

支持。HoneyPipe的底层DataStudio框架采用算子化设计,可通过配置文件指定自定义数据来源(如本地文件夹、云存储、数据库),同时支持替换CoT生成模型(如使用GPT-4V、Claude 3等),适配不同场景的数据集生成需求。

6. Bee-8B的训练食谱可以复用吗?

可以。项目开源了Bee-8B的完整训练食谱,包括超参数设置、训练流程、优化策略等,可直接复用于其他基础模型(如Llama 3、Mistral)的微调,帮助开发者快速构建高质量多模态模型。

7. 如何反馈问题或参与项目贡献?

  • 问题反馈:可通过项目GitHub仓库的Issues板块提交bug报告或功能建议;

  • 项目贡献:欢迎通过Pull Request参与代码贡献(如优化工具链、补充数据集、完善文档),贡献流程可参考项目的CONTRIBUTING.md文件;

  • 社区交流:可加入项目Discord或微信交流群(具体链接见官方链接部分),与研发团队及其他用户交流。

8. HoneyPipe处理千万级数据需要多长时间?

处理速度取决于硬件配置:

  • GPU(NVIDIA A100×4):处理1000万条数据约需24小时;

  • GPU(NVIDIA RTX 4090×2):处理1000万条数据约需48小时;

  • CPU(Intel i9-13900K):处理1000万条数据约需72小时。 建议通过分布式部署或分批处理提升效率。

七、相关官方链接

八、总结

Bee是清华大学与腾讯混元团队联合打造的全开源多模态大语言模型全栈套件,核心聚焦全开源MLLMs“数据质量不足、复杂推理薄弱”的行业痛点,通过三大核心产出构建了从数据生成到模型部署的完整生态——1500万条双级CoT增强的高质量SFT数据集Honey-Data-15M、自动化数据处理管道HoneyPipe及底层DataStudio框架、8B参数SOTA模型Bee-8B。其中,Honey-Data-15M以覆盖7大领域的丰富样本与双级CoT设计填补了开源推理数据空白,HoneyPipe实现了“原始数据→高质量SFT数据”的一键生成,Bee-8B则在多个权威基准测试中刷新全开源模型性能上限,部分任务表现媲美半开源模型。项目所有核心资源均以Apache 2.0协议开源,支持商业使用与二次开发,既为学术研究提供了标准化的数据集与模型基线,也为工业应用提供了低成本、高可用的多模态AI解决方案,有效降低了高质量多模态AI研发的技术门槛,推动全开源MLLMs生态的标准化与工业化发展。

打赏
THE END
作者头像
AI铺子
关注ai行业发展,专注ai工具推荐