AI工具箱的个人主页

Qwen3-TTS：通义千问开源的AI语音合成模型，实现多语种语音生成与定制化音色创作

Qwen3-TTS是通义千问开源的一站式多语言语音生成模型全家桶，基于自研Qwen3大模型体系构建，采用离散多码本LM架构与Dual-Track双轨流式生成技术，实现语音克隆、语音设计、...

4个月前 AI工具箱

448

Being-H：BeingBeyond 推出的开源跨体化 VLA 基础模型

Being-H 是由BeingBeyond 团队开源的以人为中心的跨体化视觉 - 语言 - 动作（VLA）基础模型，核心聚焦于解决机器人学习中 “形态异构、数据稀缺、泛化能力弱” 的行业痛点，...

5个月前 AI工具箱

165

手把手教你部署 MultiTalk：在 ComfyUI 中实现音频驱动的多人对话视频生成

本文提供完整的 MultiTalk 本地部署教程，详细讲解如何在 Ubuntu 系统下通过 Conda、PyTorch 和 ComfyUI 部署音频驱动的多人对话视频生成框架，涵盖环境搭建、模型下载、节...

5个月前 AI工具箱

203

Pixelle-Video：开源全流程自动化AI短视频创作工具，一句话主题生成完整成片

Pixelle-Video是一款基于Python开发的开源AI全自动短视频引擎，通过整合大语言模型（LLM）、AI生图/生视频模型、语音合成（TTS）、智能剪辑等多项技术，实现了从“主题输入...

5个月前 AI工具箱

583

Superpowers：开源AI编码代理工作流框架，强制工程规范的技能化开发体系

Superpowers是一款专为AI编码代理打造的完整软件开发工作流增强框架，其核心是将人类软件工程中的经典最佳实践转化为AI可理解、可执行的强制性标准化协议，通过模块化的“技...

5个月前 AI工具箱

495

MiniCPM：面壁智能联合清华大学等开源的轻量级大语言模型，兼顾端云部署与高效推理

MiniCPM 是由面壁智能、清华大学自然语言处理实验室、中国人民大学高瓴人工智能学院联合开发的一系列轻量级大语言模型开源项目。项目涵盖多版本模型迭代，兼顾性能与效率，...

5个月前 AI工具箱

214

Oh My OpenCode：基于OpenCode的开源AI编程效率增强插件

Oh My OpenCode是一款面向开发者的开源AI编程效率增强工具，本质是基于OpenCode的智能体增强框架与插件包，被开发者形象地称为“编程效率的类固醇”。该项目采用TypeScript...

5个月前 AI工具箱

421

Spirit-v1.5：千寻智能推出的全球领先开源视觉 - 语言 - 动作具身智能基础模型

Spirit-v1.5是由千寻智能（Spirit AI）研发并开源的端到端视觉-语言-动作（VLA）具身智能基础模型，该模型在RoboChallenge Table30基准测试中以66.09分的综合得分和50.33%的...

5个月前 AI工具箱

205

EvoCUA：美团开源的多模态端到端计算机交互智能体

EvoCUA（Evolving Computer Use Agent）是由美团公司重磅开源的一款通用多模态计算机使用智能体，核心能力为基于实时桌面截图与自然语言指令，实现对主流桌面软件的端到端、...

5个月前 AI工具箱

174

UI-TARS-desktop：字节跳动开源的多模态AI智能体，一站式GUI智能任务自动化桌面工具

UI-TARS-desktop是字节跳动开源的多模态AI智能体桌面应用项目，基于UI-TARS模型构建，集成Agent TARS通用多模态AI智能体栈，提供本地/远程计算机、浏览器GUI智能操作能力，...

5个月前 AI工具箱

270

AI工具箱

文章

工具

软件

图书

Qwen3-TTS：通义千问开源的AI语音合成模型，实现多语种语音生成与定制化音色创作

Being-H：BeingBeyond 推出的开源跨体化 VLA 基础模型

手把手教你部署 MultiTalk：在 ComfyUI 中实现音频驱动的多人对话视频生成

Pixelle-Video：开源全流程自动化AI短视频创作工具，一句话主题生成完整成片

Superpowers：开源AI编码代理工作流框架，强制工程规范的技能化开发体系

MiniCPM：面壁智能联合清华大学等开源的轻量级大语言模型，兼顾端云部署与高效推理

Oh My OpenCode：基于OpenCode的开源AI编程效率增强插件

Spirit-v1.5：千寻智能推出的全球领先开源视觉 - 语言 - 动作具身智能基础模型

EvoCUA：美团开源的多模态端到端计算机交互智能体

UI-TARS-desktop：字节跳动开源的多模态AI智能体，一站式GUI智能任务自动化桌面工具