开源项目

VibeVoice：微软开源的 AI 语音合成工具，实现低延迟长音频与多语种语音生成

VibeVoice是微软开源的一款高性能语音AI研究框架，聚焦于解决传统文本转语音（TTS）系统在长文本处理、多说话人一致性及自然对话生成方面的技术痛点。该框架支持最长90分钟...

6个月前 AI新闻

142

AI Toolkit：Ostris 开源的扩散模型训练工具，兼顾易用性与功能完整性

AI Toolkit是由Ostris团队开源的全能型扩散模型训练套件，其核心定位是为消费级硬件用户提供低成本、高易用性的图像与视频扩散模型训练解决方案。不同于专业级AI训练工具对...

6个月前 AI新闻

376

Repo2Run：字节跳动开源的LLM驱动构建代理，自动化搭建代码仓库可执行环境

Repo2Run是字节跳动开源的一款基于大语言模型（LLM）的构建代理系统，其核心目标是为各类代码仓库自动化搭建可执行的容器化运行环境。该工具以Docker为沙箱实现构建过程隔离...

6个月前 AI新闻

164

MemOS：开源 AI 智能体记忆操作系统，赋能智能体长期记忆与人格一致性

MemOS 是由 MemTensor 团队开发的开源 AI 智能体记忆操作系统，旨在解决传统 AI 智能体存在的 “记忆断层”“人格漂移” 和 “上下文召回能力弱” 等核心痛点。该框架通过模...

6个月前 AI新闻

220

MemMachine：开源 AI 智能体通用内存层，支持多类型记忆与跨会话持久化

MemMachine是一款面向AI智能体的开源通用内存层工具，支持工作（短期）、持久（长期）、个性化（档案）三类记忆，其内存层可跨多个会话、代理及大语言模型持久化，将情景记...

6个月前 AI新闻

387

ValueCell：开源多智能体金融应用工具，本地安全存储+跨交易所智能交易

ValueCell是一个基于开源协作模式构建的多智能体（Multi-Agent）金融应用工具，，核心定位为去中心化金融代理协作生态，旨在为用户提供股票/加密货币的选股、研究、跟踪及智...

6个月前 AI新闻

566

DeepOCR：开源Deepseek-OCR复现项目，以令牌压缩实现高效多场景OCR

DeepOCR是基于VILA代码库复现Deepseek-OCR的开源项目，核心聚焦于通过视觉-文本令牌压缩技术实现高效OCR任务。其创新的DeepEncoder架构融合SAM（窗口注意力）与CLIP（全局注...

6个月前 AI新闻

287

Frappe Builder：Frappe推出的开源可视化低代码网站快速构建工具

Frappe Builder是一款基于Frappe生态打造的开源低代码可视化网站构建工具，它提供类Figma的直观编辑体验，支持响应式设计、Frappe CMS数据集成、自定义脚本与样式，搭配一键...

6个月前 AI新闻

125

ROCK：阿里巴巴开源的强化学习沙箱环境构建与管理工具

ROCK（Reinforcement Open Construction Kit）是由阿里巴巴淘天未来生活实验室与AI引擎团队联合开发的开源强化学习环境管理框架，基于客户端-服务器架构，提供沙箱环境的构...

6个月前 AI新闻

158

Local Dream：在 Android 端运行 Stable Diffusion 的图像生成工具

Local Dream是一个专注于Android平台的开源AI图像生成项目，核心目标是让用户在移动设备上无需依赖云端算力，即可本地运行Stable Diffusion模型完成各类图像创作。区别于需...

6个月前 AI新闻

1446

Fara-7B：微软开源的轻量计算机操作 AI 代理，视觉交互 + 高效 Web 任务自动化

Fara-7B是微软开源的首款专注于计算机使用的代理型轻量语言模型（SLM），仅70亿参数却实现了同类领先的Web任务自动化能力。该模型基于Qwen2.5-VL-7B训练，通过视觉感知网页...

6个月前 AI新闻

301

EasyVoice：免费开源的AI文本转语音工具，一键生成有声书与字幕

EasyVoice是一款免费开源的智能文本转语音解决方案，专注于解决超长文本转换、多角色配音等核心需求，支持10万字以上小说一键转为有声书，具备流式传输、自动字幕生成、多语...

6个月前 AI新闻

747

TLDW：AI驱动的开源YouTube长视频结构化学习工具

TLDW是一款集“AI内容处理、交互学习、个人化管理”于一体的结构化工作区——用户只需粘贴YouTube视频URL，即可自动生成高光片段、结构化摘要、智能问答、关键语录等内容，...

6个月前 AI新闻

112

AudioGPT：开源多模态音频处理工具，一站式实现语音、音乐、声音生成与理解

AudioGPT是由AIGC-Audio团队开源的多模态音频智能处理项目，其核心定位是“音频领域的全栈式解决方案”——通过整合业界成熟的基础模型，实现对语音、音乐、通用声音的“理...

6个月前 AI新闻

151

DAIN：基于深度学习的深度感知视频帧插值工具，一键生成影院级慢动作

DAIN(Depth-Aware Video Frame Interpolation)是一款专注于解决视频帧插值问题的开源深度学习项目。简单来说，视频帧插值技术的核心是在两个连续的视频帧之间，自动生成全新...

6个月前 AI新闻

86

开源项目新闻、工具、教程及资源推荐

VibeVoice：微软开源的 AI 语音合成工具，实现低延迟长音频与多语种语音生成

AI Toolkit：Ostris 开源的扩散模型训练工具，兼顾易用性与功能完整性

Repo2Run：字节跳动开源的LLM驱动构建代理，自动化搭建代码仓库可执行环境

MemOS：开源 AI 智能体记忆操作系统，赋能智能体长期记忆与人格一致性

MemMachine：开源 AI 智能体通用内存层，支持多类型记忆与跨会话持久化

ValueCell：开源多智能体金融应用工具，本地安全存储+跨交易所智能交易

DeepOCR：开源Deepseek-OCR复现项目，以令牌压缩实现高效多场景OCR

Frappe Builder：Frappe推出的开源可视化低代码网站快速构建工具

ROCK：阿里巴巴开源的强化学习沙箱环境构建与管理工具

Local Dream：在 Android 端运行 Stable Diffusion 的图像生成工具

Fara-7B：微软开源的轻量计算机操作 AI 代理，视觉交互 + 高效 Web 任务自动化

EasyVoice：免费开源的AI文本转语音工具，一键生成有声书与字幕

TLDW：AI驱动的开源YouTube长视频结构化学习工具

AudioGPT：开源多模态音频处理工具，一站式实现语音、音乐、声音生成与理解

DAIN：基于深度学习的深度感知视频帧插值工具，一键生成影院级慢动作