开源项目

SoulX-Podcast：Soul开源的多轮对话 TTS 工具，实现播客级语音生成与跨方言克隆

SoulX-Podcast 是由 Soul 开源的语音生成项目，聚焦播客风格的多轮、多说话人对话语音合成，同时兼容传统独白式 TTS 任务。该项目支持普通话、英语及四川话、河南话、粤语等...

7个月前 AI新闻

219

Univer：跨端全栈开源办公工具，支持表格 / 文档 / 幻灯片一体化创建与编辑

Univer是一款开源的全栈办公工具框架，支持在Web和服务器端创建、编辑电子表格（Sheet）、文档（Doc）与幻灯片（Slide），具备同构运行、高性能、可扩展、易嵌入的核心优势...

7个月前 AI新闻

267

HippoRAG 2：开源大型语言模型记忆增强框架，提升多模态知识关联与复杂任务处理性能

HippoRAG 2 是由俄亥俄州立大学自然语言处理组开发的开源大型语言模型（LLMs）记忆增强框架，核心目标是解决传统 RAG系统在知识关联、复杂上下文整合方面的不足。该框架通过...

7个月前 AI新闻

38

Chunkr：Lumina AI 推出的开源文档解析工具，支持 OCR、布局分析与语义分块

Chunkr 是由 Lumina AI 开发的开源文档智能处理工具，核心功能是将 PDF、PPT、Word、图片等复杂文档转化为适用于 RAG 和 LLM（大语言模型）的结构化数据。该项目提供布局分...

7个月前 AI新闻

142

Orpheus TTS：基于 LLM 的开源文本到语音合成工具，支持零样本克隆与低延迟流式推理

Orpheus TTS是由Canopy AI开发的开源文本到语音（TTS）系统，以Llama-3b大型语言模型（LLM）为骨干，突破性地将LLM能力应用于语音合成领域。该项目支持零样本语音克隆、可控...

7个月前 AI新闻

62

OmniVinci：NVIDIA开源的全模态理解大语言模型，高效融合视觉、音频与文本信息

OmniVinci是由NVIDIA等机构开发的开源全模态理解大语言模型（Omni-Modal Understanding LLM），旨在通过创新架构与高效数据构建，实现对视觉（图像、视频）、音频、文本信息...

7个月前 AI新闻

114

GigaBrain-0：开源多模态世界模型，赋能视觉 - 语言 - 动作协同智能交互

GigaBrain-0 是一款开源的视觉 - 语言 - 动作融合模型，以世界模型为核心技术支撑，能够同时处理视觉输入、语言指令和动作输出，实现智能体对动态环境的实时理解与交互。该...

7个月前 AI新闻

51

Kotaemon：开源 RAG 交互工具，兼顾用户友好与开发灵活的文档对话解决方案

Kotaemon 是一款开源的检索增强生成（RAG）UI 工具，旨在为终端用户提供简洁的文档对话交互界面，同时为开发者提供可定制的 RAG 管道框架。它支持多模型集成（包括 OpenAI、...

7个月前 AI新闻

52

OpenPI：开源视觉-语言-动作模型库，赋能机器人感知与交互能力

OpenPI是由Physical Intelligence团队开源的机器人智能模型工具包，核心目标是降低机器人“感知-理解-动作”全链路技术的开发门槛。它基于10k+小时的真实机器人交互数据，提...

7个月前 AI新闻

118

Supermemory：开源 AI 驱动记忆管理工具，多源内容整合与智能交互

Supermemory是一个开源的“记忆管理系统”，其核心理念是帮助用户构建一个可交互的“数字记忆库”——无论是网页链接、PDF文档、纯文本笔记，还是来自Notion、Google Drive...

7个月前 AI新闻

414

Fish Speech：开源文本转语音解决方案，支持高质量语音合成与跨语言语音克隆

Fish Speech（后更名OpenAudio）是由fishaudio团队开发的开源文本转语音（TTS）解决方案，核心基于OpenAudio-S1系列模型，提供高质量语音合成、跨语言语音克隆、情感语气控...

7个月前 AI新闻

91

OpenMemory：开源自托管AI记忆引擎，基于分层架构实现LLM持久化语义记忆

OpenMemory是一款开源、自托管、框架无关的AI记忆引擎，旨在为大型语言模型（LLM）应用提供持久化、结构化和语义化的记忆能力。它通过独特的分层记忆分解（HMD v2）架构，解...

7个月前 AI新闻

178

Whisper：OpenAI 开源多语言语音处理模型，支持语音识别与跨语言翻译

Whisper 是 OpenAI 开发的开源通用语音处理模型，基于 Transformer 架构，通过多任务训练支持多语言语音识别、语音翻译、语言识别等功能。该模型提供 6 种不同规格（从 tin...

7个月前 AI新闻

279

Shimmy：轻量 OpenAI 兼容服务器，本地 LLM 推理无依赖高性能

Shimmy 是一款基于 Rust 开发的轻量级 OpenAI API 兼容服务器，专注于本地大语言模型（LLM）推理。它以 “无依赖、高性能、隐私优先” 为核心优势，提供 100% 兼容 OpenAI ...

7个月前 AI新闻

422

DreamOmni2：开源多模态指令驱动的图像编辑与生成模型，支持跨模态参考与精准控制

DreamOmni2是一款开源多模态指令驱动图像编辑与生成模型，支持基于文本和图像参考的跨模态内容创作。其核心优势在于统一架构下兼顾生成与编辑任务，能精准保持对象身份、姿...

7个月前 AI新闻

90

开源项目新闻、工具、教程及资源推荐

SoulX-Podcast：Soul开源的多轮对话 TTS 工具，实现播客级语音生成与跨方言克隆

Univer：跨端全栈开源办公工具，支持表格 / 文档 / 幻灯片一体化创建与编辑

HippoRAG 2：开源大型语言模型记忆增强框架，提升多模态知识关联与复杂任务处理性能

Chunkr：Lumina AI 推出的开源文档解析工具，支持 OCR、布局分析与语义分块

Orpheus TTS：基于 LLM 的开源文本到语音合成工具，支持零样本克隆与低延迟流式推理

OmniVinci：NVIDIA开源的全模态理解大语言模型，高效融合视觉、音频与文本信息

GigaBrain-0：开源多模态世界模型，赋能视觉 - 语言 - 动作协同智能交互

Kotaemon：开源 RAG 交互工具，兼顾用户友好与开发灵活的文档对话解决方案

OpenPI：开源视觉-语言-动作模型库，赋能机器人感知与交互能力

Supermemory：开源 AI 驱动记忆管理工具，多源内容整合与智能交互

Fish Speech：开源文本转语音解决方案，支持高质量语音合成与跨语言语音克隆

OpenMemory：开源自托管AI记忆引擎，基于分层架构实现LLM持久化语义记忆

Whisper：OpenAI 开源多语言语音处理模型，支持语音识别与跨语言翻译

Shimmy：轻量 OpenAI 兼容服务器，本地 LLM 推理无依赖高性能

DreamOmni2：开源多模态指令驱动的图像编辑与生成模型，支持跨模态参考与精准控制