AI新闻资讯 - 最新人工智能技术动态与热点资讯

ebook2audiobook：开源电子书转有声书工具，支持 1110 + 语言与多模型语音克隆

ebook2audiobook是一款开源的电子书转有声书工具，核心功能是将非DRM合法电子书转换为带章节结构与元数据的有声书。工具支持1110+种语言，集成XTTSv2、Bark、Vits等主流TTS...

6个月前 AI工具箱

112

Agent Lightning：微软开源的 AI 代理全流程训练与优化工具

Agent Lightning 是微软开发的开源 AI 代理训练工具，旨在简化 AI 代理的优化流程。它支持零代码改动适配各类代理框架（如 LangChain、AutoGen）及无框架场景，集成强化学习...

6个月前人工智能研究所

67

FIBO：开源 JSON 原生文本到图像模型，实现可控、可预测且合规的专业级图像生成

FIBO 是 Bria-AI 开发的首个开源、SOTA（ state-of-the-art，最先进）JSON 原生文本到图像模型，基于 8B 参数扩散 Transformer（DiT）架构构建，独家使用 100M + 授权长结构...

6个月前 AI铺子

64

SoulX-Podcast：Soul开源的多轮对话 TTS 工具，实现播客级语音生成与跨方言克隆

SoulX-Podcast 是由 Soul 开源的语音生成项目，聚焦播客风格的多轮、多说话人对话语音合成，同时兼容传统独白式 TTS 任务。该项目支持普通话、英语及四川话、河南话、粤语等...

6个月前人工智能研究所

186

Univer：跨端全栈开源办公工具，支持表格 / 文档 / 幻灯片一体化创建与编辑

Univer是一款开源的全栈办公工具框架，支持在Web和服务器端创建、编辑电子表格（Sheet）、文档（Doc）与幻灯片（Slide），具备同构运行、高性能、可扩展、易嵌入的核心优势...

6个月前 AI铺子

160

HippoRAG 2：开源大型语言模型记忆增强框架，提升多模态知识关联与复杂任务处理性能

HippoRAG 2 是由俄亥俄州立大学自然语言处理组开发的开源大型语言模型（LLMs）记忆增强框架，核心目标是解决传统 RAG系统在知识关联、复杂上下文整合方面的不足。该框架通过...

6个月前 dotaai

33

Chunkr：Lumina AI 推出的开源文档解析工具，支持 OCR、布局分析与语义分块

Chunkr 是由 Lumina AI 开发的开源文档智能处理工具，核心功能是将 PDF、PPT、Word、图片等复杂文档转化为适用于 RAG 和 LLM（大语言模型）的结构化数据。该项目提供布局分...

6个月前 97ai

109

Orpheus TTS：基于 LLM 的开源文本到语音合成工具，支持零样本克隆与低延迟流式推理

Orpheus TTS是由Canopy AI开发的开源文本到语音（TTS）系统，以Llama-3b大型语言模型（LLM）为骨干，突破性地将LLM能力应用于语音合成领域。该项目支持零样本语音克隆、可控...

6个月前 AI工具集

51

OmniVinci：NVIDIA开源的全模态理解大语言模型，高效融合视觉、音频与文本信息

OmniVinci是由NVIDIA等机构开发的开源全模态理解大语言模型（Omni-Modal Understanding LLM），旨在通过创新架构与高效数据构建，实现对视觉（图像、视频）、音频、文本信息...

6个月前 AI工具箱

102

Glyph：开源视觉-文本压缩框架，突破大模型长上下文处理瓶颈

Glyph是一个创新的开源框架，通过视觉-文本压缩技术解决大模型长上下文处理难题。其核心逻辑是将超长文本渲染为紧凑图像，借助视觉-语言模型（VLMs）实现高效语义理解，在降...

6个月前人工智能研究所

48

AI新闻

热门人工智能技术动态与AI行业资讯

ebook2audiobook：开源电子书转有声书工具，支持 1110 + 语言与多模型语音克隆

Agent Lightning：微软开源的 AI 代理全流程训练与优化工具

FIBO：开源 JSON 原生文本到图像模型，实现可控、可预测且合规的专业级图像生成

SoulX-Podcast：Soul开源的多轮对话 TTS 工具，实现播客级语音生成与跨方言克隆

Univer：跨端全栈开源办公工具，支持表格 / 文档 / 幻灯片一体化创建与编辑

HippoRAG 2：开源大型语言模型记忆增强框架，提升多模态知识关联与复杂任务处理性能

Chunkr：Lumina AI 推出的开源文档解析工具，支持 OCR、布局分析与语义分块

Orpheus TTS：基于 LLM 的开源文本到语音合成工具，支持零样本克隆与低延迟流式推理

OmniVinci：NVIDIA开源的全模态理解大语言模型，高效融合视觉、音频与文本信息

Glyph：开源视觉-文本压缩框架，突破大模型长上下文处理瓶颈