ebook2audiobook:开源电子书转有声书工具,支持 1110 + 语言与多模型语音克隆
ebook2audiobook是一款开源的电子书转有声书工具,核心功能是将非DRM合法电子书转换为带章节结构与元数据的有声书。工具支持1110+种语言,集成XTTSv2、Bark、Vits等主流TTS...
ebook2audiobook是一款开源的电子书转有声书工具,核心功能是将非DRM合法电子书转换为带章节结构与元数据的有声书。工具支持1110+种语言,集成XTTSv2、Bark、Vits等主流TTS...
Agent Lightning 是微软开发的开源 AI 代理训练工具,旨在简化 AI 代理的优化流程。它支持零代码改动适配各类代理框架(如 LangChain、AutoGen)及无框架场景,集成强化学习...
FIBO 是 Bria-AI 开发的首个开源、SOTA( state-of-the-art,最先进)JSON 原生文本到图像模型,基于 8B 参数扩散 Transformer(DiT)架构构建,独家使用 100M + 授权长结构...
SoulX-Podcast 是由 Soul 开源的语音生成项目,聚焦播客风格的多轮、多说话人对话语音合成,同时兼容传统独白式 TTS 任务。该项目支持普通话、英语及四川话、河南话、粤语等...
Univer是一款开源的全栈办公工具框架,支持在Web和服务器端创建、编辑电子表格(Sheet)、文档(Doc)与幻灯片(Slide),具备同构运行、高性能、可扩展、易嵌入的核心优势...
HippoRAG 2 是由俄亥俄州立大学自然语言处理组开发的开源大型语言模型(LLMs)记忆增强框架,核心目标是解决传统 RAG系统在知识关联、复杂上下文整合方面的不足。该框架通过...
Chunkr 是由 Lumina AI 开发的开源文档智能处理工具,核心功能是将 PDF、PPT、Word、图片等复杂文档转化为适用于 RAG 和 LLM(大语言模型)的结构化数据。该项目提供布局分...
Orpheus TTS是由Canopy AI开发的开源文本到语音(TTS)系统,以Llama-3b大型语言模型(LLM)为骨干,突破性地将LLM能力应用于语音合成领域。该项目支持零样本语音克隆、可控...
OmniVinci是由NVIDIA等机构开发的开源全模态理解大语言模型(Omni-Modal Understanding LLM),旨在通过创新架构与高效数据构建,实现对视觉(图像、视频)、音频、文本信息...
Glyph是一个创新的开源框架,通过视觉-文本压缩技术解决大模型长上下文处理难题。其核心逻辑是将超长文本渲染为紧凑图像,借助视觉-语言模型(VLMs)实现高效语义理解,在降...