Local-NotebookLM:开源本地部署的PDF转音频工具,支持多 LLM 与 TTS 模型集成
Local-NotebookLM 是一款开源的本地 AI 工具,核心功能是将 PDF 文档转换为播客、摘要、访谈等多种风格的音频内容。该工具无需依赖云端服务,可通过本地部署的 LLM(如 Oll...
Local-NotebookLM 是一款开源的本地 AI 工具,核心功能是将 PDF 文档转换为播客、摘要、访谈等多种风格的音频内容。该工具无需依赖云端服务,可通过本地部署的 LLM(如 Oll...
Daytona 是一款专注于 AI 生成代码安全运行的开源基础设施,通过极速隔离沙箱(90 毫秒内启动)为 AI 生成代码提供零风险运行环境,支持多语言 SDK、Git 集成及 Docker 镜像...
DiaMoE-TTS 是由巨人网络联合清华大学开发的开源多方言文本到语音(TTS)框架,该框架基于 F5-TTS 架构扩展,通过统一国际音标(IPA)前端实现跨方言语音表示标准化,结合混...
MineContext 是火山引擎开源的主动式上下文感知 AI 助手,以 “挖掘并整合上下文” 为核心,将分散的多模态数据(文档、截图、音视频等)视为可组合的 “信息方块”,通过轻...
Kandinsky 5.0是由ai-forever团队开源的扩散模型家族,核心聚焦视频生成(图像生成待上线),已开源的Kandinsky 5.0 T2V Lite(2B参数)在同类开源模型中排名第一,不仅优于...
SAIL-VL2 是字节跳动开源的视觉语言模型,以 2B/8B 参数规模实现了行业顶尖性能,在 106 个数据集上验证了其在视觉问答、文档理解、图表解读等多任务中的有效性。该模型通过...
Youtu-Embedding是腾讯优图实验室开发的业界领先通用文本表示模型,开源于GitHub平台。该模型通过“LLM预训练→弱监督对齐→协同-判别式微调”三阶段创新流程,在权威中文文...
AIxiezuo一款开源的AI小说生成系统,基于LangChain框架构建,核心定位为“专业化AI辅助小说创作工具”。该系统支持DeepSeek、OpenAI(GPT-3.5/4)、Claude、Gemini等主流大...
XunLong (寻龙) 是一个基于大语言模型 (LLM) 的多智能体内容生成系统,能够根据自然语言指令自动生成高质量的研究报告、小说和演示文稿 (PPT)。通过 LangGraph 实现智能体协...
Real-Time-Voice-Cloning 是一个基于深度学习的开源语音克隆框架,能够通过几秒钟的音频样本克隆说话人的声音,并基于任意文本生成该说话人的语音。该项目实现了 SV2TTS架构...
SurfSense 是一个开源的 AI 研究代理工具,旨在为用户提供高效的知识管理和信息检索解决方案。它允许您整合个人知识库与多种外部数据源,构建一个高度个性化的研究环境。通...
BitNet是微软推出的一个开源1-bit大语言模型推理框架,专门用于运行1-bit量化的大语言模型(LLM)。该项目最初是为了支持微软自研的BitNet b1.58模型而创建的,但现在已经扩...
NeuTTS Air 是一个开源文本转语音项目,专注于设备端部署和即时语音克隆功能。它采用先进的 LM+codec 架构,在保持轻量级和高效率的同时,提供高质量、超写实的语音合成。仅...
OpenCoder 是一个开源的 AI 编程助手,旨在为开发者提供智能编程辅助。它最初是作为 Claude Code 的开源替代方案而创建,提供了相似的用户界面和用户体验,但具有更高的灵活...
BabelDOC是一款开源的PDF科学论文翻译与双语对比工具,它并非普通的文档翻译工具,而是聚焦学术场景的“专业级解决方案”——针对PDF科学论文中常见的公式、表格、跨页段落...