LongCat-Audio-Codec:美团开源音频编解码方案,为 Speech LLM 提供超低比特率高保真令牌生成与解码
LongCat-Audio-Codec 是美团 LongCat 团队开源的音频编码(Tokenizer)与解码(Detokenizer)解决方案,专为语音大语言模型(Speech LLM)设计。该方案通过并行生成语义令牌...
LongCat-Audio-Codec 是美团 LongCat 团队开源的音频编码(Tokenizer)与解码(Detokenizer)解决方案,专为语音大语言模型(Speech LLM)设计。该方案通过并行生成语义令牌...
Coral NPU是由Google Research设计的开源神经网络处理单元(NPU),基于RISC-V 32位指令集架构,定位为超低功耗片上系统(SoC)的ML推理硬件加速器,核心适配助听器、AR眼镜...
nanoGPT是由AI研究者Andrej Karpathy开发的开源项目,基于PyTorch框架构建,定位为“最简单、最高效的中等规模GPT训练与微调仓库”。它是minGPT的重写版本,核心目标是“优...
nanochat 是由 AI 领域知名开发者 Andrej Karpathy 团队开发的开源项目,旨在提供一个轻量、简洁、可定制的类 ChatGPT 全栈解决方案。该项目覆盖从分词、预训练、微调(SFT...
Local-NotebookLM 是一款开源的本地 AI 工具,核心功能是将 PDF 文档转换为播客、摘要、访谈等多种风格的音频内容。该工具无需依赖云端服务,可通过本地部署的 LLM(如 Oll...
Daytona 是一款专注于 AI 生成代码安全运行的开源基础设施,通过极速隔离沙箱(90 毫秒内启动)为 AI 生成代码提供零风险运行环境,支持多语言 SDK、Git 集成及 Docker 镜像...
DiaMoE-TTS 是由巨人网络联合清华大学开发的开源多方言文本到语音(TTS)框架,该框架基于 F5-TTS 架构扩展,通过统一国际音标(IPA)前端实现跨方言语音表示标准化,结合混...
MineContext 是火山引擎开源的主动式上下文感知 AI 助手,以 “挖掘并整合上下文” 为核心,将分散的多模态数据(文档、截图、音视频等)视为可组合的 “信息方块”,通过轻...
Kandinsky 5.0是由ai-forever团队开源的扩散模型家族,核心聚焦视频生成(图像生成待上线),已开源的Kandinsky 5.0 T2V Lite(2B参数)在同类开源模型中排名第一,不仅优于...
SAIL-VL2 是字节跳动开源的视觉语言模型,以 2B/8B 参数规模实现了行业顶尖性能,在 106 个数据集上验证了其在视觉问答、文档理解、图表解读等多任务中的有效性。该模型通过...
Youtu-Embedding是腾讯优图实验室开发的业界领先通用文本表示模型,开源于GitHub平台。该模型通过“LLM预训练→弱监督对齐→协同-判别式微调”三阶段创新流程,在权威中文文...
AIxiezuo一款开源的AI小说生成系统,基于LangChain框架构建,核心定位为“专业化AI辅助小说创作工具”。该系统支持DeepSeek、OpenAI(GPT-3.5/4)、Claude、Gemini等主流大...
XunLong (寻龙) 是一个基于大语言模型 (LLM) 的多智能体内容生成系统,能够根据自然语言指令自动生成高质量的研究报告、小说和演示文稿 (PPT)。通过 LangGraph 实现智能体协...
Real-Time-Voice-Cloning 是一个基于深度学习的开源语音克隆框架,能够通过几秒钟的音频样本克隆说话人的声音,并基于任意文本生成该说话人的语音。该项目实现了 SV2TTS架构...
SurfSense 是一个开源的 AI 研究代理工具,旨在为用户提供高效的知识管理和信息检索解决方案。它允许您整合个人知识库与多种外部数据源,构建一个高度个性化的研究环境。通...