LongCat-Audio-Codec:美团开源音频编解码方案,为 Speech LLM 提供超低比特率高保真令牌生成与解码
LongCat-Audio-Codec 是美团 LongCat 团队开源的音频编码(Tokenizer)与解码(Detokenizer)解决方案,专为语音大语言模型(Speech LLM)设计。该方案通过并行生成语义令牌...
LongCat-Audio-Codec 是美团 LongCat 团队开源的音频编码(Tokenizer)与解码(Detokenizer)解决方案,专为语音大语言模型(Speech LLM)设计。该方案通过并行生成语义令牌...
Coral NPU是由Google Research设计的开源神经网络处理单元(NPU),基于RISC-V 32位指令集架构,定位为超低功耗片上系统(SoC)的ML推理硬件加速器,核心适配助听器、AR眼镜...
nanoGPT是由AI研究者Andrej Karpathy开发的开源项目,基于PyTorch框架构建,定位为“最简单、最高效的中等规模GPT训练与微调仓库”。它是minGPT的重写版本,核心目标是“优...
MiniMind 是一个旨在拉低大语言模型(LLM)学习与实践门槛的开源项目,核心目标是让普通用户通过 “3 元 GPU 服务器成本 + 2 小时单卡训练”,从 0 构建并部署仅 25.8M 参数...
nanochat 是由 AI 领域知名开发者 Andrej Karpathy 团队开发的开源项目,旨在提供一个轻量、简洁、可定制的类 ChatGPT 全栈解决方案。该项目覆盖从分词、预训练、微调(SFT...
Local-NotebookLM 是一款开源的本地 AI 工具,核心功能是将 PDF 文档转换为播客、摘要、访谈等多种风格的音频内容。该工具无需依赖云端服务,可通过本地部署的 LLM(如 Oll...
Daytona 是一款专注于 AI 生成代码安全运行的开源基础设施,通过极速隔离沙箱(90 毫秒内启动)为 AI 生成代码提供零风险运行环境,支持多语言 SDK、Git 集成及 Docker 镜像...
OpenAssistant 是一款开源的AI对话聊天系统,旨在通过协作模式推动高质量聊天大型语言模型(LLM)的普及。项目提供开放的聊天交互界面、协作式数据收集平台、完整的模型训练...
UniPixel是由香港理工大学、腾讯ARC实验室等机构联合开发的开源多模态大模型(MLLM),专注于像素级视觉语言理解与细粒度推理任务。该模型基于Qwen2.5-VL系列扩展,融合视觉...
DiaMoE-TTS 是由巨人网络联合清华大学开发的开源多方言文本到语音(TTS)框架,该框架基于 F5-TTS 架构扩展,通过统一国际音标(IPA)前端实现跨方言语音表示标准化,结合混...