Hunyuan3D-Part:腾讯混元开源的 3D 形状部件分割与生成框架
Hunyuan3D-Part是腾讯混元团队开源的3D形状部件分割与生成框架,包含P3-SAM和X-Part两个核心组件,实现从3D模型到语义部件分割和高保真结构分解的完整流程。该项目适用于3D...
Hunyuan3D-Part是腾讯混元团队开源的3D形状部件分割与生成框架,包含P3-SAM和X-Part两个核心组件,实现从3D模型到语义部件分割和高保真结构分解的完整流程。该项目适用于3D...
Onyx 是一个功能丰富的自托管 Chat UI 平台,可与任何大型语言模型 (LLM) 配合使用。它提供了强大的代理系统、检索增强生成 (RAG)、网络搜索、代码解释器等功能,支持私有化...
LongCat-Flash-Chat 是美团开源的一款高性能大语言模型聊天系统,基于 LongCat-Flash 大模型架构构建。该项目旨在提供一个高性能、低延迟、可扩展的大语言模型聊天解决方案...
HumanLayer 是一款开源的 API 与 SDK 工具集,旨在为 AI 智能体(Agent)提供人类监督能力,支持 AI 在执行高风险操作(如发送邮件、修改私人数据等)时触发人类审批、获取...
AudioFly是由科大讯飞开源的文本驱动音频生成模型,基于Latent Diffusion Model架构构建,具备10亿参数规模。该模型可依据文本描述合成采样率为44.1kHz的高质量音效,在单事...
FLM-Audio 是一款开源的音频 - 语言融合模型,作为 RoboEgo/FLM-Ego 的子版本,具备原生全双工能力,可同时实现监听、说话与内部独白构建,支持中英文双语言环境下的低延迟...
Spark-TTS 是一个基于大语言模型(LLM)架构的高效文本到语音(TTS)系统,由 SparkAudio 团队开发并开源。该项目最大的特点是不依赖额外的声码器,直接通过 LLM 预测语音的...
MeloTTS 是由 MyShell AI 开发的开源文本转语音(TTS)项目,基于先进的深度学习技术,提供高质量、多语言的语音合成能力。该项目支持英语、中文、日语、韩语等多种语言,可...
Audio2Face-3D 是 NVIDIA 开源的音频驱动 3D 面部动画生成项目,能够从语音音频实时生成高精度的 3D 面部动画,包括精确的唇形同步、表情变化和情感驱动。该项目提供了从训...
CWM (Code World Model) 是 Meta 发布的一个 320 亿参数的开源大语言模型,专为代码生成和代码状态推理而设计。它不仅能理解和生成代码,还能通过工具调用与容器化环境交互...