TRELLIS.2:微软开源的高保真图像到 3D 生成模型
TRELLIS.2是微软开源的高保真图像到3D生成大模型,具备4B参数规模,核心采用创新O-Voxel无场稀疏体素结构,突破传统3D生成模型的拓扑限制与效率瓶颈。该模型支持512³-1536...
TRELLIS.2是微软开源的高保真图像到3D生成大模型,具备4B参数规模,核心采用创新O-Voxel无场稀疏体素结构,突破传统3D生成模型的拓扑限制与效率瓶颈。该模型支持512³-1536...
SHARP 是苹果公司开源的单目视图合成方法,依托 ml-sharp 项目实现,核心通过单张照片回归场景的 3D 高斯表示,在标准 GPU 上仅需一次前馈传递即可在 1 秒内完成高分辨率、...
VTP是一款聚焦于视觉分词器预训练的深度学习框架,旨在解决传统视觉分词器在生成模型中存在的预训练缩放问题。该框架整合对比学习、自监督学习与重构学习三大核心范式,构建...
Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目,该项目支持512px-4Kpx高清图像生成、分钟级视频生成,通过线性化注意力机制、少步扩散...
Liquid Audio是Liquid AI推出的开源端到端语音到语音基础模型项目,核心模型为LFM2-Audio-1.5B。该项目以低延迟为设计理念,基于轻量级LFM2骨干网络,支持实时语音到语音对...
Kani TTS是由nineninesix-ai团队开发并开源的轻量级高性能文本转语音(Text-to-Speech,TTS)框架,旨在为开发者和企业提供快速、高效、类人化的语音生成解决方案。该项目基...
StreamDiffusionV2是一款面向实时流媒体应用场景的开源扩散模型视频生成系统,不同于传统静态图像生成或低帧率视频生成工具,该项目聚焦“实时交互”与“高FPS输出”两大核...
AutoPR 是一款面向科研学者的开源学术推广自动化框架,基于大语言模型构建,核心包含 PRAgent 智能体框架与 PRBench 基准数据集两大模块。该工具可自动将学术论文转化为适配...
DeepAgent是由中国人民大学与小红书联合开发的开源通用推理代理框架,核心在于摒弃预定义工作流,实现端到端的自主思考、动态工具发现与动作执行。该框架内置脑启发式记忆架...
VideoLLaMA3是由阿里巴巴达摩院新加坡NLP团队研发并开源的多模态基础模型,聚焦于图像与视频的内容理解与分析任务。作为VideoLLaMA系列模型的升级版本,该模型基于字节跳动...