AI新闻资讯 - 最新人工智能技术动态与热点资讯

TRELLIS.2：微软开源的高保真图像到 3D 生成模型

TRELLIS.2是微软开源的高保真图像到3D生成大模型，具备4B参数规模，核心采用创新O-Voxel无场稀疏体素结构，突破传统3D生成模型的拓扑限制与效率瓶颈。该模型支持512³-1536...

2个月前 dotaai

83

SHARP：苹果开源的单目视图合成框架，秒级生成高保真3D场景渲染

SHARP 是苹果公司开源的单目视图合成方法，依托 ml-sharp 项目实现，核心通过单张照片回归场景的 3D 高斯表示，在标准 GPU 上仅需一次前馈传递即可在 1 秒内完成高分辨率、...

2个月前 AI工具集

124

VTP：MiniMax开源的视觉分词器预训练框架，赋能生成模型高效表征学习

VTP是一款聚焦于视觉分词器预训练的深度学习框架，旨在解决传统视觉分词器在生成模型中存在的预训练缩放问题。该框架整合对比学习、自监督学习与重构学习三大核心范式，构建...

2个月前 AI工具箱

75

Sana：NVIDIA开源的高效高分辨率AI图像与视频生成框架

Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目，该项目支持512px-4Kpx高清图像生成、分钟级视频生成，通过线性化注意力机制、少步扩散...

2个月前人工智能研究所

77

Liquid Audio：Liquid AI开源的低延迟语音到语音基础模型，支持实时多模态交互

Liquid Audio是Liquid AI推出的开源端到端语音到语音基础模型项目，核心模型为LFM2-Audio-1.5B。该项目以低延迟为设计理念，基于轻量级LFM2骨干网络，支持实时语音到语音对...

2个月前 AI铺子

72

Kani TTS：轻量级高性能开源文本转语音(TTS)框架，支持多语言与跨硬件优化推理

Kani TTS是由nineninesix-ai团队开发并开源的轻量级高性能文本转语音（Text-to-Speech，TTS）框架，旨在为开发者和企业提供快速、高效、类人化的语音生成解决方案。该项目基...

2个月前 97ai

86

StreamDiffusionV2：开源实时交互式高帧率视频生成系统

StreamDiffusionV2是一款面向实时流媒体应用场景的开源扩散模型视频生成系统，不同于传统静态图像生成或低帧率视频生成工具，该项目聚焦“实时交互”与“高FPS输出”两大核...

2个月前 dotaai

91

AutoPR：开源学术推广自动化框架，智能生成多平台论文推广内容

AutoPR 是一款面向科研学者的开源学术推广自动化框架，基于大语言模型构建，核心包含 PRAgent 智能体框架与 PRBench 基准数据集两大模块。该工具可自动将学术论文转化为适配...

2个月前 AI工具集

74

DeepAgent：人大&小红书联合开源的端到端通用推理智能代理框架

DeepAgent是由中国人民大学与小红书联合开发的开源通用推理代理框架，核心在于摒弃预定义工作流，实现端到端的自主思考、动态工具发现与动作执行。该框架内置脑启发式记忆架...