SceneGen:开源单图像 3D 场景生成工具,一键从图片创建完整 3D 环境
SceneGen 是一个基于 PyTorch 的开源单图像 3D 场景生成工具,能够通过一次前向传播从单张图像生成完整的 3D 场景。该项目结合了先进的深度学习技术,特别是与 SAM2 模型的...
SceneGen 是一个基于 PyTorch 的开源单图像 3D 场景生成工具,能够通过一次前向传播从单张图像生成完整的 3D 场景。该项目结合了先进的深度学习技术,特别是与 SAM2 模型的...
DeepScientist 是一个由 ResearAI 团队开发的开源 AI 科学发现框架,该项目通过构建自主生成研究假设、设计实验、执行实验和分析结果的闭环系统,大幅提高科学发现的效率。...
Zen MCP Server 是一个开源的多模型协作工作流服务器,能够连接各类 AI 工具与模型,实现跨工具、跨模型的协同工作流。它支持主流 AI 工具和多种 AI 模型,通过 CLI 桥接与...
ReceiptHero是一款开源的收据管理应用,利用AI技术自动提取收据信息,帮助用户轻松管理收据、追踪支出并进行财务分析。通过简单的上传操作,用户可以将收据图片转换为结构化...
Logics-Parsing 是阿里巴巴开源的一款基于视觉语言模型的文档解析框架,能够直接从文档图像输出结构化的 HTML 内容。该项目特别优化了对科学公式、化学结构和复杂表格的识别...
LongLive 是由 NVLabs 联合 MIT、HKUST (GZ)、HKU、THU 等机构开发的开源实时交互式AI长视频生成框架,该框架基于帧级自回归设计,整合 KV-recache、流式长调优、短窗口注意...
FireRedChat是一个完全自托管的全双工语音交互解决方案,旨在帮助开发者构建实时语音AI代理。该系统整合了强大的TTS、ASR、pVAD和EoT功能,使开发者能够创建可定制、注重隐...
Ming-UniAudio是一个创新的开源框架,旨在统一语音理解、生成和编辑任务。通过基于VAE框架和因果Transformer架构的统一连续语音tokenizer(MingTok-Audio),它能够有效整合...
Code2Video是由新加坡国立大学Show Lab开发的开源教育视频生成框架,核心以代码驱动实现教育类视频的自动化生成,适用于数学(欧拉公式、傅里叶级数等)、计算机科学(神经...
openpilot 是由 Comma AI 开发的开源自动驾驶平台,旨在为 300 多种支持车辆提供高级驾驶辅助功能。该项目通过软件升级方式,将普通车辆转变为智能驾驶车辆,支持自适应巡航...