Paper2Video:新加坡国立大学开源的论文转学术演示视频方案
Paper2Video是新加坡国立大学Show Lab开发的开源学术工具,通过PaperTalker智能代理,以LaTeX论文源码、参考肖像图及10秒参考音频为输入,自动生成包含结构化幻灯片、时间对...
Paper2Video是新加坡国立大学Show Lab开发的开源学术工具,通过PaperTalker智能代理,以LaTeX论文源码、参考肖像图及10秒参考音频为输入,自动生成包含结构化幻灯片、时间对...
SongBloom 是腾讯 AILab 开源的全长歌曲生成框架,通过结合自回归草图绘制与扩散模型精炼技术,实现了高质量、风格一致的完整歌曲创作。该框架支持以 10 秒音频为提示,生成...
AIMedia 是一款开源的全自动 AI 媒体软件,核心定位是解决媒体运营中 “热点获取 - 内容创作 - 多平台发布” 的全流程自动化问题,降低人工成本。该软件支持抓取抖音、微博...
Androidify 是一个由 Google推出的开源示例应用,展示了如何将 Gemini API、Firebase AI Logic SDK、Jetpack Compose、CameraX、Media3 以及 Wear OS 联动等现代 Android 技...
ReplaceAnything 是由阿里巴巴集团智能计算研究所(Institute for Intelligent Computing, Alibaba Group)开发的超高质量内容替换开源项目,核心目标是为用户提供 “所想即...
OpenAgents 是一个开源的 AI 代理网络平台,旨在创建一个去中心化的智能体协作生态系统。它提供了灵活的网络基础设施,使各种 AI 代理能够无缝连接、通信和协作,实现从信息...
SceneGen 是一个基于 PyTorch 的开源单图像 3D 场景生成工具,能够通过一次前向传播从单张图像生成完整的 3D 场景。该项目结合了先进的深度学习技术,特别是与 SAM2 模型的...
DeepScientist 是一个由 ResearAI 团队开发的开源 AI 科学发现框架,该项目通过构建自主生成研究假设、设计实验、执行实验和分析结果的闭环系统,大幅提高科学发现的效率。...
Zen MCP Server 是一个开源的多模型协作工作流服务器,能够连接各类 AI 工具与模型,实现跨工具、跨模型的协同工作流。它支持主流 AI 工具和多种 AI 模型,通过 CLI 桥接与...
ReceiptHero是一款开源的收据管理应用,利用AI技术自动提取收据信息,帮助用户轻松管理收据、追踪支出并进行财务分析。通过简单的上传操作,用户可以将收据图片转换为结构化...
Logics-Parsing 是阿里巴巴开源的一款基于视觉语言模型的文档解析框架,能够直接从文档图像输出结构化的 HTML 内容。该项目特别优化了对科学公式、化学结构和复杂表格的识别...
LongLive 是由 NVLabs 联合 MIT、HKUST (GZ)、HKU、THU 等机构开发的开源实时交互式AI长视频生成框架,该框架基于帧级自回归设计,整合 KV-recache、流式长调优、短窗口注意...
FireRedChat是一个完全自托管的全双工语音交互解决方案,旨在帮助开发者构建实时语音AI代理。该系统整合了强大的TTS、ASR、pVAD和EoT功能,使开发者能够创建可定制、注重隐...
Ming-UniAudio是一个创新的开源框架,旨在统一语音理解、生成和编辑任务。通过基于VAE框架和因果Transformer架构的统一连续语音tokenizer(MingTok-Audio),它能够有效整合...
Code2Video是由新加坡国立大学Show Lab开发的开源教育视频生成框架,核心以代码驱动实现教育类视频的自动化生成,适用于数学(欧拉公式、傅里叶级数等)、计算机科学(神经...