开源项目

Paper2Any：开源科研创作助手，一键实现论文转绘图、PPT与智能美化

Paper2Any是OpenDCAI团队推出的一款开源多模态科研创作辅助工具，支持从论文PDF、截图、文本等多种输入形式，一键生成可编辑的模型架构图、技术路线图、实验数据图等科研绘...

5个月前 AI新闻

480

MiroThinker：MiroMind开源的搜索智能体方案，交互式缩放突破大模型推理瓶颈

MiroThinker是MiroMind研究院推出的开源搜索智能体（Search Agent）项目，聚焦增强工具辅助推理与信息检索能力，通过“交互式缩放”技术突破传统大模型性能瓶颈，提供多参数...

5个月前 AI新闻

291

Vibe Kanban：BloopAI 开源的 AI 编码代理看板工具

Vibe Kanban是由BloopAI开源的一款专为开发者设计的AI编码代理协作与项目管理工具，基于看板模式提供可视化任务管理界面。它支持Claude Code、Gemini CLI等主流AI编码代理的...

5个月前 AI新闻

284

PersonaLive：开源实时AI人像动画框架，低延迟高帧率数字人直播解决方案

PersonaLive是一款面向实时数字人交互场景的开源AI框架，核心定位是“低门槛、高性能的实时人像动画生成工具”，由澳门大学、dzine.ai与大湾区大学GVC实验室联合研发并开源...

5个月前 AI新闻

273

IQuest-Coder-V1：九坤投资开源的高性能代码生成与软件工程AI大模型

IQuest-Coder-V1是一套专注于代码生成、代码理解与软件工程全流程任务的开源大语言模型系列，由国内量化私募头部机构九坤投资旗下至知创新研究院独立开发并开源。作为聚焦垂...

5个月前 AI新闻

209

AutoMV：开源多智能体音乐视频生成系统，一键实现全长歌曲到连贯MV的自动化创作

AutoMV是一款基于多智能体架构的开源音乐视频（MV）自动生成系统，无需额外训练即可直接从全长歌曲输出连贯、高质量的长格式MV。该系统整合音乐信号分析、智能脚本编写、角...

5个月前 AI新闻

232

VideoRAG：港大开源的长视频智能交互工具，支持数百小时视频自然语言问答

VideoRAG是由香港大学数据科学实验室（HKUDS）开源的一款超长视频跨模态检索增强生成框架，核心定位是实现“Chat with Your Videos”——让用户通过自然语言与任意长度的视...

5个月前 AI新闻

239

StoryMem：基于记忆条件控制的开源多镜头长视频生成工具

StoryMem是一款开源的多镜头长视频叙事生成工具，依托记忆条件控制的单镜头视频扩散模型，能够根据含逐镜头文本描述的故事脚本，生成时长约一分钟、角色高度连贯且具备电影...

5个月前 AI新闻

149

MAI-UI：阿里通义推出的开源 GUI 智能体框架，赋能移动场景人机交互革新

MAI-UI是阿里通义实验室推出的开源基础GUI智能体项目，核心定位是以现实世界为中心的全尺寸Foundation GUI Agents，聚焦移动场景的人机交互革新，旨在解决传统GUI智能体在实...

5个月前 AI新闻

185

Step-DeepResearch：阶跃星辰开源高性价比深度研究代理模型

StepDeepResearch是由阶跃星辰StepFun团队自主研发并开源的端到端深度研究代理模型，不同于传统AI仅能完成单一信息搜索或简单总结，StepDeepResearch实现了“需求理解→研究...

5个月前 AI新闻

128

ML-Master：上海交大开源的下一代自主机器学习 AI 专家智能体

ML-Master 是上海交通大学 SAI 实验室牵头研发的开源 AI-for-AI 智能体，核心通过探索与推理深度融合范式 + 自适应记忆机制，实现机器学习任务全流程自主完成。该项目在 Op...

5个月前 AI新闻

154

TurboDiffusion：清华大学开源的视频扩散模型加速框架，百倍生成提速且保质量

TurboDiffusion是由清华大学、生数科技和加州大学伯克利分校联合推出的开源视频扩散模型加速框架，其核心目标是解决传统视频扩散模型生成 latency 高的痛点，在单RTX 5090 ...

5个月前 AI新闻

167

A2UI：谷歌开源的一款专注于代理生成用户界面的声明式框架

A2UI的全称是Agent-to-User Interface，是由谷歌开源的一款面向生成式AI代理的声明式用户界面框架，它并非一个传统意义上的UI组件库，而是一套“UI意图描述标准+多框架渲染...

5个月前 AI新闻

139

SHARP：苹果开源的单目视图合成框架，秒级生成高保真3D场景渲染

SHARP 是苹果公司开源的单目视图合成方法，依托 ml-sharp 项目实现，核心通过单张照片回归场景的 3D 高斯表示，在标准 GPU 上仅需一次前馈传递即可在 1 秒内完成高分辨率、...

5个月前 AI新闻

213

VTP：MiniMax开源的视觉分词器预训练框架，赋能生成模型高效表征学习

VTP是一款聚焦于视觉分词器预训练的深度学习框架，旨在解决传统视觉分词器在生成模型中存在的预训练缩放问题。该框架整合对比学习、自监督学习与重构学习三大核心范式，构建...

5个月前 AI新闻

111

开源项目新闻、工具、教程及资源推荐

Paper2Any：开源科研创作助手，一键实现论文转绘图、PPT与智能美化

MiroThinker：MiroMind开源的搜索智能体方案，交互式缩放突破大模型推理瓶颈

Vibe Kanban：BloopAI 开源的 AI 编码代理看板工具

PersonaLive：开源实时AI人像动画框架，低延迟高帧率数字人直播解决方案

IQuest-Coder-V1：九坤投资开源的高性能代码生成与软件工程AI大模型

AutoMV：开源多智能体音乐视频生成系统，一键实现全长歌曲到连贯MV的自动化创作

VideoRAG：港大开源的长视频智能交互工具，支持数百小时视频自然语言问答

StoryMem：基于记忆条件控制的开源多镜头长视频生成工具

MAI-UI：阿里通义推出的开源 GUI 智能体框架，赋能移动场景人机交互革新

Step-DeepResearch：阶跃星辰开源高性价比深度研究代理模型

ML-Master：上海交大开源的下一代自主机器学习 AI 专家智能体

TurboDiffusion：清华大学开源的视频扩散模型加速框架，百倍生成提速且保质量

A2UI：谷歌开源的一款专注于代理生成用户界面的声明式框架

SHARP：苹果开源的单目视图合成框架，秒级生成高保真3D场景渲染

VTP：MiniMax开源的视觉分词器预训练框架，赋能生成模型高效表征学习