Paper2Any:开源科研创作助手,一键实现论文转绘图、PPT与智能美化
Paper2Any是OpenDCAI团队推出的一款开源多模态科研创作辅助工具,支持从论文PDF、截图、文本等多种输入形式,一键生成可编辑的模型架构图、技术路线图、实验数据图等科研绘...
Paper2Any是OpenDCAI团队推出的一款开源多模态科研创作辅助工具,支持从论文PDF、截图、文本等多种输入形式,一键生成可编辑的模型架构图、技术路线图、实验数据图等科研绘...
MiroThinker是MiroMind研究院推出的开源搜索智能体(Search Agent)项目,聚焦增强工具辅助推理与信息检索能力,通过“交互式缩放”技术突破传统大模型性能瓶颈,提供多参数...
Vibe Kanban是由BloopAI开源的一款专为开发者设计的AI编码代理协作与项目管理工具,基于看板模式提供可视化任务管理界面。它支持Claude Code、Gemini CLI等主流AI编码代理的...
PersonaLive是一款面向实时数字人交互场景的开源AI框架,核心定位是“低门槛、高性能的实时人像动画生成工具”,由澳门大学、dzine.ai与大湾区大学GVC实验室联合研发并开源...
IQuest-Coder-V1是一套专注于代码生成、代码理解与软件工程全流程任务的开源大语言模型系列,由国内量化私募头部机构九坤投资旗下至知创新研究院独立开发并开源。作为聚焦垂...
AutoMV是一款基于多智能体架构的开源音乐视频(MV)自动生成系统,无需额外训练即可直接从全长歌曲输出连贯、高质量的长格式MV。该系统整合音乐信号分析、智能脚本编写、角...
VideoRAG是由香港大学数据科学实验室(HKUDS)开源的一款超长视频跨模态检索增强生成框架,核心定位是实现“Chat with Your Videos”——让用户通过自然语言与任意长度的视...
StoryMem是一款开源的多镜头长视频叙事生成工具,依托记忆条件控制的单镜头视频扩散模型,能够根据含逐镜头文本描述的故事脚本,生成时长约一分钟、角色高度连贯且具备电影...
MAI-UI是阿里通义实验室推出的开源基础GUI智能体项目,核心定位是以现实世界为中心的全尺寸Foundation GUI Agents,聚焦移动场景的人机交互革新,旨在解决传统GUI智能体在实...
StepDeepResearch是由阶跃星辰StepFun团队自主研发并开源的端到端深度研究代理模型,不同于传统AI仅能完成单一信息搜索或简单总结,StepDeepResearch实现了“需求理解→研究...
ML-Master 是上海交通大学 SAI 实验室牵头研发的开源 AI-for-AI 智能体,核心通过探索与推理深度融合范式 + 自适应记忆机制,实现机器学习任务全流程自主完成。该项目在 Op...
TurboDiffusion是由清华大学、生数科技和加州大学伯克利分校联合推出的开源视频扩散模型加速框架,其核心目标是解决传统视频扩散模型生成 latency 高的痛点,在单RTX 5090 ...
A2UI的全称是Agent-to-User Interface,是由谷歌开源的一款面向生成式AI代理的声明式用户界面框架,它并非一个传统意义上的UI组件库,而是一套“UI意图描述标准+多框架渲染...
SHARP 是苹果公司开源的单目视图合成方法,依托 ml-sharp 项目实现,核心通过单张照片回归场景的 3D 高斯表示,在标准 GPU 上仅需一次前馈传递即可在 1 秒内完成高分辨率、...
VTP是一款聚焦于视觉分词器预训练的深度学习框架,旨在解决传统视觉分词器在生成模型中存在的预训练缩放问题。该框架整合对比学习、自监督学习与重构学习三大核心范式,构建...