UI-TARS-desktop:字节跳动开源的多模态AI智能体,一站式GUI智能任务自动化桌面工具
UI-TARS-desktop是字节跳动开源的多模态AI智能体桌面应用项目,基于UI-TARS模型构建,集成Agent TARS通用多模态AI智能体栈,提供本地/远程计算机、浏览器GUI智能操作能力,...
UI-TARS-desktop是字节跳动开源的多模态AI智能体桌面应用项目,基于UI-TARS模型构建,集成Agent TARS通用多模态AI智能体栈,提供本地/远程计算机、浏览器GUI智能操作能力,...
MiroThinker是MiroMind研究院推出的开源搜索智能体(Search Agent)项目,聚焦增强工具辅助推理与信息检索能力,通过“交互式缩放”技术突破传统大模型性能瓶颈,提供多参数...
AI Agent(智能体) 作为基于LLM的下一代智能交互形态,正逐渐成为行业关注的焦点。它不再是简单的“输入输出”工具,而是能够自主感知环境、规划任务、执行操作并持续学习...
AutoMV是一款基于多智能体架构的开源音乐视频(MV)自动生成系统,无需额外训练即可直接从全长歌曲输出连贯、高质量的长格式MV。该系统整合音乐信号分析、智能脚本编写、角...
ClipSketch AI是一款专为短视频创作者、二创爱好者和社交媒体运营者设计的开源工具,基于Google Gemini多模态模型构建,支持解析B站、小红书等平台的视频链接,通过帧级标记...
ProEdit是中山大学ISEE实验室联合多所高校研发的开源基于反转的提示词驱动型AI图像与视频编辑工具,核心聚焦传统反转类编辑工具"源信息干扰导致编辑不精准、背景易误伤"的行...
ML-Master 是上海交通大学 SAI 实验室牵头研发的开源 AI-for-AI 智能体,核心通过探索与推理深度融合范式 + 自适应记忆机制,实现机器学习任务全流程自主完成。该项目在 Op...
Chatterbox是由Resemble AI团队打造的一款开源生产级文本转语音(TTS)模型家族,并非单一模型,而是三款针对性优化的先进TTS模型组合,整体以轻量化架构实现了媲美商业闭源...
Molmo2是由艾伦人工智能研究所(AllenAI) 研发并开源的一款先进多模态开放语言模型,旨在打破文本与视觉模态之间的壁垒,实现对图像、视频与文本信息的联合理解与处理。Mo...
VTP是一款聚焦于视觉分词器预训练的深度学习框架,旨在解决传统视觉分词器在生成模型中存在的预训练缩放问题。该框架整合对比学习、自监督学习与重构学习三大核心范式,构建...
