MAI-UI:阿里通义推出的开源 GUI 智能体框架,赋能移动场景人机交互革新
MAI-UI是阿里通义实验室推出的开源基础GUI智能体项目,核心定位是以现实世界为中心的全尺寸Foundation GUI Agents,聚焦移动场景的人机交互革新,旨在解决传统GUI智能体在实...
MAI-UI是阿里通义实验室推出的开源基础GUI智能体项目,核心定位是以现实世界为中心的全尺寸Foundation GUI Agents,聚焦移动场景的人机交互革新,旨在解决传统GUI智能体在实...
StepDeepResearch是由阶跃星辰StepFun团队自主研发并开源的端到端深度研究代理模型,不同于传统AI仅能完成单一信息搜索或简单总结,StepDeepResearch实现了“需求理解→研究...
ideoPipe是一款基于C++开发的轻量级开源视频分析与结构化框架,旨在简化计算机视觉算法的集成流程,支持x86_64/aarch64架构的Ubuntu系统及NVIDIA GPU、华为昇腾、瑞芯微RK3...
InstanceAssemble是一款面向布局到图像(Layout-to-Image)生成的开源轻量级框架,该项目聚焦解决传统图像生成技术中“空间布局控制不精准”的核心痛点——无论是稀疏布局(...
ML-Master 是上海交通大学 SAI 实验室牵头研发的开源 AI-for-AI 智能体,核心通过探索与推理深度融合范式 + 自适应记忆机制,实现机器学习任务全流程自主完成。该项目在 Op...
QuantiPhy是首个专注于评估视觉-语言模型(VLMs)定量运动学推理能力的开源评估基准及配套代码库,该项目通过多区域准确率(MRA)核心指标,从难度等级、任务类别等维度衡量...
MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型,核心聚焦临床语音转文本场景,解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...
TurboDiffusion是由清华大学、生数科技和加州大学伯克利分校联合推出的开源视频扩散模型加速框架,其核心目标是解决传统视频扩散模型生成 latency 高的痛点,在单RTX 5090 ...
Prompt Fill是一款面向AI绘画场景的开源结构化提示词生成工具,核心通过可视化“填空”交互模式解决AI绘画提示词难记忆、难管理、修改繁琐的痛点。该工具支持动态词库管理、...
WeKnora 是腾讯开源的大语言模型(LLM)驱动文档理解与语义检索框架,专为复杂异构文档场景打造,核心基于检索增强生成(RAG)范式,采用模块化架构设计,支持多格式文档解...