TuriX-CUA:开源AI桌面自动化工具,模拟人类操作完成复杂桌面任务
TuriX-CUA(TuriX Computer Use Agent)是一款开源的AI驱动桌面自动化代理工具,核心依托视觉语言模型(VLM)实现端到端的桌面操作自动化,无需依赖应用专属API,可完全模拟...
TuriX-CUA(TuriX Computer Use Agent)是一款开源的AI驱动桌面自动化代理工具,核心依托视觉语言模型(VLM)实现端到端的桌面操作自动化,无需依赖应用专属API,可完全模拟...
Yume是一款开源的现实世界模型项目,聚焦于通过文本、图像或视频等多模态输入创建交互式、逼真且动态的视频世界,核心目标是构建一套完整的现实世界模型体系,涵盖数据层、...
OmniVCus是一个开源的视频生成与编辑框架,核心目标是通过多维度的控制条件,实现对视频内容的精准定制——无论是指定主体的动作与场景搭配,还是通过文本指令修改细节、用...
StepDeepResearch是由阶跃星辰StepFun团队自主研发并开源的端到端深度研究代理模型,不同于传统AI仅能完成单一信息搜索或简单总结,StepDeepResearch实现了“需求理解→研究...
TurboDiffusion是由清华大学、生数科技和加州大学伯克利分校联合推出的开源视频扩散模型加速框架,其核心目标是解决传统视频扩散模型生成 latency 高的痛点,在单RTX 5090 ...
NitroGen是由英伟达联合多所高校开源的通用游戏AI基础模型,核心定位是打造“通杀多类型游戏”的AI智能体,无需针对单款游戏定制训练,仅通过像素级游戏画面输入,就能精准...
SAM-Audio是Meta研究院推出一款能够通过多模态提示实现通用音频分离的开源基础模型。SAM-Audio的核心理念是“提示即指令”,用户无需编写复杂的代码或调整繁琐的参数,只需...
微调(Fine-tuning)是指在大规模预训练模型的基础上,针对特定任务或领域的数据进行进一步训练,使模型能够更好地适应新任务,提升性能和效果。本文AI铺子将深入剖析大模型...
Kani TTS是由nineninesix-ai团队开发并开源的轻量级高性能文本转语音(Text-to-Speech,TTS)框架,旨在为开发者和企业提供快速、高效、类人化的语音生成解决方案。该项目基...
SenseNova-SI 是由 商汤科技开源的多模态空间智能项目,聚焦于提升基础大模型的空间认知能力。该项目依托 800 万规模的专用数据集,基于 Qwen3-VL、InternVL3 等主流基础模...
