TIPSv2:谷歌 DeepMind 开源的多模态编码器,强化 Patch-Text 对齐与空间感知
TIPSv2是谷歌DeepMind推出的第二代空间感知型文本-图像预训练编码器,收录于CVPR 2026,核心解决多模态模型全局理解强、局部定位弱的痛点。通过iBOT++全区域监督、Head-onl...
TIPSv2是谷歌DeepMind推出的第二代空间感知型文本-图像预训练编码器,收录于CVPR 2026,核心解决多模态模型全局理解强、局部定位弱的痛点。通过iBOT++全区域监督、Head-onl...
Grimoire 是一款基于 Python 开发的开源 AI 文档重构工具,依托大模型 AI 能力与多源内容解析引擎,只需导入本地 PDF 文件或输入在线教程链接,即可全自动完成内容拆解、AI...
CubeSandbox是腾讯云开源的高性能AI Agent安全沙箱服务,基于RustVMM与KVM构建,实现亚百毫秒冷启动(<60ms)、硬件级内核隔离及超低内存开销(<5MB/实例),原生兼容E2B S...
HY-Embodied-0.5-X 是腾讯混元Hunyuan团队联合腾讯Robotics X实验室共同研发并正式开源的具身多模态基础大模型,项目完整托管于GitHub开源社区,全程开源开放,面向全球开发...
Hy3 preview是腾讯混元大模型团队重建预训练和强化学习基础设施后推出的首个混合专家模型,总参数量295B,激活参数21B,最大支持256K上下文长度,主打快慢思考融合与高性价...
Qwen3.6-27B是阿里云通义千问团队于2026年4月推出并开源的270亿参数稠密多模态大模型,以“小参数、强性能”为核心定位,在智能体编程领域实现旗舰级突破,全面超越前代397...
PixArt-Σ(也写作PixArt-Sigma)是由华为诺亚方舟实验室联合大连理工大学、香港大学、香港科技大学等顶尖科研机构共同研发的开源高清文本转图像生成项目,依托Diffusion T...
OpenShorts是一款免费开源的AI视频制作平台,集成长视频剪辑、AI数字人生成、YouTube运营三大核心功能,支持Docker自托管部署,无水印无使用限制,可一键发布到TikTok/Inst...
Wav2Lip是2020年由印度IIIT-H团队推出的开源AI唇形同步模型,基于GAN与SyncNet架构,可对任意人脸视频/静态图与任意语言音频实现毫秒级精准口型匹配,保留原始画面质感,广...
MuseTalk是腾讯音乐娱乐集团Lyra Lab开源的实时高保真音频驱动唇形同步模型,基于latent空间修复技术,支持中文/英文/日语等多语言音频输入,可对256×256人脸区域精准唇形...