Bernini:字节跳动开源的轻量化AI视频生成编辑框架
Bernini是字节跳动自研、基于Apache2.0开源协议发布的一站式AI视频生成与视频编辑框架,项目命名取自意大利著名雕塑大师贝尼尼,寓意模型具备精细化画面塑造、影视级内容创...
Bernini是字节跳动自研、基于Apache2.0开源协议发布的一站式AI视频生成与视频编辑框架,项目命名取自意大利著名雕塑大师贝尼尼,寓意模型具备精细化画面塑造、影视级内容创...
Cosmos 3是英伟达(NVIDIA)完全开源的全模态物理AI基础模型,采用创新混合Transformer架构,原生集成视觉推理、世界生成与动作预测能力,可理解并生成文本、图像、视频、环...
Wall-X 是由 X-Square-Robot 团队在 GitHub 开源的一套端到端具身智能机器人基础模型工程体系,核心依托自研 WALL-OSS 模型,搭建起从数据采集、模型训练、算法推理到真机部...
BitCPM-CANN是面壁智能联合清华、OpenBMB开源的国产昇腾原生1.58-bit三值大模型,覆盖0.5B-8B尺寸,显存压缩10倍、能力保留率90%-97%,适配手机、边缘设备等端侧场景,实现...
Mega-ASR是一款主打全场景恶劣环境的开源自动语音识别模型,依托海量实景语音数据与声学语义渐进微调技术,有效解决噪声、远场、混响失真音频识别难题,具备低幻觉高精准转...
Stable Audio 3是Stability AI研发的开源AI音频生成项目,支持文本生成音乐音效、音频片段修复续写,搭载多款梯度模型,兼容多类硬件设备,具备LoRA风格微调能力,提供网页...
Hy-MT2是腾讯混元开源的快思考多语种翻译模型家族,拥有1.8B、7B、30B-A3B多规格版本,支持33种语言双向翻译与七类指令定制翻译,搭载AngelSlim极致量化技术,体积小巧适配...
Hy-MT1.5-1.8B-1.25bit 是由腾讯混元团队联合 AngelSlim 共同推出的超轻量化端侧离线多语言翻译大模型,基于腾讯原生 HY-MT1.5-1.8B 翻译底座模型,采用自研 Sherry 三值量...
TIPSv2是谷歌DeepMind推出的第二代空间感知型文本-图像预训练编码器,收录于CVPR 2026,核心解决多模态模型全局理解强、局部定位弱的痛点。通过iBOT++全区域监督、Head-onl...
Wav2Lip是2020年由印度IIIT-H团队推出的开源AI唇形同步模型,基于GAN与SyncNet架构,可对任意人脸视频/静态图与任意语言音频实现毫秒级精准口型匹配,保留原始画面质感,广...
Audio Flamingo Next(AF-Next)是NVIDIA与马里兰大学联合发布的新一代开源大型音频语言模型,支持30分钟长音频输入与128K上下文窗口,首创时序音频思维链技术,精准锚定时...
Harrier-OSS-v1是微软研究院开源的多语言文本嵌入模型家族,包含270M、0.6B、27B三档参数规模,采用decoder-only架构、last-token pooling与L2归一化,最长支持32768 token...
Matrix-Game 3.0是昆仑万维旗下天工AI研发的工业级实时流式交互式世界模型,是首个实现长时序一致性、720p高分辨率、实时交互三者统一的开源世界模型。该模型基于扩散Trans...
InternVL-U是由上海人工智能实验室OpenGVLab团队推出的40亿参数轻量级统一多模态开源模型,在单一框架内融合多模态理解、逻辑推理、图像生成、图像编辑四大核心能力,以“统...
Helios是北京大学YuanGroup开源的140亿参数实时长视频生成模型,无需传统抗漂移与加速技巧,即可在单张H100显卡实现19.5FPS端到端推理,支持文本/图像/视频驱动的分钟级高质...