BitDance:字节跳动开源的二进制令牌自回归超快高分辨率AI图像生成模型
BitDance是由字节跳动等机构联合推出的开源自回归生成模型项目,核心解决传统离散自回归模型在视觉生成中令牌器重建质量低、词汇表过大采样困难、逐令牌生成速度慢等痛点,...
BitDance是由字节跳动等机构联合推出的开源自回归生成模型项目,核心解决传统离散自回归模型在视觉生成中令牌器重建质量低、词汇表过大采样困难、逐令牌生成速度慢等痛点,...
Maestro 是一款由 pedramamini 主导开发的开源跨平台桌面应用,定位为AI 代理编排指挥中心,专为高频使用 AI 进行编码、多项目并行处理的开发者与极客用户设计。它以键盘优...
OpenStoryline是小红书开源的AI智能体驱动对话式视频创作系统,核心是用自然语言对话完成从素材到成片的全流程视频生成,无需专业剪辑技能,即可自动生成脚本、分镜、剪辑、...
Clawra是SumeLabs发布的一款专为OpenClaw个人AI智能体设计的开源自拍/图片生成技能扩展,以Skill插件形态存在,不独立运行,核心价值是为OpenClaw智能体赋予“可视化形象交...
NanoBot是由香港大学数据科学实验室(HKUDS)开源的超轻量级个人AI智能体框架,以“极简主义”为核心设计理念,仅用约4000行Python代码实现了OpenClaw(Clawdbot)的核心Ag...
PaperBanana是由北京大学与谷歌云AI研究院联合研发的开源智能体框架,核心定位是为AI科学家及科研工作者提供出版级学术插图的全自动化生成服务,解决科研过程中方法流程图、...
InteractAvatar是一款开源的文本驱动、场景感知、人物-物体交互可控的说话数字人(Talking Avatar)生成框架,核心解决当前数字人生成领域长期存在的控制-质量两难问题——...
TeleStyle是由中国电信人工智能研究院(Tele-AI) 开源的内容保留式图像与视频双模态风格迁移模型,基于Qwen-Image-Edit基座与DiT架构构建,在不微调、不针对特定风格训练的...
LLaMA-Factory是一站式统一高效大语言模型与多模态模型微调框架,项目核心目标是降低大模型定制化训练的技术门槛,让零基础用户、开发者、科研人员与企业工程师,都能在无需...
HoloCine是由香港科技大学、蚂蚁集团等机构联合推出的开源文本到视频(T2V)项目,该项目以整体生成为核心理念,通过窗口交叉注意、稀疏镜头间自注意两大核心机制,实现电影...
LingBot-World是一款面向交互式世界建模的开源世界模拟器,核心源于视频生成技术,由蚂蚁灵波开发并维护,定位为顶级开源世界模型。它通过从大规模游戏环境中学习物理规律与...
DeepSpeed-MII是由微软DeepSpeed团队打造的开源Python大模型推理部署专用库,全称为Model Implementations for Inference,是DeepSpeed生态中聚焦于模型推理阶段的核心组件...
Earth2Studio是一款由英伟达基于Python开发的开源AI推理流水线工具包,核心定位是为天气和气候科学领域提供“开箱即用”的AI开发与应用解决方案。其核心目标是打破AI地球系...
vLLM是一款高性能开源大语言模型(LLM)推理与服务库,核心依托PagedAttention分页注意力机制、连续批处理等技术创新,解决传统LLM推理中显存利用率低、延迟高、吞吐量低的...
LingBot-Depth是蚂蚁集团旗下灵波科技(Robbyant)开源的高精度空间感知模型,基于创新的掩码深度建模(MDM)范式,无需更换高端硬件,即可将消费级RGB-D相机的原始深度数据...