FlowAct-R1:字节跳动推出的开源实时交互式数字人视频生成框架
FlowAct-R1是字节跳动开源的实时交互式数字人视频生成框架,基于MMDiT架构构建,其通过分块扩散强制策略、结构化记忆库与多阶段蒸馏技术,实现25FPS@480p分辨率、首帧1.5秒...
FlowAct-R1是字节跳动开源的实时交互式数字人视频生成框架,基于MMDiT架构构建,其通过分块扩散强制策略、结构化记忆库与多阶段蒸馏技术,实现25FPS@480p分辨率、首帧1.5秒...
Qwen3-TTS是通义千问开源的一站式多语言语音生成模型全家桶,基于自研Qwen3大模型体系构建,采用离散多码本LM架构与Dual-Track双轨流式生成技术,实现语音克隆、语音设计、...
Being-H 是由BeingBeyond 团队开源的以人为中心的跨体化视觉 - 语言 - 动作(VLA)基础模型,核心聚焦于解决机器人学习中 “形态异构、数据稀缺、泛化能力弱” 的行业痛点,...
本文提供完整的 MultiTalk 本地部署教程,详细讲解如何在 Ubuntu 系统下通过 Conda、PyTorch 和 ComfyUI 部署音频驱动的多人对话视频生成框架,涵盖环境搭建、模型下载、节...
Pixelle-Video是一款基于Python开发的开源AI全自动短视频引擎,通过整合大语言模型(LLM)、AI生图/生视频模型、语音合成(TTS)、智能剪辑等多项技术,实现了从“主题输入...
Superpowers是一款专为AI编码代理打造的完整软件开发工作流增强框架,其核心是将人类软件工程中的经典最佳实践转化为AI可理解、可执行的强制性标准化协议,通过模块化的“技...
MiniCPM 是由面壁智能、清华大学自然语言处理实验室、中国人民大学高瓴人工智能学院联合开发的一系列轻量级大语言模型开源项目。项目涵盖多版本模型迭代,兼顾性能与效率,...
Oh My OpenCode是一款面向开发者的开源AI编程效率增强工具,本质是基于OpenCode的智能体增强框架与插件包,被开发者形象地称为“编程效率的类固醇”。该项目采用TypeScript...
Spirit-v1.5是由千寻智能(Spirit AI)研发并开源的端到端视觉-语言-动作(VLA)具身智能基础模型,该模型在RoboChallenge Table30基准测试中以66.09分的综合得分和50.33%的...
EvoCUA(Evolving Computer Use Agent)是由美团公司重磅开源的一款通用多模态计算机使用智能体,核心能力为基于实时桌面截图与自然语言指令,实现对主流桌面软件的端到端、...
