FlowAct-R1:字节跳动推出的开源实时交互式数字人视频生成框架
FlowAct-R1是字节跳动开源的实时交互式数字人视频生成框架,基于MMDiT架构构建,其通过分块扩散强制策略、结构化记忆库与多阶段蒸馏技术,实现25FPS@480p分辨率、首帧1.5秒...
FlowAct-R1是字节跳动开源的实时交互式数字人视频生成框架,基于MMDiT架构构建,其通过分块扩散强制策略、结构化记忆库与多阶段蒸馏技术,实现25FPS@480p分辨率、首帧1.5秒...
OpenJudge是一款专为AI应用设计的开源评估框架,基于Python开发,核心定位是为AI智能体、聊天机器人、多模态应用、代码生成系统等各类AI应用提供标准化、自动化、全维度的质...
Prompt-Master是一款开源的Chrome浏览器扩展,专为解决AI提示词管理痛点而生,主打键盘+鼠标双友好操作体验,采用卡片式布局实现提示词快速查找、复制与管理,支持JSON格式...
Agentation是一款专为React 18+项目设计的agent-agnostic视觉反馈工具,通过可视化标注页面元素生成精准CSS选择器与结构化Markdown,解决AI编程助手定位代码模糊问题,提升...
AgentCPM-Report是一款聚焦于深度研究报告生成的开源大语言模型代理(LLM Agent),由清华大学自然语言处理实验室(THUNLP)、中国人民大学RUCBM实验室与ModelBest联合研发...
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
Qwen3-TTS是通义千问开源的一站式多语言语音生成模型全家桶,基于自研Qwen3大模型体系构建,采用离散多码本LM架构与Dual-Track双轨流式生成技术,实现语音克隆、语音设计、...
STEP3-VL-10B是阶跃星辰(StepFun AI)开源的轻量级多模态基础大模型,核心定位是在10B(100亿)参数的紧凑规模下,实现高效性与前沿多模态智能的极致平衡,打破“参数越大...
GLM-4.7-Flash 是由智谱科技开源的轻量化混合专家(MoE)大语言模型,总参数量达 30B,推理时仅激活 3B 参数,实现了高性能与低资源消耗的平衡。该模型支持 200K 长上下文窗...
PersonaPlex是NVIDIA研究团队于2026年1月开源的全双工实时语音对语音对话模型,基于Kyutai的Moshi架构与Helium语言模型构建,核心解决传统语音助手“听一次、答一次”的僵化...