ACTalker:开源多模态说话人视频生成框架,精准驱动面部表情与唇形同步
ACTalker是港科大、腾讯、清华联合研发的开源端到端说话人视频生成框架,基于并行Mamba架构,支持音频、表情等多信号独立或组合控制,生成音画高度同步、表情细腻自然的虚拟...
ACTalker是港科大、腾讯、清华联合研发的开源端到端说话人视频生成框架,基于并行Mamba架构,支持音频、表情等多信号独立或组合控制,生成音画高度同步、表情细腻自然的虚拟...
本文从工程视角深度解析AI新逻辑核心要素,解答Token是什么、Token工厂架构原理及Token出海技术难点,为AIAI工程化落地提供技术分析框架。
Harness 是一款面向Claude Code环境的开源元技能(Meta-Skill)多智能体编排框架,依托Anthropic Claude Code运行环境深度定制开发,核心定义为:依靠自然语言需求自动完成...
Bernini是字节跳动自研、基于Apache2.0开源协议发布的一站式AI视频生成与视频编辑框架,项目命名取自意大利著名雕塑大师贝尼尼,寓意模型具备精细化画面塑造、影视级内容创...
Ideogram 4是加拿大AI企业Ideogram AI开源的93亿参数(9.3B)DiT架构文生图大模型,也是Ideogram品牌首款开放模型权重、支持本地私有化部署的商用级开源AI绘图模型。在Desi...
OmniVoice Studio 是一个完全开源、本地运行的 AI 语音工具集,定位为 ElevenLabs 的替代品。它支持 646 种语言的零样本语音克隆、语音设计(多参数调节)、全流程视频配音...
Qwen-Image-Bench是阿里通义千问团队开源的文生图专业评测基准,配套1000条中英双语分层数据集与自研Q-Judger评估引擎,可对AI绘画模型进行5大核心能力、56项指标的自动化量...
阿里云百炼 CLI是阿里云推出的开源命令行工具,专为AI Agent设计,可一键接入百炼平台150多款模型及知识库、MCP工具等全栈能力。工具支持全平台运行,原生兼容Claude Code、...
Aholo Viewer是群核科技开源的高性能3D高斯Web渲染器,采用Chunked Streaming LoD架构,支持10亿+高斯点城市级场景浏览器直渲,跨手机/PC/VR终端零门槛访问,性能超越Spark...
Dograh AI是遵循BSD开源协议的实时语音AI智能体开发平台,支持Docker一键私有化部署,采用拖拽式低代码编辑方式,可快速搭建电话语音机器人。平台兼容多类语音与大语言模型...
