SoulX-FlashTalk:Soul AI Lab开源的实时音频驱动数字人模型
SoulX-FlashTalk是由Soul AI Lab(Soul App人工智能实验室)联合东华大学研发并开源的实时音频驱动数字人无限流式生成模型,核心定位是解决传统数字人生成技术中“高画质必...
SoulX-FlashTalk是由Soul AI Lab(Soul App人工智能实验室)联合东华大学研发并开源的实时音频驱动数字人无限流式生成模型,核心定位是解决传统数字人生成技术中“高画质必...
腾讯开源视频大模型HunyuanVideo(130B参数)从零部署实战:环境配置、HF模型下载、LLaVA/CLIP文本编码器预处理、Gradio服务启动,附避坑清单与性能实测。
Step 3.5 Flash是阶跃星辰(StepFun)发布的面向智能体(Agent)场景的开源基座大语言模型,采用稀疏混合专家(MoE)架构,总参数量196.81B,每token仅激活约11B参数,在保...
零基础也能会!Moltbot/Clawdbot 安装教程涵盖 Windows/Mac 系统部署、多模型(Claude/GLM/GPT)配置、多平台集成,附常用指令 + 故障排除,手把手搭建 AI 助手。
SkyReels V3是昆仑万维旗下Skywork AI团队自主研发的第三代旗舰多模态视频生成模型,基于统一多模态上下文学习框架与扩散Transformer架构打造,原生集成参考图像生成视频、...
LingBot-World是一款面向交互式世界建模的开源世界模拟器,核心源于视频生成技术,由蚂蚁灵波开发并维护,定位为顶级开源世界模型。它通过从大规模游戏环境中学习物理规律与...
SGLang是一款开源的大模型高性能推理框架,主打低延迟、高吞吐量的模型推理能力,原生支持结构化生成,创新采用RadixAttention技术实现KV缓存高效复用,兼容主流大模型与多...
D4RT是由Google DeepMind主导开发的开源4D重建与跟踪框架,核心是通过一套统一架构,从普通2D视频中精准还原动态场景的3D几何结构与时间维度的运动轨迹(即4D建模)。该框架...
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
手把手教你部署阿里通义万相Wan2.2-TI2V-5B视频生成模型!本教程涵盖Miniconda环境搭建、ComfyUI安装、模型文件下载(wan2.2_ti2v_5B_fp16.safetensors等)、工作流导入及J...
