SSVAE:智谱AI开源的视频生成专用谱结构 VAE 模型
SSVAE(Spectral-Structured VAE)是智谱AI针对视频生成场景优化的谱结构变分自编码器,聚焦于解决传统视频VAE潜在空间光谱特性与扩散模型训练需求不匹配的问题。该模型通过...
SSVAE(Spectral-Structured VAE)是智谱AI针对视频生成场景优化的谱结构变分自编码器,聚焦于解决传统视频VAE潜在空间光谱特性与扩散模型训练需求不匹配的问题。该模型通过...
RealVideo 是由智谱 AI 主导开发并开源的实时流媒体对话视频生成系统,采用 Python 编程语言开发,依托 WebSocket 技术实现客户端与服务端的双向实时通信,融合大语言模型与...
SCAIL是智谱AI开源的一款面向生产级应用的角色动画生成框架,核心基于3D一致姿态表示的上下文学习技术,解决了传统角色动画生成中泛化能力弱、复杂场景运动不连贯的痛点。该...
在数字化浪潮中,实体商业与人工智能的深度融合正重塑零售业态。以"AI铺子"为代表的智能零售解决方案,通过数据驱动、场景重构和服务升级,为商家开辟了精准化运营的新路径...
Kaleido是由智谱AI、合肥工业大学、清华大学等机构联合研发的开源多主体参考视频生成模型,该模型支持512P分辨率视频生成,提供完整的训练、推理代码及预训练权重,适配Pyt...
PosterCopilot是由南京大学PRLab、LibLib.ai与中国科学院自动化研究所联合开发的开源多模态海报设计框架,该框架基于大型多模态模型(LMMs)构建,创新采用三阶段训练范式,...
GLM-TTS是由智谱AI团队开源的一款基于大语言模型(LLM)的高质量文本转语音(TTS)合成系统,其核心设计理念是将大语言模型的语义理解能力与语音合成技术相结合,突破传统T...
GLM-ASR 是由智谱 AI 团队开源的一款轻量级高性能语音识别项目,核心模型为 GLM-ASR-Nano-2512,参数规模仅 1.5B,却在多项语音识别基准测试中表现优于 OpenAI Whisper V3。...
Mistral Vibe是由Mistral AI打造的一款开源命令行(CLI)编码助手,它以自然语言对话为核心交互方式,深度整合代码库分析、文件操作、命令执行等能力,为开发者提供一站式的...
InkSight是谷歌研究院开源的一款离线手写内容转在线数字墨水的AI系统,基于视觉ViT与mT5编码器-解码器架构,融合阅读与写作先验知识构建多任务训练框架,可直接将照片中的手...