Wan-Animate:阿里通义实验室推出的 AI 角色动画生成与视频角色替换框架
Wan-Animate是由阿里通义实验室研发的一款统一角色动画与替换框架,其构建于Wan模型之上,并针对角色动画类任务优化了输入范式与技术架构。作为一款定位 “一体化” 的 AI ...
Wan-Animate是由阿里通义实验室研发的一款统一角色动画与替换框架,其构建于Wan模型之上,并针对角色动画类任务优化了输入范式与技术架构。作为一款定位 “一体化” 的 AI ...
SSVAE(Spectral-Structured VAE)是智谱AI针对视频生成场景优化的谱结构变分自编码器,聚焦于解决传统视频VAE潜在空间光谱特性与扩散模型训练需求不匹配的问题。该模型通过...
面对LIME、SHAP、注意力机制等多样化的XAI方法,如何根据具体场景选择最优方案成为亟待解决的实践难题。本文AI铺子通过对比三种方法的理论基础、技术特性、适用场景及局限性...
GLM-ASR 是由智谱 AI 团队开源的一款轻量级高性能语音识别项目,核心模型为 GLM-ASR-Nano-2512,参数规模仅 1.5B,却在多项语音识别基准测试中表现优于 OpenAI Whisper V3。...
CosyVoice是由阿里通义实验室打造的开源TTS项目,其核心定位是面向“野外”真实场景的高质量、高灵活性语音合成框架。作为基于LLM架构的TTS工具,CosyVoice不仅支持基础的文...
2025年12月Mistral AI推出第二代开源编码模型Devstral 2与Devstral Small 2,其中Devstral 2具备1230亿参数、72.2%的SWE-Bench Verified得分,成本效率较Claude Sonnet提升...
在谷歌、Anthropic等厂商的激烈竞争下,OpenAI旗下的GPT-5.1依旧稳居全球顶尖AI模型行列。近日,OpenAI官方播客邀请到了ChatGPT团队核心成员,分享了这款模型的核心使用技巧...
近日,谷歌 Gemini 3 Deep Think 模式正式在 Gemini 应用中向 Google AI Ultra 订阅用户开放。这一全新模式在推理能力方面实现了显著提升,旨在攻克那些即便对当前最先进模...
MemOS 是由 MemTensor 团队开发的开源 AI 智能体记忆操作系统,旨在解决传统 AI 智能体存在的 “记忆断层”“人格漂移” 和 “上下文召回能力弱” 等核心痛点。该框架通过模...
BERT作为自然语言处理领域的里程碑模型,通过预训练-微调范式在文本分类、问答系统、命名实体识别等任务中取得了显著成果。本文AI铺子总结5个提升BERT微调准确率的关键技巧...
