SHARP:苹果开源的单目视图合成框架,秒级生成高保真3D场景渲染
SHARP 是苹果公司开源的单目视图合成方法,依托 ml-sharp 项目实现,核心通过单张照片回归场景的 3D 高斯表示,在标准 GPU 上仅需一次前馈传递即可在 1 秒内完成高分辨率、...
SHARP 是苹果公司开源的单目视图合成方法,依托 ml-sharp 项目实现,核心通过单张照片回归场景的 3D 高斯表示,在标准 GPU 上仅需一次前馈传递即可在 1 秒内完成高分辨率、...
AutoPR 是一款面向科研学者的开源学术推广自动化框架,基于大语言模型构建,核心包含 PRAgent 智能体框架与 PRBench 基准数据集两大模块。该工具可自动将学术论文转化为适配...
ELMo(Embeddings from Language Models)模型,通过引入深度双向语言模型架构,首次实现了词向量的动态语境感知。本文AI铺子将从技术原理、架构创新、应用场景及局限性四个...
Omnilingual ASR是由Meta(Facebook Research)开源的多语言语音识别系统,支持全球超过1600种语言(含数百种稀有语言),提供从300M到7B的多规格模型,支持零样本学习与无...
Wan-Animate是由阿里通义实验室研发的一款统一角色动画与替换框架,其构建于Wan模型之上,并针对角色动画类任务优化了输入范式与技术架构。作为一款定位 “一体化” 的 AI ...
SSVAE(Spectral-Structured VAE)是智谱AI针对视频生成场景优化的谱结构变分自编码器,聚焦于解决传统视频VAE潜在空间光谱特性与扩散模型训练需求不匹配的问题。该模型通过...
面对LIME、SHAP、注意力机制等多样化的XAI方法,如何根据具体场景选择最优方案成为亟待解决的实践难题。本文AI铺子通过对比三种方法的理论基础、技术特性、适用场景及局限性...
GLM-ASR 是由智谱 AI 团队开源的一款轻量级高性能语音识别项目,核心模型为 GLM-ASR-Nano-2512,参数规模仅 1.5B,却在多项语音识别基准测试中表现优于 OpenAI Whisper V3。...
CosyVoice是由阿里通义实验室打造的开源TTS项目,其核心定位是面向“野外”真实场景的高质量、高灵活性语音合成框架。作为基于LLM架构的TTS工具,CosyVoice不仅支持基础的文...
2025年12月Mistral AI推出第二代开源编码模型Devstral 2与Devstral Small 2,其中Devstral 2具备1230亿参数、72.2%的SWE-Bench Verified得分,成本效率较Claude Sonnet提升...
