WeKnora:腾讯开源的LLM文档理解与语义检索框架
WeKnora 是腾讯开源的大语言模型(LLM)驱动文档理解与语义检索框架,专为复杂异构文档场景打造,核心基于检索增强生成(RAG)范式,采用模块化架构设计,支持多格式文档解...
WeKnora 是腾讯开源的大语言模型(LLM)驱动文档理解与语义检索框架,专为复杂异构文档场景打造,核心基于检索增强生成(RAG)范式,采用模块化架构设计,支持多格式文档解...
A2UI的全称是Agent-to-User Interface,是由谷歌开源的一款面向生成式AI代理的声明式用户界面框架,它并非一个传统意义上的UI组件库,而是一套“UI意图描述标准+多框架渲染...
SHARP 是苹果公司开源的单目视图合成方法,依托 ml-sharp 项目实现,核心通过单张照片回归场景的 3D 高斯表示,在标准 GPU 上仅需一次前馈传递即可在 1 秒内完成高分辨率、...
AutoPR 是一款面向科研学者的开源学术推广自动化框架,基于大语言模型构建,核心包含 PRAgent 智能体框架与 PRBench 基准数据集两大模块。该工具可自动将学术论文转化为适配...
ELMo(Embeddings from Language Models)模型,通过引入深度双向语言模型架构,首次实现了词向量的动态语境感知。本文AI铺子将从技术原理、架构创新、应用场景及局限性四个...
Omnilingual ASR是由Meta(Facebook Research)开源的多语言语音识别系统,支持全球超过1600种语言(含数百种稀有语言),提供从300M到7B的多规格模型,支持零样本学习与无...
Wan-Animate是由阿里通义实验室研发的一款统一角色动画与替换框架,其构建于Wan模型之上,并针对角色动画类任务优化了输入范式与技术架构。作为一款定位 “一体化” 的 AI ...
SSVAE(Spectral-Structured VAE)是智谱AI针对视频生成场景优化的谱结构变分自编码器,聚焦于解决传统视频VAE潜在空间光谱特性与扩散模型训练需求不匹配的问题。该模型通过...
面对LIME、SHAP、注意力机制等多样化的XAI方法,如何根据具体场景选择最优方案成为亟待解决的实践难题。本文AI铺子通过对比三种方法的理论基础、技术特性、适用场景及局限性...
GLM-ASR 是由智谱 AI 团队开源的一款轻量级高性能语音识别项目,核心模型为 GLM-ASR-Nano-2512,参数规模仅 1.5B,却在多项语音识别基准测试中表现优于 OpenAI Whisper V3。...
