Qwen-Doc:阿里通义推出的开源长文档处理与智能推理工具集
Qwen-Doc是由阿里巴巴通义智文团队开发并开源的专注于文档智能的代码库,不同于常规的文档解析工具,Qwen-Doc核心聚焦大语言模型在长文本、复杂文档场景下的能力提升,解决...
Qwen-Doc是由阿里巴巴通义智文团队开发并开源的专注于文档智能的代码库,不同于常规的文档解析工具,Qwen-Doc核心聚焦大语言模型在长文本、复杂文档场景下的能力提升,解决...
QuantiPhy是首个专注于评估视觉-语言模型(VLMs)定量运动学推理能力的开源评估基准及配套代码库,该项目通过多区域准确率(MRA)核心指标,从难度等级、任务类别等维度衡量...
PaCoRe 全称Parallel Coordinated Reasoning,中文译为并行协同推理,是由阶跃星辰(stepfun-ai)团队开源的一款全新AI推理框架,核心定位是解决传统大模型推理时的两大核心...
长短期记忆网络(Long Short-Term Memory, LSTM)是循环神经网络(RNN)的核心改进架构,核心解决传统 RNN 处理长序列时的梯度消失问题。本文将从数学原理、结构创新、工程...
MiMo-V2-Flash 是小米公司开源的千亿级混合专家(MoE)架构语言模型,总参数规模达3090亿,活跃参数仅150亿,实现了高性能与低推理成本的平衡。该模型创新采用混合注意力架...
Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目,该项目支持512px-4Kpx高清图像生成、分钟级视频生成,通过线性化注意力机制、少步扩散...
VideoLLaMA3是由阿里巴巴达摩院新加坡NLP团队研发并开源的多模态基础模型,聚焦于图像与视频的内容理解与分析任务。作为VideoLLaMA系列模型的升级版本,该模型基于字节跳动...
YingVideo-MV是由巨人网络开源的一款音乐驱动多阶段视频生成框架,它能够自动解析输入音频的语义特征,然后通过内置的镜头规划模块设计符合音乐氛围的画面分镜,再利用扩散...
在人工智能大模型训练领域,"Token"是理解模型处理文本机制的核心概念。作为模型可理解的最小语义单元,Token的划分方式直接影响模型的计算效率、多语言处理能力及成本结构...
UnityVideo 是由香港科技大学、香港中文大学、清华大学与快手可灵联合研发的多模态多任务统一视频理解与生成框架。该框架基于统一 Transformer 骨干网络与联合训练策略,突...
