UltraEval-Audio:全球首个开源音频大模型全维度评测框架
UltraEval-Audio是全球首个开源的音频大模型专属评测框架,聚焦语音理解与语音生成类任务的全维度、标准化评估。该框架聚合34个权威基准数据集,覆盖语音、声音、医疗、音乐...
UltraEval-Audio是全球首个开源的音频大模型专属评测框架,聚焦语音理解与语音生成类任务的全维度、标准化评估。该框架聚合34个权威基准数据集,覆盖语音、声音、医疗、音乐...
TeleChat3 是中国电信人工智能研究院依托全国产算力研发的开源大语言模型(LLM)项目,聚焦 TeleChat3 系列模型(105B-A4.7B-Thinking、36B-Thinking)的推理、微调、国产化...
HY-Motion 1.0是腾讯混元团队开源的大规模文本到3D人体动作生成模型系列,核心定位是为数字内容创作领域提供高效、高精度的AI驱动动画生成解决方案。它系统性解决了长期困扰...
Qwen-Doc是由阿里巴巴通义智文团队开发并开源的专注于文档智能的代码库,不同于常规的文档解析工具,Qwen-Doc核心聚焦大语言模型在长文本、复杂文档场景下的能力提升,解决...
QuantiPhy是首个专注于评估视觉-语言模型(VLMs)定量运动学推理能力的开源评估基准及配套代码库,该项目通过多区域准确率(MRA)核心指标,从难度等级、任务类别等维度衡量...
PaCoRe 全称Parallel Coordinated Reasoning,中文译为并行协同推理,是由阶跃星辰(stepfun-ai)团队开源的一款全新AI推理框架,核心定位是解决传统大模型推理时的两大核心...
长短期记忆网络(Long Short-Term Memory, LSTM)是循环神经网络(RNN)的核心改进架构,核心解决传统 RNN 处理长序列时的梯度消失问题。本文将从数学原理、结构创新、工程...
MiMo-V2-Flash 是小米公司开源的千亿级混合专家(MoE)架构语言模型,总参数规模达3090亿,活跃参数仅150亿,实现了高性能与低推理成本的平衡。该模型创新采用混合注意力架...
Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目,该项目支持512px-4Kpx高清图像生成、分钟级视频生成,通过线性化注意力机制、少步扩散...
VideoLLaMA3是由阿里巴巴达摩院新加坡NLP团队研发并开源的多模态基础模型,聚焦于图像与视频的内容理解与分析任务。作为VideoLLaMA系列模型的升级版本,该模型基于字节跳动...
