TeleChat3:中国电信开源的国产算力大语言模型(LLM)项目
TeleChat3 是中国电信人工智能研究院依托全国产算力研发的开源大语言模型(LLM)项目,聚焦 TeleChat3 系列模型(105B-A4.7B-Thinking、36B-Thinking)的推理、微调、国产化...
TeleChat3 是中国电信人工智能研究院依托全国产算力研发的开源大语言模型(LLM)项目,聚焦 TeleChat3 系列模型(105B-A4.7B-Thinking、36B-Thinking)的推理、微调、国产化...
HY-Motion 1.0是腾讯混元团队开源的大规模文本到3D人体动作生成模型系列,核心定位是为数字内容创作领域提供高效、高精度的AI驱动动画生成解决方案。它系统性解决了长期困扰...
Qwen-Doc是由阿里巴巴通义智文团队开发并开源的专注于文档智能的代码库,不同于常规的文档解析工具,Qwen-Doc核心聚焦大语言模型在长文本、复杂文档场景下的能力提升,解决...
QuantiPhy是首个专注于评估视觉-语言模型(VLMs)定量运动学推理能力的开源评估基准及配套代码库,该项目通过多区域准确率(MRA)核心指标,从难度等级、任务类别等维度衡量...
PaCoRe 全称Parallel Coordinated Reasoning,中文译为并行协同推理,是由阶跃星辰(stepfun-ai)团队开源的一款全新AI推理框架,核心定位是解决传统大模型推理时的两大核心...
长短期记忆网络(Long Short-Term Memory, LSTM)是循环神经网络(RNN)的核心改进架构,核心解决传统 RNN 处理长序列时的梯度消失问题。本文将从数学原理、结构创新、工程...
MiMo-V2-Flash 是小米公司开源的千亿级混合专家(MoE)架构语言模型,总参数规模达3090亿,活跃参数仅150亿,实现了高性能与低推理成本的平衡。该模型创新采用混合注意力架...
Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目,该项目支持512px-4Kpx高清图像生成、分钟级视频生成,通过线性化注意力机制、少步扩散...
VideoLLaMA3是由阿里巴巴达摩院新加坡NLP团队研发并开源的多模态基础模型,聚焦于图像与视频的内容理解与分析任务。作为VideoLLaMA系列模型的升级版本,该模型基于字节跳动...
YingVideo-MV是由巨人网络开源的一款音乐驱动多阶段视频生成框架,它能够自动解析输入音频的语义特征,然后通过内置的镜头规划模块设计符合音乐氛围的画面分镜,再利用扩散...
