人工智能研究所的个人主页

TeleChat3：中国电信开源的国产算力大语言模型（LLM）项目

TeleChat3 是中国电信人工智能研究院依托全国产算力研发的开源大语言模型（LLM）项目，聚焦 TeleChat3 系列模型（105B-A4.7B-Thinking、36B-Thinking）的推理、微调、国产化...

5个月前人工智能研究所

199

HY-Motion 1.0：腾讯混元开源的文本到 3D 动作生成模型

HY-Motion 1.0是腾讯混元团队开源的大规模文本到3D人体动作生成模型系列，核心定位是为数字内容创作领域提供高效、高精度的AI驱动动画生成解决方案。它系统性解决了长期困扰...

5个月前人工智能研究所

271

Qwen-Doc：阿里通义推出的开源长文档处理与智能推理工具集

Qwen-Doc是由阿里巴巴通义智文团队开发并开源的专注于文档智能的代码库，不同于常规的文档解析工具，Qwen-Doc核心聚焦大语言模型在长文本、复杂文档场景下的能力提升，解决...

5个月前人工智能研究所

194

QuantiPhy：开源视觉-语言模型定量物理推理评估基准，精准衡量AI运动学推理能力

QuantiPhy是首个专注于评估视觉-语言模型（VLMs）定量运动学推理能力的开源评估基准及配套代码库，该项目通过多区域准确率（MRA）核心指标，从难度等级、任务类别等维度衡量...

5个月前人工智能研究所

128

PaCoRe：阶跃星辰推出的开源AI推理框架，8B小模型性能超越GPT-5

PaCoRe 全称Parallel Coordinated Reasoning，中文译为并行协同推理，是由阶跃星辰（stepfun-ai）团队开源的一款全新AI推理框架，核心定位是解决传统大模型推理时的两大核心...

5个月前人工智能研究所

115

什么是LSTM？——深度解析长短期记忆网络的基本原理

长短期记忆网络（Long Short-Term Memory, LSTM）是循环神经网络（RNN）的核心改进架构，核心解决传统 RNN 处理长序列时的梯度消失问题。本文将从数学原理、结构创新、工程...

5个月前人工智能研究所

124

MiMo-V2-Flash：小米开源的千亿级混合专家语言模型，高速推理与长上下文处理兼备

MiMo-V2-Flash 是小米公司开源的千亿级混合专家（MoE）架构语言模型，总参数规模达3090亿，活跃参数仅150亿，实现了高性能与低推理成本的平衡。该模型创新采用混合注意力架...

5个月前人工智能研究所

97

Sana：NVIDIA开源的高效高分辨率AI图像与视频生成框架

Sana是NVIDIA实验室开源的基于线性扩散Transformer技术的高分辨率图像与视频生成项目，该项目支持512px-4Kpx高清图像生成、分钟级视频生成，通过线性化注意力机制、少步扩散...

5个月前人工智能研究所

127

VideoLLaMA3：阿里达摩院开源的多模态大模型，高效赋能图像与视频深度理解

VideoLLaMA3是由阿里巴巴达摩院新加坡NLP团队研发并开源的多模态基础模型，聚焦于图像与视频的内容理解与分析任务。作为VideoLLaMA系列模型的升级版本，该模型基于字节跳动...

5个月前人工智能研究所

134

YingVideo-MV：巨人网络开源的音乐驱动多阶段视频生成框架

YingVideo-MV是由巨人网络开源的一款音乐驱动多阶段视频生成框架，它能够自动解析输入音频的语义特征，然后通过内置的镜头规划模块设计符合音乐氛围的画面分镜，再利用扩散...

5个月前人工智能研究所

132

人工智能研究所

文章

工具

软件

图书

TeleChat3：中国电信开源的国产算力大语言模型（LLM）项目

HY-Motion 1.0：腾讯混元开源的文本到 3D 动作生成模型

Qwen-Doc：阿里通义推出的开源长文档处理与智能推理工具集

QuantiPhy：开源视觉-语言模型定量物理推理评估基准，精准衡量AI运动学推理能力

PaCoRe：阶跃星辰推出的开源AI推理框架，8B小模型性能超越GPT-5

什么是LSTM？——深度解析长短期记忆网络的基本原理

MiMo-V2-Flash：小米开源的千亿级混合专家语言模型，高速推理与长上下文处理兼备

Sana：NVIDIA开源的高效高分辨率AI图像与视频生成框架

VideoLLaMA3：阿里达摩院开源的多模态大模型，高效赋能图像与视频深度理解

YingVideo-MV：巨人网络开源的音乐驱动多阶段视频生成框架