LLM

Fine-tuning vs RAG：什么时候该微调模型，什么时候该用检索增强？

深度对比大模型微调（Fine-tuning）与检索增强生成（RAG）的技术原理、核心差异与适用场景。从知识更新频率、数据需求、可解释性等维度，帮你精准判断何时该微调模型、何时...

1个月前 AI教程

104

SkVM：上交IPADS实验室开源的LLM智能体技能编译系统

SkVM 全称 Skill Virtual Machine，是上海交通大学IPADS实验室自研开源的一套面向大语言模型智能体的编译与运行时系统，项目基于传统编译器设计思想重构语言虚拟机架构，核...

2个月前 AI新闻

152

什么是草稿链（CoD）？3 分钟搞懂生成式 AI 的 “迭代优化” 新方法

什么是草稿链（CoD）？本文深度解析生成式AI的全新推理范式——草稿链（Chain of Draft）。揭秘CoD在金融、自动驾驶、实时客服中的落地实战，分析其在零样本场景的局限性及...

3个月前 AI教程

120

LangChain 是什么？零基础也能懂的 AI 工具框架入门（附类比说明）

本文深度解析 LangChain 核心概念与架构，涵盖 Model I/O、Chains、Memory、Agents 六大模块。通过实战代码教你从零构建聊天机器人、RAG 知识库及智能 Agent，是大模型开发...

3个月前 AI教程

223

TTT - Discover：斯坦福与英伟达联合提出的测试时训练框架

TTT - Discover是由斯坦福大学和英伟达研究团队联合提出的测试时训练框架，其核心创新在于突破传统AI推理阶段冻结模型参数的局限，在测试阶段针对单个具体问题通过强化学习...

5个月前 AI新闻

191

TeleChat3：中国电信开源的国产算力大语言模型（LLM）项目

TeleChat3 是中国电信人工智能研究院依托全国产算力研发的开源大语言模型（LLM）项目，聚焦 TeleChat3 系列模型（105B-A4.7B-Thinking、36B-Thinking）的推理、微调、国产化...

6个月前 AI新闻

247

AgentEvolver：阿里通义开源的AI智能体自主进化框架，赋能自主任务生成与高效策略优化

AgentEvolver是阿里通义实验室开源的AI智能体自进化系统，通过自我提问、自我导航、自我归因三大核心机制，解决传统强化学习（RL）任务稀缺、探索低效、样本利用率低的痛点...

7个月前 AI新闻

411

KTransformers：专注LLM异构优化的CPU-GPU混合推理与微调开源框架

KTransformers是一款基于CPU-GPU异构计算的开源框架，专注于大型语言模型（LLM）的高效推理与微调优化。项目核心包含kt-kernel（高性能推理内核）和kt-sft（轻量化微调框架...

8个月前 AI新闻

338

Verl：字节跳动开源的 LLM 强化学习训练工具，高效支持 RLHF 与多算法部署

Verl是由字节跳动Seed团队发起、社区共同维护的开源强化学习（RL）训练库，专为大型语言模型（LLMs）设计，该项目以“灵活易用、高效性能、生产级就绪”为核心优势，深度整...

8个月前 AI新闻

833

Memori：GibsonAI推出的LLM原生内存工具，SQL存储一键赋能AI持久记忆

Memori是一款开源的SQL原生LLM内存引擎，由GibsonAI开发维护，核心定位是为AI模型（LLM）、AI代理及多代理系统提供“可持久化、可查询、用户可控”的智能记忆能力。与传统向...

8个月前 AI新闻

113

DroidRun：开源LLM原生移动自动化框架，自然语言掌控跨平台设备交互

DroidRun是一款开源的移动设备自动化框架，核心定位是通过LLM（大语言模型）智能体实现对Android和iOS设备的自然语言控制，让非技术用户与专业开发者都能轻松完成移动设备的...

8个月前 AI新闻

216

Ouro：开源预训练循环语言模型（Looped LLM），小参数量匹敌大模型性能

Ouro 是多机构联合研发的开源循环语言模型系列，核心创新在于将“推理能力”融入预训练阶段，而非依赖传统大语言模型（LLM）的 post-training 显式文本生成。该系列包含 Ou...

8个月前 AI新闻

128

OmniVinci：NVIDIA开源的全模态理解大语言模型，高效融合视觉、音频与文本信息

OmniVinci是由NVIDIA等机构开发的开源全模态理解大语言模型（Omni-Modal Understanding LLM），旨在通过创新架构与高效数据构建，实现对视觉（图像、视频）、音频、文本信息...

8个月前 AI新闻

124

一文读懂大语言模型（LLM）工作机制：从原理到实用指南

本文通俗拆解大语言模型（LLM）工作机制，从核心原理（概率预测 token、Transformer 注意力机制）、五大技术架构模块、预训练 - 微调 - 对齐三阶段训练流程，到 “写智能台...

9个月前 AI教程

748

Skyvern：开源浏览器工作流自动化工具，基于LLM与计算机视觉实现灵活可靠的网页交互

Skyvern是一款基于大语言模型（LLMs）和计算机视觉的开源浏览器工作流自动化工具，旨在解决传统自动化方案（如依赖XPath或DOM解析）的脆弱性问题。它通过视觉理解和逻辑推理...

9个月前 AI新闻

118

LLM新闻、工具、教程及资源推荐

Fine-tuning vs RAG：什么时候该微调模型，什么时候该用检索增强？

SkVM：上交IPADS实验室开源的LLM智能体技能编译系统

什么是草稿链（CoD）？3 分钟搞懂生成式 AI 的 “迭代优化” 新方法

LangChain 是什么？零基础也能懂的 AI 工具框架入门（附类比说明）

TTT - Discover：斯坦福与英伟达联合提出的测试时训练框架

TeleChat3：中国电信开源的国产算力大语言模型（LLM）项目

AgentEvolver：阿里通义开源的AI智能体自主进化框架，赋能自主任务生成与高效策略优化

KTransformers：专注LLM异构优化的CPU-GPU混合推理与微调开源框架

Verl：字节跳动开源的 LLM 强化学习训练工具，高效支持 RLHF 与多算法部署

Memori：GibsonAI推出的LLM原生内存工具，SQL存储一键赋能AI持久记忆

DroidRun：开源LLM原生移动自动化框架，自然语言掌控跨平台设备交互

Ouro：开源预训练循环语言模型（Looped LLM），小参数量匹敌大模型性能

OmniVinci：NVIDIA开源的全模态理解大语言模型，高效融合视觉、音频与文本信息

一文读懂大语言模型（LLM）工作机制：从原理到实用指南

Skyvern：开源浏览器工作流自动化工具，基于LLM与计算机视觉实现灵活可靠的网页交互