Youtu-Tip：腾讯云开源的本地化、主动式离线桌面 AI 智能助手

原创发布日期：2026-01-12

239

一、Youtu-Tip是什么

Youtu-Tip是由腾讯云ADP团队完全开源的一款本地化、主动式、全离线运行的桌面AI智能助手，是腾讯自研桌面智能体体系Youtu-Agent的轻量化、易用性扩展版本。该项目以「数据不出本机、交互无需手动、能力按需定制」为核心设计理念，聚焦桌面端的智能化人机交互场景，将大语言模型的理解与推理能力，与桌面端的操作场景深度融合，打造出一款无需依赖云端服务器、无需手动输入上下文、能够自主感知并处理本地任务的智能工具。

不同于市面上多数云端AI聊天机器人，Youtu-Tip并非简单的对话工具，而是具备「感知桌面环境-理解用户需求-规划执行步骤-完成本地任务」的全链路桌面智能体。它既保留了大模型的自然语言交互能力，又突破了云端AI工具的地域、网络与隐私限制，同时填补了传统LLM应用「需要手动复制粘贴上下文」的体验短板，目前主要适配Apple Silicon（M系列）架构的MacOS系统，后续官方将逐步完成Windows、Linux等系统的适配工作。

从项目定位来看，Youtu-Tip承担着「大模型能力桌面化落地」的核心角色：一方面，它将腾讯自研的Youtu-LLM、Youtu-VL等轻量化模型的能力封装为可视化桌面应用，降低了普通用户使用本地大模型的技术门槛；另一方面，它通过Agent技术实现了大模型与桌面系统的深度联动，让AI能够真正参与到本地文件处理、界面操作、数据整理等实际工作中，成为用户的「桌面智能助理」。

Youtu-Tip：腾讯云开源的本地化、主动式离线桌面 AI 智能助手

二、功能特色

Youtu-Tip的功能设计围绕「隐私优先、交互极简、能力全面、本地可控」四大核心原则展开，所有功能均针对桌面端用户的真实使用痛点打造，无冗余功能模块，核心特色可分为六大板块，且全部功能均支持离线本地化运行，无任何云端数据传输环节。

2.1 极致隐私安全，全链路本地处理

这是Youtu-Tip最核心、最基础的功能特色，也是项目立项的首要原则。Youtu-Tip从底层架构设计上就实现了「数据不出本机」的隐私保障，彻底解决了用户使用AI工具时的敏感数据泄露顾虑。

全离线运行：核心推理能力基于本地模型实现，无论是自研的Youtu-LLM/Youtu-VL，还是用户接入的Ollama本地模型，所有模型推理过程均在用户设备端完成，无需调用任何云端API接口，无网络环境也能正常使用；
数据本地留存：用户的聊天记录、选中的文本内容、截取的屏幕图片、本地文件读取内容、桌面操作指令等所有数据，均仅在设备本地存储与处理，不会上传至任何云端服务器，也无需用户注册账号、授权登录，从根源上避免了敏感数据泄露风险；
权限精细控制：首次启动仅需申请「屏幕录制」「辅助功能」两项必要权限，分别用于实现截图交互与键鼠模拟功能，且权限仅在用户使用对应功能时临时生效，无后台静默调用行为，设备令牌等敏感配置文件的权限被严格设置为0o600（仅当前用户可读写），进一步保障本地数据安全。

2.2 极简交互入口，上下文自动识别

Youtu-Tip彻底摒弃了传统AI工具「打开软件-输入问题-等待回复」的繁琐流程，打造了「一键唤醒、自动感知」的极简交互体验，填补了LLM应用「手动输入上下文」的最后一公里短板。

快捷键一键唤醒：默认通过ctrl + shift组合键唤醒聊天窗口，无需在桌面寻找图标、无需切换应用界面，随时随地可快速调用AI能力，唤醒速度达到毫秒级，媲美系统原生工具；
文本上下文自动抓取：用户在任意应用中选中文本后，按下唤醒快捷键，Youtu-Tip会自动读取选中的文本内容（默认最长支持160字符，超出部分自动智能截断），并将其作为对话上下文，无需用户手动复制、粘贴，实现「选中文本即提问」；
图片上下文智能解析：按住唤醒快捷键即可进入截图模式，用户通过鼠标框选需要解析的屏幕区域后，Youtu-Tip会自动对图片进行压缩、格式转换与Base64编码，适配模型输入要求，并将图片内容作为上下文进行理解与回复，支持图片文字识别、图表解析、界面操作指导等场景，实现「截图即提问」。

2.3 强大本地Agent能力，深度联动桌面系统

作为Youtu-Agent的扩展版本，Youtu-Tip继承了腾讯自研Agent技术的核心能力，能够实现与桌面系统的深度联动，模拟人类操作完成各类本地任务，突破了传统AI「只能说不能做」的局限。

键鼠操作模拟：通过GUI Agent技术，Youtu-Tip能够模拟鼠标的点击、拖动、滚轮，以及键盘的输入、快捷键操作等行为，可按照用户指令完成界面切换、文件打开、表单填写等自动化操作；
本地文件处理：支持读取本地各类格式文件（文档、表格、图片等），并根据用户指令完成内容解析、数据提取、格式转换、批量重命名等操作，还可通过「右键文件-Open with - Tip」的方式，快速调用AI能力处理文件；
多工具联动调用：集成了网页浏览、计算器、翻译器等常用工具能力，可根据用户需求自动调用对应工具完成任务，例如「打开浏览器搜索最新AI资讯」「计算某份表格中的数据总和」「将选中的英文文本翻译成中文」等；
流式输出执行结果：在执行复杂Agent任务时，支持流式输出步骤与结果，用户可实时查看任务执行进度，若发现操作偏差，可随时中断任务或重置会话，提升任务执行的可控性。

2.4 GUI技能自定义，打造专属自动化能力

Youtu-Tip提供了灵活的GUI技能自定义功能，允许用户像「教助手做事」一样，为模型添加专属的桌面操作技能，实现个性化的自动化需求，让AI能力能够精准匹配用户的工作流程。

无代码技能创建：用户无需掌握编程知识，仅需通过Markdown格式编写技能描述（包括技能名称、执行步骤、注意事项等），Youtu-Tip会自动解析技能文件并完成能力集成，支持「筛选低价航班」「本地照片分类整理」「办公文档格式统一」等各类自定义场景；
技能标准化管理：所有自定义技能以Markdown文件形式本地存储，系统会自动为每个技能生成唯一标识，支持技能的新增、编辑、删除、启用/禁用等全生命周期管理，用户可根据工作需求随时调整技能库；
技能智能调用：用户在对话中提及相关需求时，Youtu-Tip会自动匹配技能库中的对应能力，并按照预设步骤执行操作，无需用户手动选择技能，实现「说需求即执行」。

2.5 灵活的模型适配能力，支持多源模型接入

Youtu-Tip并未绑定单一模型，而是提供了开放的模型接入接口，支持用户根据自身需求选择不同的推理模型，兼顾了能力与灵活性。

原生支持自研模型：默认集成腾讯自研的Youtu-LLM（1.96B参数量）轻量化大语言模型与Youtu-VL（4B参数量）多模态模型，两款模型均针对本地化部署优化，推理速度快、资源占用低，且具备原生的Agent能力；
兼容Ollama本地模型：深度适配Ollama本地模型部署框架，用户只需在本地安装Ollama并启动服务，即可将任意Ollama支持的模型（如Llama 3、Qwen、Mistral等）接入Youtu-Tip，实现模型自由切换；
支持OpenAI SDK标准端点：兼容OpenAI API的接口协议，用户可将Youtu-Tip对接至符合该标准的第三方模型服务（如自建大模型服务、商业大模型API等），进一步扩展模型能力边界；
模型配置可视化：通过软件内置的「设置-模型」界面，用户可直观完成模型的添加、删除、默认模型切换等操作，无需修改配置文件，降低了模型管理的技术门槛。

2.6 轻量化设计，低资源占用

针对本地化运行场景，Youtu-Tip进行了极致的轻量化优化，确保在普通消费级设备上也能流畅运行，不会对系统性能造成明显影响。

低内存占用：核心进程运行时内存占用控制在数百MB级别，远低于同类桌面AI工具，即使同时运行多个应用，也不会出现系统卡顿；
快速启动与响应：应用启动时间小于3秒，模型推理响应速度根据任务复杂度不同，最快可达到1秒内回复，满足用户即时性需求；
后台静默运行：支持最小化至系统托盘，后台运行时几乎不占用CPU资源，用户可随时通过快捷键唤醒，不影响正常工作流程。

三、技术细节

Youtu-Tip采用「前端Electron可视化交互 + 后端Python核心逻辑」的跨端架构设计，实现了界面交互的流畅性与后端逻辑的灵活性，同时通过模块化的代码组织，让不同功能模块解耦，便于后续扩展与维护。以下从仓库结构、技术栈、核心技术实现三个维度，详细解析Youtu-Tip的技术细节。

3.1 仓库结构

Youtu-Tip的仓库结构清晰，按功能模块进行分层划分，核心代码分为Electron前端、Python后端、配置文件、文档资源四大板块，便于开发者理解与二次开发，具体结构如下：

youtu-tip/
├── .github/      # GitHub工作流配置（CI/CD、Issue模板、PR模板）
├── youtu-tip/     # 项目核心工程目录
│  ├── electron/    # Electron前端核心代码
│  │  ├── src/main/  # 主进程：窗口管理、快捷键监听、IPC通信、日志系统
│  │  ├── src/renderer/ # 渲染进程：UI界面、用户交互、状态管理、设置页面
│  │  ├── src/preload/ # 预加载脚本：主进程与渲染进程IPC通信桥接，保障安全
│  │  ├── package.json # 前端依赖配置文件
│  │  └── tailwind.config.js # TailwindCSS样式配置
│  ├── python/     # Python后端核心逻辑
│  │  ├── app/    # 后端主应用目录
│  │  │  ├── gui_agent/ # GUI Agent模块（技能管理、图片处理、指令执行）
│  │  │  ├── services/ # 核心服务（配置管理、LLM交互、Youtu-Agent集成）
│  │  │  ├── api/    # WebSocket接口（流式输出、日志传输）
│  │  │  └── main.py  # 后端入口文件
│  │  └── requirements.txt # 后端依赖配置文件
│  ├── config/     # 应用配置文件目录（模型配置、技能配置、系统配置）
│  └── scripts/    # 辅助脚本（打包、部署、依赖安装）
├── youtu-llm/     # Youtu-LLM模型文档、部署指引、技术报告
├── docs/        # 项目文档（使用教程、截图、演示视频、开发指南）
├── README.md/     # 项目主说明文档（多语言版本）
├── README_CN.md/
├── LICENSE/      # 开源许可证（Apache License 2.0）
└── CNAME/       # GitHub Pages自定义域名配置

3.2 核心技术栈

Youtu-Tip的技术栈选择兼顾了「开发效率、运行性能、跨端兼容性」三大需求，前端聚焦可视化交互与系统联动，后端聚焦模型推理与业务逻辑，具体技术栈如下表所示：

技术层面	核心技术/框架	主要作用
前端框架	Electron	跨平台桌面应用开发，实现窗口管理、系统快捷键、托盘图标等原生功能
前端语言	TypeScript + HTML + CSS	TypeScript保障代码可维护性，HTML/CSS实现界面渲染
前端样式	TailwindCSS	快速构建响应式UI，减少自定义CSS代码量
后端语言	Python 3.8+	处理模型交互、Agent逻辑、图片处理等核心业务，生态丰富且易于调用AI模型
后端核心库	asyncio + websockets	asyncio实现异步任务处理，提升并发能力；websockets实现前端与后端的流式数据传输
图片处理	Pillow	完成图片压缩、格式转换、Base64编码等操作，适配模型输入要求
模型交互	OpenAI SDK + Ollama API	实现与OpenAI标准端点、Ollama本地模型的对接，统一模型调用接口
配置管理	PyYAML + json	实现配置文件的读写与解析，支持可视化配置修改
日志系统	logging（Python）+ winston（Node.js）	实现前后端日志的分级记录与存储，便于问题排查

3.3 核心技术实现

3.3.1 前端核心逻辑：交互与系统联动

前端基于Electron构建，分为主进程、渲染进程与预加载脚本三个核心部分，各司其职且通过IPC通信实现数据交互，保障了应用的稳定性与安全性。

主进程：作为应用的「大脑」，负责管理所有窗口、监听系统快捷键（ctrl + shift）、处理与系统的原生交互（如权限申请、屏幕录制、键鼠模拟）、建立与Python后端的通信连接，同时负责日志的记录与存储，以及应用的生命周期管理（启动、退出、最小化）；
渲染进程：负责所有可视化界面的渲染与用户交互，包括聊天窗口、设置页面、技能管理页面等，采用TailwindCSS实现样式统一，通过状态管理工具维护界面数据，将用户的操作指令通过IPC通信传递给主进程；
预加载脚本：作为主进程与渲染进程之间的「安全桥梁」，避免渲染进程直接访问Node.js原生模块与系统资源，仅暴露经过校验的API接口，防止恶意代码注入，保障应用安全。

此外，前端还实现了「上下文自动识别」的核心功能：通过系统API监听文本选中事件与截图事件，当用户按下快捷键时，快速捕获选中的文本内容或截图区域，经过简单的格式处理后，传递给后端进行模型推理。

3.3.2 后端核心逻辑：模型与业务处理

后端基于Python构建，采用模块化设计，核心负责模型交互、Agent逻辑执行、GUI技能管理、图片处理等业务，是Youtu-Tip的「能力核心」。

LLM交互模块：统一了不同模型的调用接口，支持Youtu-LLM、Ollama模型、OpenAI标准端点三种类型的模型接入，自动适配不同模型的输入输出格式，实现「一次开发，多模型兼容」；同时支持流式输出，将模型的推理结果实时传递给前端，提升用户体验；
GUI Agent模块：是实现「桌面自动化」的核心，分为技能管理与指令执行两个子模块。技能管理模块负责解析用户编写的Markdown技能文件，生成标准化的技能配置；指令执行模块负责根据模型的规划结果，调用系统API模拟键鼠操作，完成桌面任务；
图片处理模块：针对多模态交互场景优化，实现了图片的自动压缩（控制图片像素与长边长度，平衡解析效果与推理速度）、格式转换（统一转换为JPEG格式）、Base64编码（适配模型输入要求），同时针对Youtu-VL模型做了专属的输入格式适配，确保图片解析的准确性；
配置管理模块：负责处理应用的所有配置项，包括模型配置、技能配置、系统配置等，支持可视化配置修改，并对敏感配置（如Tip Cloud）做了只读限制，保障默认配置的安全性；同时将配置文件本地存储，确保离线状态下的配置有效性。

3.3.3 前后端通信机制

Youtu-Tip采用「IPC通信 + WebSocket通信」的混合通信机制，兼顾了通信的实时性与可靠性：

IPC通信：主要用于前后端之间的同步指令传递，如应用启动、配置修改、技能增删改查等，特点是传输速度快、可靠性高，适合处理短消息、指令类数据；
WebSocket通信：主要用于流式数据的传输，如模型推理的流式输出、Agent任务的执行日志、图片处理的进度反馈等，特点是支持双向实时通信，能够将后端的实时数据持续传递给前端，实现「边推理边展示」的效果。

四、应用场景

Youtu-Tip的本地化、自动化、多模态特性，使其能够适配各类桌面端工作与生活场景，尤其在办公效率提升、学习辅助、本地数据处理、自动化操作等方面表现突出，以下是具体的典型应用场景：

4.1 办公效率提升场景

办公场景是Youtu-Tip最核心的应用领域，能够有效减少重复操作，提升文档处理、数据整理、流程执行的效率。

文档快速处理：选中本地Word、Excel、PDF文档中的内容，按下快捷键即可让AI完成内容总结、关键词提取、语法纠错、格式优化等操作；右键点击文档文件，可调用AI完成批量文档格式转换、内容合并、数据提取等任务，无需手动打开软件操作；
数据智能分析：对Excel表格中的数据进行截图，Youtu-Tip可快速解析表格内容，完成数据计算、趋势分析、可视化建议等操作，还能根据数据生成分析报告，省去手动整理与分析的时间；
办公流程自动化：通过自定义GUI技能，实现办公流程的自动化，例如「自动打开邮箱并筛选未读工作邮件」「自动将微信接收到的文件分类保存至指定文件夹」「自动填写日常工作报表」等，让AI承担重复性的办公操作。

4.2 学习辅助场景

在学习场景中，Youtu-Tip能够作为「随身学习助手」，提供即时的知识解答、语言翻译、资料整理等能力，且所有学习数据本地存储，保障隐私。

即时知识解答：遇到不懂的知识点时，无需打开浏览器搜索，直接选中问题文本或截图题目，Youtu-Tip可快速给出详细的解答与思路分析，支持数学公式、编程代码、文科知识点等各类内容的解析；
多语言翻译与学习：选中任意外文文本（网页、文档、图片中的文字），一键完成中/英/日/韩等多语言互译，还能让AI对翻译内容进行语法讲解、例句补充，辅助语言学习；
学习资料整理：对网课截图、课件图片、学习笔记等内容进行解析，Youtu-Tip可自动提取关键信息，整理成结构化的笔记，还能根据资料内容生成复习提纲，提升学习效率。

4.3 开发与技术工作场景

对于开发人员与技术从业者，Youtu-Tip能够作为「桌面开发助手」，提供代码解析、问题排查、本地环境管理等能力，提升开发效率。

代码快速解析与调试：选中本地代码文件中的代码片段，按下快捷键即可让AI完成代码解释、bug排查、性能优化建议等操作；对开发过程中遇到的报错截图，AI可快速定位报错原因并给出解决方案；
本地环境管理：通过自定义技能，实现本地开发环境的自动化管理，例如「自动启动/停止本地服务（MySQL、Redis、Nginx）」「自动检查本地代码仓库的提交状态」「自动备份开发项目文件」等；
技术文档生成：根据开发需求，让AI快速生成接口文档、开发手册、测试报告等技术文档，还能对已有的技术文档进行优化与补充，减少文档编写的工作量。

4.4 日常生活与娱乐场景

在日常生活中，Youtu-Tip也能提供各类便捷服务，提升生活效率与体验。

本地文件管理：通过AI实现本地文件的智能管理，例如「根据图片拍摄时间与内容自动分类照片」「批量重命名本地视频文件」「快速查找电脑中的指定文件」等；
生活信息查询：无需打开浏览器，直接向Youtu-Tip询问天气、快递、航班等信息（对接本地模型的知识库），还能让AI根据个人需求推荐美食、旅游路线等；
娱乐与创作辅助：对本地图片进行截图，让AI完成图片编辑建议、创意修图思路生成；输入创作需求，AI可快速生成文案、故事、歌词等内容，辅助创意创作。

Youtu-Tip：腾讯云开源的本地化、主动式离线桌面 AI 智能助手

五、使用方法

Youtu-Tip的使用流程分为「安装部署」「基础使用」「进阶功能配置」三个阶段，整体操作简单易懂，无需复杂的技术背景，以下是详细的分步说明。

5.1 安装部署

目前Youtu-Tip仅支持Apple Silicon（M系列）架构的MacOS系统，要求系统版本为macOS 12.0及以上，安装方式分为「官方安装包安装」与「源码编译安装」两种，用户可根据自身需求选择。

5.1.1 官方安装包安装（推荐，适合普通用户）

下载安装包：访问Youtu-Tip的GitHub Release页面（链接见本文第七部分），下载最新版本的MacOS安装包（.dmg格式）；
安装应用：双击下载的.dmg文件，将Youtu-Tip图标拖拽至「应用程序」文件夹中，完成安装；
首次启动与权限申请：打开「应用程序」中的Youtu-Tip，首次启动时系统会弹出权限申请窗口，依次授予「屏幕录制」与「辅助功能」权限（两项权限均为应用核心功能所需，不可跳过）；
完成初始化：权限授予完成后，应用会自动完成初始化配置，默认加载自研Youtu-LLM模型的基础配置，等待几秒后即可正常使用。

5.1.2 源码编译安装（适合开发人员与进阶用户）

克隆仓库：打开终端，执行以下命令克隆Youtu-Tip仓库至本地：
```
git clone https://github.com/TencentCloudADP/youtu-tip.git
cd youtu-tip
```
安装前端依赖：进入electron目录，使用pnpm安装前端依赖（需提前安装Node.js与pnpm）：
```
cd youtu-tip/electron
pnpm install
```
安装后端依赖：进入python目录，使用pip安装后端依赖（需提前安装Python 3.8+）：
```
cd ../python
pip install -r requirements.txt
```
启动应用：回到electron目录，执行启动命令，完成应用编译与启动：
```
cd ../electron
pnpm start
```
权限申请：首次启动后，按照系统提示授予「屏幕录制」与「辅助功能」权限，即可正常使用。

5.2 基础使用

Youtu-Tip的基础使用主要围绕「快捷键唤醒」「文本交互」「图片交互」三大核心操作，无需复杂配置，上手即可用。

5.2.1 快捷键唤醒与基础对话

唤醒应用：在任意界面下，按下ctrl + shift组合键，即可快速唤醒Youtu-Tip的聊天窗口，窗口默认可拖动，支持置顶显示；
基础对话：在聊天输入框中输入问题（如「如何整理MacOS的本地文件」），按下回车，AI会快速给出回复，支持自然语言的多轮对话；
关闭窗口：点击聊天窗口右上角的关闭按钮，或再次按下ctrl + shift组合键，即可关闭窗口，应用会最小化至系统托盘，保持后台运行。

5.2.2 文本上下文自动交互

这是Youtu-Tip的核心便捷功能，实现「选中文本即提问」：

在任意应用（如浏览器、文档、微信）中，用鼠标选中需要解析或提问的文本内容；
保持文本选中状态，按下ctrl + shift组合键，唤醒Youtu-Tip聊天窗口；
应用会自动将选中的文本填充至对话上下文，并显示「已识别选中的文本」提示；
直接输入你的问题（如「总结这段内容」「解释这个概念」），或直接回车让AI解析文本，即可得到针对性回复。

注意：系统默认对选中的文本进行长度限制，最长支持160字符，超出部分会自动智能截断（保留核心内容），无需手动调整。

5.2.3 图片上下文自动交互

支持对屏幕中的任意图片、界面、图表进行解析，实现「截图即提问」：

在任意界面下，按住ctrl + shift组合键不放，系统会进入截图模式，屏幕变为半透明灰色，鼠标变为十字光标；
用鼠标拖动框选需要解析的区域（可框选图片、表格、报错界面、网页内容等），框选完成后松开快捷键；
Youtu-Tip会自动对选中的区域进行截图、压缩、格式转换，然后唤醒聊天窗口，显示「已识别截图内容」提示；
输入你的问题（如「解析这个表格的数据」「说明这个报错的原因」「提取这张图片的文字」），即可让AI对图片内容进行解析与回复。

5.3 进阶功能配置

当基础使用满足需求后，用户可通过「设置页面」配置进阶功能，包括「模型切换」「GUI技能自定义」「Youtu-Agent集成」等，进一步提升Youtu-Tip的使用价值。

5.3.1 模型切换与配置

Youtu-Tip支持多源模型接入，用户可在「设置-模型」页面完成模型的添加与切换：

唤醒设置页面：在聊天窗口中，点击左下角的「设置」图标（齿轮样式），进入设置页面；
切换默认模型：在「模型列表」中，可看到已配置的模型（默认包含Youtu-LLM），点击模型右侧的「设为默认」按钮，即可切换推理模型；
添加Ollama模型：

提前在本地安装Ollama并启动服务（执行ollama serve命令），拉取需要的模型（如ollama pull llama3）；
在设置页面点击「添加模型」，选择「Ollama」模型类型，输入模型名称（如llama3）与Ollama服务地址（默认http://localhost:11434）；
点击「保存」，模型会自动加入列表，可直接设为默认模型使用；

添加OpenAI标准端点模型：

点击「添加模型」，选择「OpenAI」模型类型；
输入模型名称、API地址（如https://api.openai.com/v1）与API密钥；
点击「保存」，即可对接第三方大模型服务。

5.3.2 GUI技能自定义

通过自定义GUI技能，让Youtu-Tip掌握专属的桌面操作能力，步骤如下：

进入技能管理页面：在设置页面中，点击左侧的「GUI技能」选项，进入技能管理界面；
新建技能：

点击「新建技能」，进入技能编辑页面；
按Markdown格式编写技能内容，第一条非空行作为技能名称，后续内容为技能的执行步骤、说明、注意事项等（例如：「技能名称：自动整理下载文件夹\n执行步骤：1. 打开访达，进入下载文件夹；2. 按文件类型将文件分类至不同子文件夹；3. 删除超过30天的临时文件」）；
编写完成后点击「保存」，系统会自动为技能生成唯一标识，并加入技能列表；

管理技能：在技能列表中，可对技能进行「编辑」「删除」「启用/禁用」操作，禁用后的技能不会被AI调用；
调用自定义技能：在聊天窗口中，直接输入与技能相关的需求（如「整理我的下载文件夹」），Youtu-Tip会自动匹配对应的自定义技能，并执行相关操作。

5.3.3 Youtu-Agent集成配置

Youtu-Tip内置了Youtu-Agent的核心能力，用户可在设置页面完成Agent配置的切换，实现更强大的本地任务处理能力：

进入Agent配置页面：在设置页面中，点击左侧的「Youtu-Agent」选项；
选择配置文件：系统提供了「默认文件管理器」「带格式解析的文件管理器」等预设配置文件，不同配置文件对应不同的Agent能力（如带格式解析的配置文件支持更复杂的文档内容处理）；
重载配置：若修改了配置文件内容，点击「重载配置」按钮，即可让配置生效；
调用Agent能力：右键点击本地文件，选择「Open with - Tip」，Youtu-Tip会读取文件路径，并根据当前的Agent配置，完成文件解析、处理等操作，执行结果会实时显示在聊天窗口中。

六、常见问题解答

Q1：安装后启动Youtu-Tip，系统提示「无法打开，因为无法验证开发者」怎么办？

A：这是MacOS系统的安全机制导致的，解决方案如下：

右键点击应用程序中的Youtu-Tip图标，选择「显示包内容」；
进入「Contents/MacOS」目录，找到「youtube-tip」可执行文件；
右键点击该文件，选择「打开」，系统会弹出确认窗口，点击「打开」即可；
首次打开后，后续可直接通过图标启动应用。

Q2：启动应用后，提示「缺少屏幕录制/辅助功能权限」，但我已经授予权限了，怎么办？

A：可能是权限授予未生效，解决方案如下：

关闭Youtu-Tip应用（包括系统托盘的后台进程）；
打开MacOS的「系统设置-隐私与安全性」；
在左侧列表中找到「屏幕录制」，取消勾选Youtu-Tip，然后重新勾选；
同样在「辅助功能」中，取消勾选后重新勾选Youtu-Tip；
重新启动Youtu-Tip，权限即可正常生效。

Q3：源码编译安装时，执行pnpm install提示依赖安装失败怎么办？

A：大概率是网络问题或Node.js版本不兼容导致的，解决方案如下：

检查Node.js版本，要求为16.x及以上，可通过node -v命令查看，若版本过低，建议升级Node.js；
切换pnpm的镜像源，执行pnpm config set registry https://registry.npmmirror.com/，然后重新执行pnpm install；
若仍失败，删除electron目录下的node_modules文件夹与pnpm-lock.yaml文件，重新执行安装命令。

Q4：按下`ctrl + shift`快捷键，无法唤醒Youtu-Tip怎么办？

A：可能是快捷键冲突或应用未在后台运行，解决方案如下：

检查系统托盘，确认Youtu-Tip是否在后台运行，若未运行，重新启动应用；
打开Youtu-Tip的设置页面，进入「快捷键」选项，查看是否修改了默认唤醒快捷键，或重新设置快捷键（如ctrl + alt）；
检查是否有其他应用占用了ctrl + shift快捷键（如输入法、截图工具），暂时关闭冲突应用，测试是否能正常唤醒。

Q5：选中文本后，Youtu-Tip无法识别上下文，怎么办？

A：可能是文本长度超出限制或应用权限不足，解决方案如下：

检查选中的文本长度，若超过160字符，尝试选中核心内容（少于160字符），重新测试；
确认应用已授予「辅助功能」权限，权限未生效会导致无法读取选中的文本内容，可按照安装相关问题中的方法，重新授予权限；
尝试在不同应用中选中文本（如记事本、浏览器、文档），测试是否是特定应用的兼容性问题。

Q6：截图后，Youtu-Tip无法解析图片内容，或回复「无法识别图片」怎么办？

A：可能是图片格式不支持或图片质量过低，解决方案如下：

确认框选的截图区域是否包含有效内容，避免框选空白区域；
若截图的是高清图片或大尺寸界面，Youtu-Tip会自动压缩图片，可能导致解析失败，尝试框选较小的区域，重新截图；
检查是否授予了「屏幕录制」权限，该权限是截图功能的必要权限，未授予则无法完成截图与解析。

Q7：添加Ollama模型后，调用时提示「连接失败」怎么办？

A：可能是Ollama服务未启动或模型未拉取，解决方案如下：

打开终端，执行ollama serve命令，启动Ollama服务，确保服务正常运行（终端显示「Listening on http://localhost:11434」）；
检查是否已拉取对应的Ollama模型，执行ollama list命令，查看模型列表，若未拉取，执行ollama pull <模型名称>拉取模型；
在Youtu-Tip的模型配置页面，检查Ollama服务地址是否正确（默认http://localhost:11434），若Ollama服务运行在其他端口，需修改对应地址。

Q8：切换模型后，Youtu-Tip的响应速度变慢，怎么办？

A：响应速度与模型体量、设备性能相关，解决方案如下：

若使用的是大参数量模型（如7B及以上），本地推理速度会较慢，建议切换为轻量化模型（如Youtu-LLM、Llama 3 8B）；
关闭设备上的其他占用资源的应用（如视频剪辑软件、大型游戏），为模型推理释放CPU与内存资源；
在Youtu-Tip的设置页面，进入「模型优化」选项，降低模型的推理参数（如温度值、最大生成长度），可提升响应速度。

Q9：自定义的GUI技能，AI无法识别或执行失败怎么办？

A：可能是技能描述不清晰或步骤不可执行，解决方案如下：

检查技能的Markdown格式，确保第一条非空行是技能名称，后续步骤描述清晰、具体，避免模糊的表述（如将「整理文件」改为「将下载文件夹中的图片文件移动至图片文件夹」）；
简化技能的执行步骤，避免过于复杂的操作流程（建议单技能步骤不超过5步），复杂任务可拆分为多个简单技能；
在技能编辑页面，点击「测试技能」，查看AI是否能正确理解技能内容，根据测试结果修改技能描述。

Q10：调用Youtu-Agent处理文件时，提示「文件读取失败」怎么办？

A：可能是文件权限不足或文件格式不支持，解决方案如下：

确认要处理的文件是否为Youtu-Agent支持的格式（目前支持文档、表格、图片、纯文本文件），不支持的格式会导致读取失败；
检查文件的权限设置，确保当前用户拥有该文件的读取权限，可右键点击文件，选择「显示简介」，在「共享与权限」中修改权限；
尝试将文件移动至桌面等公共目录，重新调用Agent处理，避免因文件路径过深或包含特殊字符导致的读取问题。

Youtu-Tip：腾讯云开源的本地化、主动式离线桌面 AI 智能助手

七、相关链接

项目主仓库：https://github.com/TencentCloudADP/youtu-tip
官方Release页面：https://github.com/TencentCloudADP/youtu-tip/releases
Youtu-LLM模型文档：https://github.com/TencentCloudADP/youtu-tip/tree/master/youtu-llm

八、总结

Youtu-Tip是腾讯云ADP团队面向桌面端用户打造的一款优秀开源本地化AI助手，它以「隐私安全、交互极简、能力全面」为核心，通过全离线运行、上下文自动识别、GUI技能自定义、Agent桌面联动等功能，彻底解决了云端AI工具的隐私泄露、交互繁琐、本地任务处理能力缺失等痛点，核心基于自研Youtu-LLM轻量化模型打造，同时兼容Ollama本地模型与OpenAI SDK标准端点，降低了用户使用本地大模型的技术门槛。该项目的设计既兼顾了普通用户的易用性需求，又为开发人员提供了灵活的二次开发空间，能够广泛适配办公、学习、开发、生活等各类桌面端场景，为用户打造了「数据不出本机、能力按需定制」的桌面智能体验，是本地化AI桌面助手领域的一款极具实用性与创新性的开源产品。

打赏

版权及免责申明：本文由@AI铺子原创发布。该文章观点仅代表作者本人，不代表本站立场。本站不承担任何相关法律责任。

如若转载，请注明出处：https://www.aipuzi.cn/ai-news/youtu-tip.html

THE END

AI铺子

关注ai行业发展，专注ai工具推荐

+ 关注

Youtu-Tip：腾讯云开源的本地化、主动式离线桌面 AI 智能助手

文章目录

一、Youtu-Tip是什么

二、功能特色

2.1 极致隐私安全，全链路本地处理

2.2 极简交互入口，上下文自动识别

2.3 强大本地Agent能力，深度联动桌面系统

2.4 GUI技能自定义，打造专属自动化能力

2.5 灵活的模型适配能力，支持多源模型接入

2.6 轻量化设计，低资源占用

三、技术细节

3.1 仓库结构

3.2 核心技术栈

3.3 核心技术实现

3.3.1 前端核心逻辑：交互与系统联动

3.3.2 后端核心逻辑：模型与业务处理

3.3.3 前后端通信机制

四、应用场景

4.1 办公效率提升场景

4.2 学习辅助场景

4.3 开发与技术工作场景

4.4 日常生活与娱乐场景

五、使用方法

5.1 安装部署

5.1.1 官方安装包安装（推荐，适合普通用户）

5.1.2 源码编译安装（适合开发人员与进阶用户）

5.2 基础使用

5.2.1 快捷键唤醒与基础对话

5.2.2 文本上下文自动交互

5.2.3 图片上下文自动交互

5.3 进阶功能配置

5.3.1 模型切换与配置

5.3.2 GUI技能自定义

5.3.3 Youtu-Agent集成配置

六、常见问题解答

Q1：安装后启动Youtu-Tip，系统提示「无法打开，因为无法验证开发者」怎么办？

Q2：启动应用后，提示「缺少屏幕录制/辅助功能权限」，但我已经授予权限了，怎么办？

Q3：源码编译安装时，执行pnpm install提示依赖安装失败怎么办？

Q4：按下ctrl + shift快捷键，无法唤醒Youtu-Tip怎么办？

Q5：选中文本后，Youtu-Tip无法识别上下文，怎么办？

Q6：截图后，Youtu-Tip无法解析图片内容，或回复「无法识别图片」怎么办？

Q7：添加Ollama模型后，调用时提示「连接失败」怎么办？

Q8：切换模型后，Youtu-Tip的响应速度变慢，怎么办？

Q9：自定义的GUI技能，AI无法识别或执行失败怎么办？

Q10：调用Youtu-Agent处理文件时，提示「文件读取失败」怎么办？

七、相关链接

八、总结

相关文章

Q4：按下`ctrl + shift`快捷键，无法唤醒Youtu-Tip怎么办？