Youtu-Tip:腾讯云开源的本地化、主动式离线桌面 AI 智能助手
一、Youtu-Tip是什么
Youtu-Tip是由腾讯云ADP团队完全开源的一款本地化、主动式、全离线运行的桌面AI智能助手,是腾讯自研桌面智能体体系Youtu-Agent的轻量化、易用性扩展版本。该项目以「数据不出本机、交互无需手动、能力按需定制」为核心设计理念,聚焦桌面端的智能化人机交互场景,将大语言模型的理解与推理能力,与桌面端的操作场景深度融合,打造出一款无需依赖云端服务器、无需手动输入上下文、能够自主感知并处理本地任务的智能工具。
不同于市面上多数云端AI聊天机器人,Youtu-Tip并非简单的对话工具,而是具备「感知桌面环境-理解用户需求-规划执行步骤-完成本地任务」的全链路桌面智能体。它既保留了大模型的自然语言交互能力,又突破了云端AI工具的地域、网络与隐私限制,同时填补了传统LLM应用「需要手动复制粘贴上下文」的体验短板,目前主要适配Apple Silicon(M系列)架构的MacOS系统,后续官方将逐步完成Windows、Linux等系统的适配工作。
从项目定位来看,Youtu-Tip承担着「大模型能力桌面化落地」的核心角色:一方面,它将腾讯自研的Youtu-LLM、Youtu-VL等轻量化模型的能力封装为可视化桌面应用,降低了普通用户使用本地大模型的技术门槛;另一方面,它通过Agent技术实现了大模型与桌面系统的深度联动,让AI能够真正参与到本地文件处理、界面操作、数据整理等实际工作中,成为用户的「桌面智能助理」。

二、功能特色
Youtu-Tip的功能设计围绕「隐私优先、交互极简、能力全面、本地可控」四大核心原则展开,所有功能均针对桌面端用户的真实使用痛点打造,无冗余功能模块,核心特色可分为六大板块,且全部功能均支持离线本地化运行,无任何云端数据传输环节。
2.1 极致隐私安全,全链路本地处理
这是Youtu-Tip最核心、最基础的功能特色,也是项目立项的首要原则。Youtu-Tip从底层架构设计上就实现了「数据不出本机」的隐私保障,彻底解决了用户使用AI工具时的敏感数据泄露顾虑。
全离线运行:核心推理能力基于本地模型实现,无论是自研的Youtu-LLM/Youtu-VL,还是用户接入的Ollama本地模型,所有模型推理过程均在用户设备端完成,无需调用任何云端API接口,无网络环境也能正常使用;
数据本地留存:用户的聊天记录、选中的文本内容、截取的屏幕图片、本地文件读取内容、桌面操作指令等所有数据,均仅在设备本地存储与处理,不会上传至任何云端服务器,也无需用户注册账号、授权登录,从根源上避免了敏感数据泄露风险;
权限精细控制:首次启动仅需申请「屏幕录制」「辅助功能」两项必要权限,分别用于实现截图交互与键鼠模拟功能,且权限仅在用户使用对应功能时临时生效,无后台静默调用行为,设备令牌等敏感配置文件的权限被严格设置为0o600(仅当前用户可读写),进一步保障本地数据安全。
2.2 极简交互入口,上下文自动识别
Youtu-Tip彻底摒弃了传统AI工具「打开软件-输入问题-等待回复」的繁琐流程,打造了「一键唤醒、自动感知」的极简交互体验,填补了LLM应用「手动输入上下文」的最后一公里短板。
快捷键一键唤醒:默认通过
ctrl + shift组合键唤醒聊天窗口,无需在桌面寻找图标、无需切换应用界面,随时随地可快速调用AI能力,唤醒速度达到毫秒级,媲美系统原生工具;文本上下文自动抓取:用户在任意应用中选中文本后,按下唤醒快捷键,Youtu-Tip会自动读取选中的文本内容(默认最长支持160字符,超出部分自动智能截断),并将其作为对话上下文,无需用户手动复制、粘贴,实现「选中文本即提问」;
图片上下文智能解析:按住唤醒快捷键即可进入截图模式,用户通过鼠标框选需要解析的屏幕区域后,Youtu-Tip会自动对图片进行压缩、格式转换与Base64编码,适配模型输入要求,并将图片内容作为上下文进行理解与回复,支持图片文字识别、图表解析、界面操作指导等场景,实现「截图即提问」。
2.3 强大本地Agent能力,深度联动桌面系统
作为Youtu-Agent的扩展版本,Youtu-Tip继承了腾讯自研Agent技术的核心能力,能够实现与桌面系统的深度联动,模拟人类操作完成各类本地任务,突破了传统AI「只能说不能做」的局限。
键鼠操作模拟:通过GUI Agent技术,Youtu-Tip能够模拟鼠标的点击、拖动、滚轮,以及键盘的输入、快捷键操作等行为,可按照用户指令完成界面切换、文件打开、表单填写等自动化操作;
本地文件处理:支持读取本地各类格式文件(文档、表格、图片等),并根据用户指令完成内容解析、数据提取、格式转换、批量重命名等操作,还可通过「右键文件-Open with - Tip」的方式,快速调用AI能力处理文件;
多工具联动调用:集成了网页浏览、计算器、翻译器等常用工具能力,可根据用户需求自动调用对应工具完成任务,例如「打开浏览器搜索最新AI资讯」「计算某份表格中的数据总和」「将选中的英文文本翻译成中文」等;
流式输出执行结果:在执行复杂Agent任务时,支持流式输出步骤与结果,用户可实时查看任务执行进度,若发现操作偏差,可随时中断任务或重置会话,提升任务执行的可控性。
2.4 GUI技能自定义,打造专属自动化能力
Youtu-Tip提供了灵活的GUI技能自定义功能,允许用户像「教助手做事」一样,为模型添加专属的桌面操作技能,实现个性化的自动化需求,让AI能力能够精准匹配用户的工作流程。
无代码技能创建:用户无需掌握编程知识,仅需通过Markdown格式编写技能描述(包括技能名称、执行步骤、注意事项等),Youtu-Tip会自动解析技能文件并完成能力集成,支持「筛选低价航班」「本地照片分类整理」「办公文档格式统一」等各类自定义场景;
技能标准化管理:所有自定义技能以Markdown文件形式本地存储,系统会自动为每个技能生成唯一标识,支持技能的新增、编辑、删除、启用/禁用等全生命周期管理,用户可根据工作需求随时调整技能库;
技能智能调用:用户在对话中提及相关需求时,Youtu-Tip会自动匹配技能库中的对应能力,并按照预设步骤执行操作,无需用户手动选择技能,实现「说需求即执行」。
2.5 灵活的模型适配能力,支持多源模型接入
Youtu-Tip并未绑定单一模型,而是提供了开放的模型接入接口,支持用户根据自身需求选择不同的推理模型,兼顾了能力与灵活性。
原生支持自研模型:默认集成腾讯自研的Youtu-LLM(1.96B参数量)轻量化大语言模型与Youtu-VL(4B参数量)多模态模型,两款模型均针对本地化部署优化,推理速度快、资源占用低,且具备原生的Agent能力;
兼容Ollama本地模型:深度适配Ollama本地模型部署框架,用户只需在本地安装Ollama并启动服务,即可将任意Ollama支持的模型(如Llama 3、Qwen、Mistral等)接入Youtu-Tip,实现模型自由切换;
支持OpenAI SDK标准端点:兼容OpenAI API的接口协议,用户可将Youtu-Tip对接至符合该标准的第三方模型服务(如自建大模型服务、商业大模型API等),进一步扩展模型能力边界;
模型配置可视化:通过软件内置的「设置-模型」界面,用户可直观完成模型的添加、删除、默认模型切换等操作,无需修改配置文件,降低了模型管理的技术门槛。
2.6 轻量化设计,低资源占用
针对本地化运行场景,Youtu-Tip进行了极致的轻量化优化,确保在普通消费级设备上也能流畅运行,不会对系统性能造成明显影响。
低内存占用:核心进程运行时内存占用控制在数百MB级别,远低于同类桌面AI工具,即使同时运行多个应用,也不会出现系统卡顿;
快速启动与响应:应用启动时间小于3秒,模型推理响应速度根据任务复杂度不同,最快可达到1秒内回复,满足用户即时性需求;
后台静默运行:支持最小化至系统托盘,后台运行时几乎不占用CPU资源,用户可随时通过快捷键唤醒,不影响正常工作流程。
三、技术细节
Youtu-Tip采用「前端Electron可视化交互 + 后端Python核心逻辑」的跨端架构设计,实现了界面交互的流畅性与后端逻辑的灵活性,同时通过模块化的代码组织,让不同功能模块解耦,便于后续扩展与维护。以下从仓库结构、技术栈、核心技术实现三个维度,详细解析Youtu-Tip的技术细节。
3.1 仓库结构
Youtu-Tip的仓库结构清晰,按功能模块进行分层划分,核心代码分为Electron前端、Python后端、配置文件、文档资源四大板块,便于开发者理解与二次开发,具体结构如下:
youtu-tip/ ├── .github/ # GitHub工作流配置(CI/CD、Issue模板、PR模板) ├── youtu-tip/ # 项目核心工程目录 │ ├── electron/ # Electron前端核心代码 │ │ ├── src/main/ # 主进程:窗口管理、快捷键监听、IPC通信、日志系统 │ │ ├── src/renderer/ # 渲染进程:UI界面、用户交互、状态管理、设置页面 │ │ ├── src/preload/ # 预加载脚本:主进程与渲染进程IPC通信桥接,保障安全 │ │ ├── package.json # 前端依赖配置文件 │ │ └── tailwind.config.js # TailwindCSS样式配置 │ ├── python/ # Python后端核心逻辑 │ │ ├── app/ # 后端主应用目录 │ │ │ ├── gui_agent/ # GUI Agent模块(技能管理、图片处理、指令执行) │ │ │ ├── services/ # 核心服务(配置管理、LLM交互、Youtu-Agent集成) │ │ │ ├── api/ # WebSocket接口(流式输出、日志传输) │ │ │ └── main.py # 后端入口文件 │ │ └── requirements.txt # 后端依赖配置文件 │ ├── config/ # 应用配置文件目录(模型配置、技能配置、系统配置) │ └── scripts/ # 辅助脚本(打包、部署、依赖安装) ├── youtu-llm/ # Youtu-LLM模型文档、部署指引、技术报告 ├── docs/ # 项目文档(使用教程、截图、演示视频、开发指南) ├── README.md/ # 项目主说明文档(多语言版本) ├── README_CN.md/ ├── LICENSE/ # 开源许可证(Apache License 2.0) └── CNAME/ # GitHub Pages自定义域名配置
3.2 核心技术栈
Youtu-Tip的技术栈选择兼顾了「开发效率、运行性能、跨端兼容性」三大需求,前端聚焦可视化交互与系统联动,后端聚焦模型推理与业务逻辑,具体技术栈如下表所示:
| 技术层面 | 核心技术/框架 | 主要作用 |
|---|---|---|
| 前端框架 | Electron | 跨平台桌面应用开发,实现窗口管理、系统快捷键、托盘图标等原生功能 |
| 前端语言 | TypeScript + HTML + CSS | TypeScript保障代码可维护性,HTML/CSS实现界面渲染 |
| 前端样式 | TailwindCSS | 快速构建响应式UI,减少自定义CSS代码量 |
| 后端语言 | Python 3.8+ | 处理模型交互、Agent逻辑、图片处理等核心业务,生态丰富且易于调用AI模型 |
| 后端核心库 | asyncio + websockets | asyncio实现异步任务处理,提升并发能力;websockets实现前端与后端的流式数据传输 |
| 图片处理 | Pillow | 完成图片压缩、格式转换、Base64编码等操作,适配模型输入要求 |
| 模型交互 | OpenAI SDK + Ollama API | 实现与OpenAI标准端点、Ollama本地模型的对接,统一模型调用接口 |
| 配置管理 | PyYAML + json | 实现配置文件的读写与解析,支持可视化配置修改 |
| 日志系统 | logging(Python)+ winston(Node.js) | 实现前后端日志的分级记录与存储,便于问题排查 |
3.3 核心技术实现
3.3.1 前端核心逻辑:交互与系统联动
前端基于Electron构建,分为主进程、渲染进程与预加载脚本三个核心部分,各司其职且通过IPC通信实现数据交互,保障了应用的稳定性与安全性。
主进程:作为应用的「大脑」,负责管理所有窗口、监听系统快捷键(
ctrl + shift)、处理与系统的原生交互(如权限申请、屏幕录制、键鼠模拟)、建立与Python后端的通信连接,同时负责日志的记录与存储,以及应用的生命周期管理(启动、退出、最小化);渲染进程:负责所有可视化界面的渲染与用户交互,包括聊天窗口、设置页面、技能管理页面等,采用TailwindCSS实现样式统一,通过状态管理工具维护界面数据,将用户的操作指令通过IPC通信传递给主进程;
预加载脚本:作为主进程与渲染进程之间的「安全桥梁」,避免渲染进程直接访问Node.js原生模块与系统资源,仅暴露经过校验的API接口,防止恶意代码注入,保障应用安全。
此外,前端还实现了「上下文自动识别」的核心功能:通过系统API监听文本选中事件与截图事件,当用户按下快捷键时,快速捕获选中的文本内容或截图区域,经过简单的格式处理后,传递给后端进行模型推理。
3.3.2 后端核心逻辑:模型与业务处理
后端基于Python构建,采用模块化设计,核心负责模型交互、Agent逻辑执行、GUI技能管理、图片处理等业务,是Youtu-Tip的「能力核心」。
LLM交互模块:统一了不同模型的调用接口,支持Youtu-LLM、Ollama模型、OpenAI标准端点三种类型的模型接入,自动适配不同模型的输入输出格式,实现「一次开发,多模型兼容」;同时支持流式输出,将模型的推理结果实时传递给前端,提升用户体验;
GUI Agent模块:是实现「桌面自动化」的核心,分为技能管理与指令执行两个子模块。技能管理模块负责解析用户编写的Markdown技能文件,生成标准化的技能配置;指令执行模块负责根据模型的规划结果,调用系统API模拟键鼠操作,完成桌面任务;
图片处理模块:针对多模态交互场景优化,实现了图片的自动压缩(控制图片像素与长边长度,平衡解析效果与推理速度)、格式转换(统一转换为JPEG格式)、Base64编码(适配模型输入要求),同时针对Youtu-VL模型做了专属的输入格式适配,确保图片解析的准确性;
配置管理模块:负责处理应用的所有配置项,包括模型配置、技能配置、系统配置等,支持可视化配置修改,并对敏感配置(如Tip Cloud)做了只读限制,保障默认配置的安全性;同时将配置文件本地存储,确保离线状态下的配置有效性。
3.3.3 前后端通信机制
Youtu-Tip采用「IPC通信 + WebSocket通信」的混合通信机制,兼顾了通信的实时性与可靠性:
IPC通信:主要用于前后端之间的同步指令传递,如应用启动、配置修改、技能增删改查等,特点是传输速度快、可靠性高,适合处理短消息、指令类数据;
WebSocket通信:主要用于流式数据的传输,如模型推理的流式输出、Agent任务的执行日志、图片处理的进度反馈等,特点是支持双向实时通信,能够将后端的实时数据持续传递给前端,实现「边推理边展示」的效果。
四、应用场景
Youtu-Tip的本地化、自动化、多模态特性,使其能够适配各类桌面端工作与生活场景,尤其在办公效率提升、学习辅助、本地数据处理、自动化操作等方面表现突出,以下是具体的典型应用场景:
4.1 办公效率提升场景
办公场景是Youtu-Tip最核心的应用领域,能够有效减少重复操作,提升文档处理、数据整理、流程执行的效率。
文档快速处理:选中本地Word、Excel、PDF文档中的内容,按下快捷键即可让AI完成内容总结、关键词提取、语法纠错、格式优化等操作;右键点击文档文件,可调用AI完成批量文档格式转换、内容合并、数据提取等任务,无需手动打开软件操作;
数据智能分析:对Excel表格中的数据进行截图,Youtu-Tip可快速解析表格内容,完成数据计算、趋势分析、可视化建议等操作,还能根据数据生成分析报告,省去手动整理与分析的时间;
办公流程自动化:通过自定义GUI技能,实现办公流程的自动化,例如「自动打开邮箱并筛选未读工作邮件」「自动将微信接收到的文件分类保存至指定文件夹」「自动填写日常工作报表」等,让AI承担重复性的办公操作。
4.2 学习辅助场景
在学习场景中,Youtu-Tip能够作为「随身学习助手」,提供即时的知识解答、语言翻译、资料整理等能力,且所有学习数据本地存储,保障隐私。
即时知识解答:遇到不懂的知识点时,无需打开浏览器搜索,直接选中问题文本或截图题目,Youtu-Tip可快速给出详细的解答与思路分析,支持数学公式、编程代码、文科知识点等各类内容的解析;
多语言翻译与学习:选中任意外文文本(网页、文档、图片中的文字),一键完成中/英/日/韩等多语言互译,还能让AI对翻译内容进行语法讲解、例句补充,辅助语言学习;
学习资料整理:对网课截图、课件图片、学习笔记等内容进行解析,Youtu-Tip可自动提取关键信息,整理成结构化的笔记,还能根据资料内容生成复习提纲,提升学习效率。
4.3 开发与技术工作场景
对于开发人员与技术从业者,Youtu-Tip能够作为「桌面开发助手」,提供代码解析、问题排查、本地环境管理等能力,提升开发效率。
代码快速解析与调试:选中本地代码文件中的代码片段,按下快捷键即可让AI完成代码解释、bug排查、性能优化建议等操作;对开发过程中遇到的报错截图,AI可快速定位报错原因并给出解决方案;
本地环境管理:通过自定义技能,实现本地开发环境的自动化管理,例如「自动启动/停止本地服务(MySQL、Redis、Nginx)」「自动检查本地代码仓库的提交状态」「自动备份开发项目文件」等;
技术文档生成:根据开发需求,让AI快速生成接口文档、开发手册、测试报告等技术文档,还能对已有的技术文档进行优化与补充,减少文档编写的工作量。
4.4 日常生活与娱乐场景
在日常生活中,Youtu-Tip也能提供各类便捷服务,提升生活效率与体验。
本地文件管理:通过AI实现本地文件的智能管理,例如「根据图片拍摄时间与内容自动分类照片」「批量重命名本地视频文件」「快速查找电脑中的指定文件」等;
生活信息查询:无需打开浏览器,直接向Youtu-Tip询问天气、快递、航班等信息(对接本地模型的知识库),还能让AI根据个人需求推荐美食、旅游路线等;
娱乐与创作辅助:对本地图片进行截图,让AI完成图片编辑建议、创意修图思路生成;输入创作需求,AI可快速生成文案、故事、歌词等内容,辅助创意创作。

五、使用方法
Youtu-Tip的使用流程分为「安装部署」「基础使用」「进阶功能配置」三个阶段,整体操作简单易懂,无需复杂的技术背景,以下是详细的分步说明。
5.1 安装部署
目前Youtu-Tip仅支持Apple Silicon(M系列)架构的MacOS系统,要求系统版本为macOS 12.0及以上,安装方式分为「官方安装包安装」与「源码编译安装」两种,用户可根据自身需求选择。
5.1.1 官方安装包安装(推荐,适合普通用户)
下载安装包:访问Youtu-Tip的GitHub Release页面(链接见本文第七部分),下载最新版本的MacOS安装包(.dmg格式);
安装应用:双击下载的.dmg文件,将Youtu-Tip图标拖拽至「应用程序」文件夹中,完成安装;
首次启动与权限申请:打开「应用程序」中的Youtu-Tip,首次启动时系统会弹出权限申请窗口,依次授予「屏幕录制」与「辅助功能」权限(两项权限均为应用核心功能所需,不可跳过);
完成初始化:权限授予完成后,应用会自动完成初始化配置,默认加载自研Youtu-LLM模型的基础配置,等待几秒后即可正常使用。
5.1.2 源码编译安装(适合开发人员与进阶用户)
克隆仓库:打开终端,执行以下命令克隆Youtu-Tip仓库至本地:
git clone https://github.com/TencentCloudADP/youtu-tip.git cd youtu-tip
安装前端依赖:进入electron目录,使用pnpm安装前端依赖(需提前安装Node.js与pnpm):
cd youtu-tip/electron pnpm install
安装后端依赖:进入python目录,使用pip安装后端依赖(需提前安装Python 3.8+):
cd ../python pip install -r requirements.txt
启动应用:回到electron目录,执行启动命令,完成应用编译与启动:
cd ../electron pnpm start
权限申请:首次启动后,按照系统提示授予「屏幕录制」与「辅助功能」权限,即可正常使用。
5.2 基础使用
Youtu-Tip的基础使用主要围绕「快捷键唤醒」「文本交互」「图片交互」三大核心操作,无需复杂配置,上手即可用。
5.2.1 快捷键唤醒与基础对话
唤醒应用:在任意界面下,按下
ctrl + shift组合键,即可快速唤醒Youtu-Tip的聊天窗口,窗口默认可拖动,支持置顶显示;基础对话:在聊天输入框中输入问题(如「如何整理MacOS的本地文件」),按下回车,AI会快速给出回复,支持自然语言的多轮对话;
关闭窗口:点击聊天窗口右上角的关闭按钮,或再次按下
ctrl + shift组合键,即可关闭窗口,应用会最小化至系统托盘,保持后台运行。
5.2.2 文本上下文自动交互
这是Youtu-Tip的核心便捷功能,实现「选中文本即提问」:
在任意应用(如浏览器、文档、微信)中,用鼠标选中需要解析或提问的文本内容;
保持文本选中状态,按下
ctrl + shift组合键,唤醒Youtu-Tip聊天窗口;应用会自动将选中的文本填充至对话上下文,并显示「已识别选中的文本」提示;
直接输入你的问题(如「总结这段内容」「解释这个概念」),或直接回车让AI解析文本,即可得到针对性回复。
注意:系统默认对选中的文本进行长度限制,最长支持160字符,超出部分会自动智能截断(保留核心内容),无需手动调整。
5.2.3 图片上下文自动交互
支持对屏幕中的任意图片、界面、图表进行解析,实现「截图即提问」:
在任意界面下,按住
ctrl + shift组合键不放,系统会进入截图模式,屏幕变为半透明灰色,鼠标变为十字光标;用鼠标拖动框选需要解析的区域(可框选图片、表格、报错界面、网页内容等),框选完成后松开快捷键;
Youtu-Tip会自动对选中的区域进行截图、压缩、格式转换,然后唤醒聊天窗口,显示「已识别截图内容」提示;
输入你的问题(如「解析这个表格的数据」「说明这个报错的原因」「提取这张图片的文字」),即可让AI对图片内容进行解析与回复。
5.3 进阶功能配置
当基础使用满足需求后,用户可通过「设置页面」配置进阶功能,包括「模型切换」「GUI技能自定义」「Youtu-Agent集成」等,进一步提升Youtu-Tip的使用价值。
5.3.1 模型切换与配置
Youtu-Tip支持多源模型接入,用户可在「设置-模型」页面完成模型的添加与切换:
唤醒设置页面:在聊天窗口中,点击左下角的「设置」图标(齿轮样式),进入设置页面;
切换默认模型:在「模型列表」中,可看到已配置的模型(默认包含Youtu-LLM),点击模型右侧的「设为默认」按钮,即可切换推理模型;
添加Ollama模型:
提前在本地安装Ollama并启动服务(执行
ollama serve命令),拉取需要的模型(如ollama pull llama3);在设置页面点击「添加模型」,选择「Ollama」模型类型,输入模型名称(如llama3)与Ollama服务地址(默认http://localhost:11434);
点击「保存」,模型会自动加入列表,可直接设为默认模型使用;
添加OpenAI标准端点模型:
点击「添加模型」,选择「OpenAI」模型类型;
输入模型名称、API地址(如https://api.openai.com/v1)与API密钥;
点击「保存」,即可对接第三方大模型服务。
5.3.2 GUI技能自定义
通过自定义GUI技能,让Youtu-Tip掌握专属的桌面操作能力,步骤如下:
进入技能管理页面:在设置页面中,点击左侧的「GUI技能」选项,进入技能管理界面;
新建技能:
点击「新建技能」,进入技能编辑页面;
按Markdown格式编写技能内容,第一条非空行作为技能名称,后续内容为技能的执行步骤、说明、注意事项等(例如:「技能名称:自动整理下载文件夹\n执行步骤:1. 打开访达,进入下载文件夹;2. 按文件类型将文件分类至不同子文件夹;3. 删除超过30天的临时文件」);
编写完成后点击「保存」,系统会自动为技能生成唯一标识,并加入技能列表;
管理技能:在技能列表中,可对技能进行「编辑」「删除」「启用/禁用」操作,禁用后的技能不会被AI调用;
调用自定义技能:在聊天窗口中,直接输入与技能相关的需求(如「整理我的下载文件夹」),Youtu-Tip会自动匹配对应的自定义技能,并执行相关操作。
5.3.3 Youtu-Agent集成配置
Youtu-Tip内置了Youtu-Agent的核心能力,用户可在设置页面完成Agent配置的切换,实现更强大的本地任务处理能力:
进入Agent配置页面:在设置页面中,点击左侧的「Youtu-Agent」选项;
选择配置文件:系统提供了「默认文件管理器」「带格式解析的文件管理器」等预设配置文件,不同配置文件对应不同的Agent能力(如带格式解析的配置文件支持更复杂的文档内容处理);
重载配置:若修改了配置文件内容,点击「重载配置」按钮,即可让配置生效;
调用Agent能力:右键点击本地文件,选择「Open with - Tip」,Youtu-Tip会读取文件路径,并根据当前的Agent配置,完成文件解析、处理等操作,执行结果会实时显示在聊天窗口中。
六、常见问题解答
Q1:安装后启动Youtu-Tip,系统提示「无法打开,因为无法验证开发者」怎么办?
A:这是MacOS系统的安全机制导致的,解决方案如下:
右键点击应用程序中的Youtu-Tip图标,选择「显示包内容」;
进入「Contents/MacOS」目录,找到「youtube-tip」可执行文件;
右键点击该文件,选择「打开」,系统会弹出确认窗口,点击「打开」即可;
首次打开后,后续可直接通过图标启动应用。
Q2:启动应用后,提示「缺少屏幕录制/辅助功能权限」,但我已经授予权限了,怎么办?
A:可能是权限授予未生效,解决方案如下:
关闭Youtu-Tip应用(包括系统托盘的后台进程);
打开MacOS的「系统设置-隐私与安全性」;
在左侧列表中找到「屏幕录制」,取消勾选Youtu-Tip,然后重新勾选;
同样在「辅助功能」中,取消勾选后重新勾选Youtu-Tip;
重新启动Youtu-Tip,权限即可正常生效。
Q3:源码编译安装时,执行pnpm install提示依赖安装失败怎么办?
A:大概率是网络问题或Node.js版本不兼容导致的,解决方案如下:
检查Node.js版本,要求为16.x及以上,可通过
node -v命令查看,若版本过低,建议升级Node.js;切换pnpm的镜像源,执行
pnpm config set registry https://registry.npmmirror.com/,然后重新执行pnpm install;若仍失败,删除electron目录下的
node_modules文件夹与pnpm-lock.yaml文件,重新执行安装命令。
Q4:按下ctrl + shift快捷键,无法唤醒Youtu-Tip怎么办?
A:可能是快捷键冲突或应用未在后台运行,解决方案如下:
检查系统托盘,确认Youtu-Tip是否在后台运行,若未运行,重新启动应用;
打开Youtu-Tip的设置页面,进入「快捷键」选项,查看是否修改了默认唤醒快捷键,或重新设置快捷键(如
ctrl + alt);检查是否有其他应用占用了
ctrl + shift快捷键(如输入法、截图工具),暂时关闭冲突应用,测试是否能正常唤醒。
Q5:选中文本后,Youtu-Tip无法识别上下文,怎么办?
A:可能是文本长度超出限制或应用权限不足,解决方案如下:
检查选中的文本长度,若超过160字符,尝试选中核心内容(少于160字符),重新测试;
确认应用已授予「辅助功能」权限,权限未生效会导致无法读取选中的文本内容,可按照安装相关问题中的方法,重新授予权限;
尝试在不同应用中选中文本(如记事本、浏览器、文档),测试是否是特定应用的兼容性问题。
Q6:截图后,Youtu-Tip无法解析图片内容,或回复「无法识别图片」怎么办?
A:可能是图片格式不支持或图片质量过低,解决方案如下:
确认框选的截图区域是否包含有效内容,避免框选空白区域;
若截图的是高清图片或大尺寸界面,Youtu-Tip会自动压缩图片,可能导致解析失败,尝试框选较小的区域,重新截图;
检查是否授予了「屏幕录制」权限,该权限是截图功能的必要权限,未授予则无法完成截图与解析。
Q7:添加Ollama模型后,调用时提示「连接失败」怎么办?
A:可能是Ollama服务未启动或模型未拉取,解决方案如下:
打开终端,执行
ollama serve命令,启动Ollama服务,确保服务正常运行(终端显示「Listening on http://localhost:11434」);检查是否已拉取对应的Ollama模型,执行
ollama list命令,查看模型列表,若未拉取,执行ollama pull <模型名称>拉取模型;在Youtu-Tip的模型配置页面,检查Ollama服务地址是否正确(默认http://localhost:11434),若Ollama服务运行在其他端口,需修改对应地址。
Q8:切换模型后,Youtu-Tip的响应速度变慢,怎么办?
A:响应速度与模型体量、设备性能相关,解决方案如下:
若使用的是大参数量模型(如7B及以上),本地推理速度会较慢,建议切换为轻量化模型(如Youtu-LLM、Llama 3 8B);
关闭设备上的其他占用资源的应用(如视频剪辑软件、大型游戏),为模型推理释放CPU与内存资源;
在Youtu-Tip的设置页面,进入「模型优化」选项,降低模型的推理参数(如温度值、最大生成长度),可提升响应速度。
Q9:自定义的GUI技能,AI无法识别或执行失败怎么办?
A:可能是技能描述不清晰或步骤不可执行,解决方案如下:
检查技能的Markdown格式,确保第一条非空行是技能名称,后续步骤描述清晰、具体,避免模糊的表述(如将「整理文件」改为「将下载文件夹中的图片文件移动至图片文件夹」);
简化技能的执行步骤,避免过于复杂的操作流程(建议单技能步骤不超过5步),复杂任务可拆分为多个简单技能;
在技能编辑页面,点击「测试技能」,查看AI是否能正确理解技能内容,根据测试结果修改技能描述。
Q10:调用Youtu-Agent处理文件时,提示「文件读取失败」怎么办?
A:可能是文件权限不足或文件格式不支持,解决方案如下:
确认要处理的文件是否为Youtu-Agent支持的格式(目前支持文档、表格、图片、纯文本文件),不支持的格式会导致读取失败;
检查文件的权限设置,确保当前用户拥有该文件的读取权限,可右键点击文件,选择「显示简介」,在「共享与权限」中修改权限;
尝试将文件移动至桌面等公共目录,重新调用Agent处理,避免因文件路径过深或包含特殊字符导致的读取问题。

七、相关链接
官方Release页面:https://github.com/TencentCloudADP/youtu-tip/releases
Youtu-LLM模型文档:https://github.com/TencentCloudADP/youtu-tip/tree/master/youtu-llm
八、总结
Youtu-Tip是腾讯云ADP团队面向桌面端用户打造的一款优秀开源本地化AI助手,它以「隐私安全、交互极简、能力全面」为核心,通过全离线运行、上下文自动识别、GUI技能自定义、Agent桌面联动等功能,彻底解决了云端AI工具的隐私泄露、交互繁琐、本地任务处理能力缺失等痛点,核心基于自研Youtu-LLM轻量化模型打造,同时兼容Ollama本地模型与OpenAI SDK标准端点,降低了用户使用本地大模型的技术门槛。该项目的设计既兼顾了普通用户的易用性需求,又为开发人员提供了灵活的二次开发空间,能够广泛适配办公、学习、开发、生活等各类桌面端场景,为用户打造了「数据不出本机、能力按需定制」的桌面智能体验,是本地化AI桌面助手领域的一款极具实用性与创新性的开源产品。
版权及免责申明:本文由@AI铺子原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/youtu-tip.html

