Youtu-Tip:腾讯云开源的本地化、主动式离线桌面 AI 智能助手

原创 发布日期:
62

一、Youtu-Tip是什么

Youtu-Tip是由腾讯云ADP团队完全开源的一款本地化、主动式、全离线运行的桌面AI智能助手,是腾讯自研桌面智能体体系Youtu-Agent的轻量化、易用性扩展版本。该项目以「数据不出本机、交互无需手动、能力按需定制」为核心设计理念,聚焦桌面端的智能化人机交互场景,将大语言模型的理解与推理能力,与桌面端的操作场景深度融合,打造出一款无需依赖云端服务器、无需手动输入上下文、能够自主感知并处理本地任务的智能工具。

不同于市面上多数云端AI聊天机器人,Youtu-Tip并非简单的对话工具,而是具备「感知桌面环境-理解用户需求-规划执行步骤-完成本地任务」的全链路桌面智能体。它既保留了大模型的自然语言交互能力,又突破了云端AI工具的地域、网络与隐私限制,同时填补了传统LLM应用「需要手动复制粘贴上下文」的体验短板,目前主要适配Apple Silicon(M系列)架构的MacOS系统,后续官方将逐步完成Windows、Linux等系统的适配工作。

从项目定位来看,Youtu-Tip承担着「大模型能力桌面化落地」的核心角色:一方面,它将腾讯自研的Youtu-LLM、Youtu-VL等轻量化模型的能力封装为可视化桌面应用,降低了普通用户使用本地大模型的技术门槛;另一方面,它通过Agent技术实现了大模型与桌面系统的深度联动,让AI能够真正参与到本地文件处理、界面操作、数据整理等实际工作中,成为用户的「桌面智能助理」。

Youtu-Tip:腾讯云开源的本地化、主动式离线桌面 AI 智能助手

二、功能特色

Youtu-Tip的功能设计围绕「隐私优先、交互极简、能力全面、本地可控」四大核心原则展开,所有功能均针对桌面端用户的真实使用痛点打造,无冗余功能模块,核心特色可分为六大板块,且全部功能均支持离线本地化运行,无任何云端数据传输环节。

2.1 极致隐私安全,全链路本地处理

这是Youtu-Tip最核心、最基础的功能特色,也是项目立项的首要原则。Youtu-Tip从底层架构设计上就实现了「数据不出本机」的隐私保障,彻底解决了用户使用AI工具时的敏感数据泄露顾虑。

  • 全离线运行:核心推理能力基于本地模型实现,无论是自研的Youtu-LLM/Youtu-VL,还是用户接入的Ollama本地模型,所有模型推理过程均在用户设备端完成,无需调用任何云端API接口,无网络环境也能正常使用;

  • 数据本地留存:用户的聊天记录、选中的文本内容、截取的屏幕图片、本地文件读取内容、桌面操作指令等所有数据,均仅在设备本地存储与处理,不会上传至任何云端服务器,也无需用户注册账号、授权登录,从根源上避免了敏感数据泄露风险;

  • 权限精细控制:首次启动仅需申请「屏幕录制」「辅助功能」两项必要权限,分别用于实现截图交互与键鼠模拟功能,且权限仅在用户使用对应功能时临时生效,无后台静默调用行为,设备令牌等敏感配置文件的权限被严格设置为0o600(仅当前用户可读写),进一步保障本地数据安全。

2.2 极简交互入口,上下文自动识别

Youtu-Tip彻底摒弃了传统AI工具「打开软件-输入问题-等待回复」的繁琐流程,打造了「一键唤醒、自动感知」的极简交互体验,填补了LLM应用「手动输入上下文」的最后一公里短板。

  • 快捷键一键唤醒:默认通过ctrl + shift组合键唤醒聊天窗口,无需在桌面寻找图标、无需切换应用界面,随时随地可快速调用AI能力,唤醒速度达到毫秒级,媲美系统原生工具;

  • 文本上下文自动抓取:用户在任意应用中选中文本后,按下唤醒快捷键,Youtu-Tip会自动读取选中的文本内容(默认最长支持160字符,超出部分自动智能截断),并将其作为对话上下文,无需用户手动复制、粘贴,实现「选中文本即提问」;

  • 图片上下文智能解析:按住唤醒快捷键即可进入截图模式,用户通过鼠标框选需要解析的屏幕区域后,Youtu-Tip会自动对图片进行压缩、格式转换与Base64编码,适配模型输入要求,并将图片内容作为上下文进行理解与回复,支持图片文字识别、图表解析、界面操作指导等场景,实现「截图即提问」。

2.3 强大本地Agent能力,深度联动桌面系统

作为Youtu-Agent的扩展版本,Youtu-Tip继承了腾讯自研Agent技术的核心能力,能够实现与桌面系统的深度联动,模拟人类操作完成各类本地任务,突破了传统AI「只能说不能做」的局限。

  • 键鼠操作模拟:通过GUI Agent技术,Youtu-Tip能够模拟鼠标的点击、拖动、滚轮,以及键盘的输入、快捷键操作等行为,可按照用户指令完成界面切换、文件打开、表单填写等自动化操作;

  • 本地文件处理:支持读取本地各类格式文件(文档、表格、图片等),并根据用户指令完成内容解析、数据提取、格式转换、批量重命名等操作,还可通过「右键文件-Open with - Tip」的方式,快速调用AI能力处理文件;

  • 多工具联动调用:集成了网页浏览、计算器、翻译器等常用工具能力,可根据用户需求自动调用对应工具完成任务,例如「打开浏览器搜索最新AI资讯」「计算某份表格中的数据总和」「将选中的英文文本翻译成中文」等;

  • 流式输出执行结果:在执行复杂Agent任务时,支持流式输出步骤与结果,用户可实时查看任务执行进度,若发现操作偏差,可随时中断任务或重置会话,提升任务执行的可控性。

2.4 GUI技能自定义,打造专属自动化能力

Youtu-Tip提供了灵活的GUI技能自定义功能,允许用户像「教助手做事」一样,为模型添加专属的桌面操作技能,实现个性化的自动化需求,让AI能力能够精准匹配用户的工作流程。

  • 无代码技能创建:用户无需掌握编程知识,仅需通过Markdown格式编写技能描述(包括技能名称、执行步骤、注意事项等),Youtu-Tip会自动解析技能文件并完成能力集成,支持「筛选低价航班」「本地照片分类整理」「办公文档格式统一」等各类自定义场景;

  • 技能标准化管理:所有自定义技能以Markdown文件形式本地存储,系统会自动为每个技能生成唯一标识,支持技能的新增、编辑、删除、启用/禁用等全生命周期管理,用户可根据工作需求随时调整技能库;

  • 技能智能调用:用户在对话中提及相关需求时,Youtu-Tip会自动匹配技能库中的对应能力,并按照预设步骤执行操作,无需用户手动选择技能,实现「说需求即执行」。

2.5 灵活的模型适配能力,支持多源模型接入

Youtu-Tip并未绑定单一模型,而是提供了开放的模型接入接口,支持用户根据自身需求选择不同的推理模型,兼顾了能力与灵活性。

  • 原生支持自研模型:默认集成腾讯自研的Youtu-LLM(1.96B参数量)轻量化大语言模型与Youtu-VL(4B参数量)多模态模型,两款模型均针对本地化部署优化,推理速度快、资源占用低,且具备原生的Agent能力;

  • 兼容Ollama本地模型:深度适配Ollama本地模型部署框架,用户只需在本地安装Ollama并启动服务,即可将任意Ollama支持的模型(如Llama 3、Qwen、Mistral等)接入Youtu-Tip,实现模型自由切换;

  • 支持OpenAI SDK标准端点:兼容OpenAI API的接口协议,用户可将Youtu-Tip对接至符合该标准的第三方模型服务(如自建大模型服务、商业大模型API等),进一步扩展模型能力边界;

  • 模型配置可视化:通过软件内置的「设置-模型」界面,用户可直观完成模型的添加、删除、默认模型切换等操作,无需修改配置文件,降低了模型管理的技术门槛。

2.6 轻量化设计,低资源占用

针对本地化运行场景,Youtu-Tip进行了极致的轻量化优化,确保在普通消费级设备上也能流畅运行,不会对系统性能造成明显影响。

  • 低内存占用:核心进程运行时内存占用控制在数百MB级别,远低于同类桌面AI工具,即使同时运行多个应用,也不会出现系统卡顿;

  • 快速启动与响应:应用启动时间小于3秒,模型推理响应速度根据任务复杂度不同,最快可达到1秒内回复,满足用户即时性需求;

  • 后台静默运行:支持最小化至系统托盘,后台运行时几乎不占用CPU资源,用户可随时通过快捷键唤醒,不影响正常工作流程。

三、技术细节

Youtu-Tip采用「前端Electron可视化交互 + 后端Python核心逻辑」的跨端架构设计,实现了界面交互的流畅性与后端逻辑的灵活性,同时通过模块化的代码组织,让不同功能模块解耦,便于后续扩展与维护。以下从仓库结构、技术栈、核心技术实现三个维度,详细解析Youtu-Tip的技术细节。

3.1 仓库结构

Youtu-Tip的仓库结构清晰,按功能模块进行分层划分,核心代码分为Electron前端、Python后端、配置文件、文档资源四大板块,便于开发者理解与二次开发,具体结构如下:

youtu-tip/
├── .github/      # GitHub工作流配置(CI/CD、Issue模板、PR模板)
├── youtu-tip/     # 项目核心工程目录
│  ├── electron/    # Electron前端核心代码
│  │  ├── src/main/  # 主进程:窗口管理、快捷键监听、IPC通信、日志系统
│  │  ├── src/renderer/ # 渲染进程:UI界面、用户交互、状态管理、设置页面
│  │  ├── src/preload/ # 预加载脚本:主进程与渲染进程IPC通信桥接,保障安全
│  │  ├── package.json # 前端依赖配置文件
│  │  └── tailwind.config.js # TailwindCSS样式配置
│  ├── python/     # Python后端核心逻辑
│  │  ├── app/    # 后端主应用目录
│  │  │  ├── gui_agent/ # GUI Agent模块(技能管理、图片处理、指令执行)
│  │  │  ├── services/ # 核心服务(配置管理、LLM交互、Youtu-Agent集成)
│  │  │  ├── api/    # WebSocket接口(流式输出、日志传输)
│  │  │  └── main.py  # 后端入口文件
│  │  └── requirements.txt # 后端依赖配置文件
│  ├── config/     # 应用配置文件目录(模型配置、技能配置、系统配置)
│  └── scripts/    # 辅助脚本(打包、部署、依赖安装)
├── youtu-llm/     # Youtu-LLM模型文档、部署指引、技术报告
├── docs/        # 项目文档(使用教程、截图、演示视频、开发指南)
├── README.md/     # 项目主说明文档(多语言版本)
├── README_CN.md/
├── LICENSE/      # 开源许可证(Apache License 2.0)
└── CNAME/       # GitHub Pages自定义域名配置

3.2 核心技术栈

Youtu-Tip的技术栈选择兼顾了「开发效率、运行性能、跨端兼容性」三大需求,前端聚焦可视化交互与系统联动,后端聚焦模型推理与业务逻辑,具体技术栈如下表所示:

技术层面 核心技术/框架 主要作用
前端框架 Electron 跨平台桌面应用开发,实现窗口管理、系统快捷键、托盘图标等原生功能
前端语言 TypeScript + HTML + CSS TypeScript保障代码可维护性,HTML/CSS实现界面渲染
前端样式 TailwindCSS 快速构建响应式UI,减少自定义CSS代码量
后端语言 Python 3.8+ 处理模型交互、Agent逻辑、图片处理等核心业务,生态丰富且易于调用AI模型
后端核心库 asyncio + websockets asyncio实现异步任务处理,提升并发能力;websockets实现前端与后端的流式数据传输
图片处理 Pillow 完成图片压缩、格式转换、Base64编码等操作,适配模型输入要求
模型交互 OpenAI SDK + Ollama API 实现与OpenAI标准端点、Ollama本地模型的对接,统一模型调用接口
配置管理 PyYAML + json 实现配置文件的读写与解析,支持可视化配置修改
日志系统 logging(Python)+ winston(Node.js) 实现前后端日志的分级记录与存储,便于问题排查

3.3 核心技术实现

3.3.1 前端核心逻辑:交互与系统联动

前端基于Electron构建,分为主进程、渲染进程与预加载脚本三个核心部分,各司其职且通过IPC通信实现数据交互,保障了应用的稳定性与安全性。

  • 主进程:作为应用的「大脑」,负责管理所有窗口、监听系统快捷键(ctrl + shift)、处理与系统的原生交互(如权限申请、屏幕录制、键鼠模拟)、建立与Python后端的通信连接,同时负责日志的记录与存储,以及应用的生命周期管理(启动、退出、最小化);

  • 渲染进程:负责所有可视化界面的渲染与用户交互,包括聊天窗口、设置页面、技能管理页面等,采用TailwindCSS实现样式统一,通过状态管理工具维护界面数据,将用户的操作指令通过IPC通信传递给主进程;

  • 预加载脚本:作为主进程与渲染进程之间的「安全桥梁」,避免渲染进程直接访问Node.js原生模块与系统资源,仅暴露经过校验的API接口,防止恶意代码注入,保障应用安全。

此外,前端还实现了「上下文自动识别」的核心功能:通过系统API监听文本选中事件与截图事件,当用户按下快捷键时,快速捕获选中的文本内容或截图区域,经过简单的格式处理后,传递给后端进行模型推理。

3.3.2 后端核心逻辑:模型与业务处理

后端基于Python构建,采用模块化设计,核心负责模型交互、Agent逻辑执行、GUI技能管理、图片处理等业务,是Youtu-Tip的「能力核心」。

  • LLM交互模块:统一了不同模型的调用接口,支持Youtu-LLM、Ollama模型、OpenAI标准端点三种类型的模型接入,自动适配不同模型的输入输出格式,实现「一次开发,多模型兼容」;同时支持流式输出,将模型的推理结果实时传递给前端,提升用户体验;

  • GUI Agent模块:是实现「桌面自动化」的核心,分为技能管理与指令执行两个子模块。技能管理模块负责解析用户编写的Markdown技能文件,生成标准化的技能配置;指令执行模块负责根据模型的规划结果,调用系统API模拟键鼠操作,完成桌面任务;

  • 图片处理模块:针对多模态交互场景优化,实现了图片的自动压缩(控制图片像素与长边长度,平衡解析效果与推理速度)、格式转换(统一转换为JPEG格式)、Base64编码(适配模型输入要求),同时针对Youtu-VL模型做了专属的输入格式适配,确保图片解析的准确性;

  • 配置管理模块:负责处理应用的所有配置项,包括模型配置、技能配置、系统配置等,支持可视化配置修改,并对敏感配置(如Tip Cloud)做了只读限制,保障默认配置的安全性;同时将配置文件本地存储,确保离线状态下的配置有效性。

3.3.3 前后端通信机制

Youtu-Tip采用「IPC通信 + WebSocket通信」的混合通信机制,兼顾了通信的实时性与可靠性:

  • IPC通信:主要用于前后端之间的同步指令传递,如应用启动、配置修改、技能增删改查等,特点是传输速度快、可靠性高,适合处理短消息、指令类数据;

  • WebSocket通信:主要用于流式数据的传输,如模型推理的流式输出、Agent任务的执行日志、图片处理的进度反馈等,特点是支持双向实时通信,能够将后端的实时数据持续传递给前端,实现「边推理边展示」的效果。

四、应用场景

Youtu-Tip的本地化、自动化、多模态特性,使其能够适配各类桌面端工作与生活场景,尤其在办公效率提升、学习辅助、本地数据处理、自动化操作等方面表现突出,以下是具体的典型应用场景:

4.1 办公效率提升场景

办公场景是Youtu-Tip最核心的应用领域,能够有效减少重复操作,提升文档处理、数据整理、流程执行的效率。

  • 文档快速处理:选中本地Word、Excel、PDF文档中的内容,按下快捷键即可让AI完成内容总结、关键词提取、语法纠错、格式优化等操作;右键点击文档文件,可调用AI完成批量文档格式转换、内容合并、数据提取等任务,无需手动打开软件操作;

  • 数据智能分析:对Excel表格中的数据进行截图,Youtu-Tip可快速解析表格内容,完成数据计算、趋势分析、可视化建议等操作,还能根据数据生成分析报告,省去手动整理与分析的时间;

  • 办公流程自动化:通过自定义GUI技能,实现办公流程的自动化,例如「自动打开邮箱并筛选未读工作邮件」「自动将微信接收到的文件分类保存至指定文件夹」「自动填写日常工作报表」等,让AI承担重复性的办公操作。

4.2 学习辅助场景

在学习场景中,Youtu-Tip能够作为「随身学习助手」,提供即时的知识解答、语言翻译、资料整理等能力,且所有学习数据本地存储,保障隐私。

  • 即时知识解答:遇到不懂的知识点时,无需打开浏览器搜索,直接选中问题文本或截图题目,Youtu-Tip可快速给出详细的解答与思路分析,支持数学公式、编程代码、文科知识点等各类内容的解析;

  • 多语言翻译与学习:选中任意外文文本(网页、文档、图片中的文字),一键完成中/英/日/韩等多语言互译,还能让AI对翻译内容进行语法讲解、例句补充,辅助语言学习;

  • 学习资料整理:对网课截图、课件图片、学习笔记等内容进行解析,Youtu-Tip可自动提取关键信息,整理成结构化的笔记,还能根据资料内容生成复习提纲,提升学习效率。

4.3 开发与技术工作场景

对于开发人员与技术从业者,Youtu-Tip能够作为「桌面开发助手」,提供代码解析、问题排查、本地环境管理等能力,提升开发效率。

  • 代码快速解析与调试:选中本地代码文件中的代码片段,按下快捷键即可让AI完成代码解释、bug排查、性能优化建议等操作;对开发过程中遇到的报错截图,AI可快速定位报错原因并给出解决方案;

  • 本地环境管理:通过自定义技能,实现本地开发环境的自动化管理,例如「自动启动/停止本地服务(MySQL、Redis、Nginx)」「自动检查本地代码仓库的提交状态」「自动备份开发项目文件」等;

  • 技术文档生成:根据开发需求,让AI快速生成接口文档、开发手册、测试报告等技术文档,还能对已有的技术文档进行优化与补充,减少文档编写的工作量。

4.4 日常生活与娱乐场景

在日常生活中,Youtu-Tip也能提供各类便捷服务,提升生活效率与体验。

  • 本地文件管理:通过AI实现本地文件的智能管理,例如「根据图片拍摄时间与内容自动分类照片」「批量重命名本地视频文件」「快速查找电脑中的指定文件」等;

  • 生活信息查询:无需打开浏览器,直接向Youtu-Tip询问天气、快递、航班等信息(对接本地模型的知识库),还能让AI根据个人需求推荐美食、旅游路线等;

  • 娱乐与创作辅助:对本地图片进行截图,让AI完成图片编辑建议、创意修图思路生成;输入创作需求,AI可快速生成文案、故事、歌词等内容,辅助创意创作。

Youtu-Tip:腾讯云开源的本地化、主动式离线桌面 AI 智能助手

五、使用方法

Youtu-Tip的使用流程分为「安装部署」「基础使用」「进阶功能配置」三个阶段,整体操作简单易懂,无需复杂的技术背景,以下是详细的分步说明。

5.1 安装部署

目前Youtu-Tip仅支持Apple Silicon(M系列)架构的MacOS系统,要求系统版本为macOS 12.0及以上,安装方式分为「官方安装包安装」与「源码编译安装」两种,用户可根据自身需求选择。

5.1.1 官方安装包安装(推荐,适合普通用户)

  1. 下载安装包:访问Youtu-Tip的GitHub Release页面(链接见本文第七部分),下载最新版本的MacOS安装包(.dmg格式);

  2. 安装应用:双击下载的.dmg文件,将Youtu-Tip图标拖拽至「应用程序」文件夹中,完成安装;

  3. 首次启动与权限申请:打开「应用程序」中的Youtu-Tip,首次启动时系统会弹出权限申请窗口,依次授予「屏幕录制」与「辅助功能」权限(两项权限均为应用核心功能所需,不可跳过);

  4. 完成初始化:权限授予完成后,应用会自动完成初始化配置,默认加载自研Youtu-LLM模型的基础配置,等待几秒后即可正常使用。

5.1.2 源码编译安装(适合开发人员与进阶用户)

  1. 克隆仓库:打开终端,执行以下命令克隆Youtu-Tip仓库至本地:

    git clone https://github.com/TencentCloudADP/youtu-tip.git
    cd youtu-tip
  2. 安装前端依赖:进入electron目录,使用pnpm安装前端依赖(需提前安装Node.js与pnpm):

    cd youtu-tip/electron
    pnpm install
  3. 安装后端依赖:进入python目录,使用pip安装后端依赖(需提前安装Python 3.8+):

    cd ../python
    pip install -r requirements.txt
  4. 启动应用:回到electron目录,执行启动命令,完成应用编译与启动:

    cd ../electron
    pnpm start
  5. 权限申请:首次启动后,按照系统提示授予「屏幕录制」与「辅助功能」权限,即可正常使用。

5.2 基础使用

Youtu-Tip的基础使用主要围绕「快捷键唤醒」「文本交互」「图片交互」三大核心操作,无需复杂配置,上手即可用。

5.2.1 快捷键唤醒与基础对话

  • 唤醒应用:在任意界面下,按下ctrl + shift组合键,即可快速唤醒Youtu-Tip的聊天窗口,窗口默认可拖动,支持置顶显示;

  • 基础对话:在聊天输入框中输入问题(如「如何整理MacOS的本地文件」),按下回车,AI会快速给出回复,支持自然语言的多轮对话;

  • 关闭窗口:点击聊天窗口右上角的关闭按钮,或再次按下ctrl + shift组合键,即可关闭窗口,应用会最小化至系统托盘,保持后台运行。

5.2.2 文本上下文自动交互

这是Youtu-Tip的核心便捷功能,实现「选中文本即提问」:

  1. 在任意应用(如浏览器、文档、微信)中,用鼠标选中需要解析或提问的文本内容;

  2. 保持文本选中状态,按下ctrl + shift组合键,唤醒Youtu-Tip聊天窗口;

  3. 应用会自动将选中的文本填充至对话上下文,并显示「已识别选中的文本」提示;

  4. 直接输入你的问题(如「总结这段内容」「解释这个概念」),或直接回车让AI解析文本,即可得到针对性回复。

注意:系统默认对选中的文本进行长度限制,最长支持160字符,超出部分会自动智能截断(保留核心内容),无需手动调整。

5.2.3 图片上下文自动交互

支持对屏幕中的任意图片、界面、图表进行解析,实现「截图即提问」:

  1. 在任意界面下,按住ctrl + shift组合键不放,系统会进入截图模式,屏幕变为半透明灰色,鼠标变为十字光标;

  2. 用鼠标拖动框选需要解析的区域(可框选图片、表格、报错界面、网页内容等),框选完成后松开快捷键;

  3. Youtu-Tip会自动对选中的区域进行截图、压缩、格式转换,然后唤醒聊天窗口,显示「已识别截图内容」提示;

  4. 输入你的问题(如「解析这个表格的数据」「说明这个报错的原因」「提取这张图片的文字」),即可让AI对图片内容进行解析与回复。

5.3 进阶功能配置

当基础使用满足需求后,用户可通过「设置页面」配置进阶功能,包括「模型切换」「GUI技能自定义」「Youtu-Agent集成」等,进一步提升Youtu-Tip的使用价值。

5.3.1 模型切换与配置

Youtu-Tip支持多源模型接入,用户可在「设置-模型」页面完成模型的添加与切换:

  1. 唤醒设置页面:在聊天窗口中,点击左下角的「设置」图标(齿轮样式),进入设置页面;

  2. 切换默认模型:在「模型列表」中,可看到已配置的模型(默认包含Youtu-LLM),点击模型右侧的「设为默认」按钮,即可切换推理模型;

  3. 添加Ollama模型

    • 提前在本地安装Ollama并启动服务(执行ollama serve命令),拉取需要的模型(如ollama pull llama3);

    • 在设置页面点击「添加模型」,选择「Ollama」模型类型,输入模型名称(如llama3)与Ollama服务地址(默认http://localhost:11434);

    • 点击「保存」,模型会自动加入列表,可直接设为默认模型使用;

  4. 添加OpenAI标准端点模型

    • 点击「添加模型」,选择「OpenAI」模型类型;

    • 输入模型名称、API地址(如https://api.openai.com/v1)与API密钥;

    • 点击「保存」,即可对接第三方大模型服务。

5.3.2 GUI技能自定义

通过自定义GUI技能,让Youtu-Tip掌握专属的桌面操作能力,步骤如下:

  1. 进入技能管理页面:在设置页面中,点击左侧的「GUI技能」选项,进入技能管理界面;

  2. 新建技能

    • 点击「新建技能」,进入技能编辑页面;

    • 按Markdown格式编写技能内容,第一条非空行作为技能名称,后续内容为技能的执行步骤、说明、注意事项等(例如:「技能名称:自动整理下载文件夹\n执行步骤:1. 打开访达,进入下载文件夹;2. 按文件类型将文件分类至不同子文件夹;3. 删除超过30天的临时文件」);

    • 编写完成后点击「保存」,系统会自动为技能生成唯一标识,并加入技能列表;

  3. 管理技能:在技能列表中,可对技能进行「编辑」「删除」「启用/禁用」操作,禁用后的技能不会被AI调用;

  4. 调用自定义技能:在聊天窗口中,直接输入与技能相关的需求(如「整理我的下载文件夹」),Youtu-Tip会自动匹配对应的自定义技能,并执行相关操作。

5.3.3 Youtu-Agent集成配置

Youtu-Tip内置了Youtu-Agent的核心能力,用户可在设置页面完成Agent配置的切换,实现更强大的本地任务处理能力:

  1. 进入Agent配置页面:在设置页面中,点击左侧的「Youtu-Agent」选项;

  2. 选择配置文件:系统提供了「默认文件管理器」「带格式解析的文件管理器」等预设配置文件,不同配置文件对应不同的Agent能力(如带格式解析的配置文件支持更复杂的文档内容处理);

  3. 重载配置:若修改了配置文件内容,点击「重载配置」按钮,即可让配置生效;

  4. 调用Agent能力:右键点击本地文件,选择「Open with - Tip」,Youtu-Tip会读取文件路径,并根据当前的Agent配置,完成文件解析、处理等操作,执行结果会实时显示在聊天窗口中。

六、常见问题解答

Q1:安装后启动Youtu-Tip,系统提示「无法打开,因为无法验证开发者」怎么办?

A:这是MacOS系统的安全机制导致的,解决方案如下:

  1. 右键点击应用程序中的Youtu-Tip图标,选择「显示包内容」;

  2. 进入「Contents/MacOS」目录,找到「youtube-tip」可执行文件;

  3. 右键点击该文件,选择「打开」,系统会弹出确认窗口,点击「打开」即可;

  4. 首次打开后,后续可直接通过图标启动应用。

Q2:启动应用后,提示「缺少屏幕录制/辅助功能权限」,但我已经授予权限了,怎么办?

A:可能是权限授予未生效,解决方案如下:

  1. 关闭Youtu-Tip应用(包括系统托盘的后台进程);

  2. 打开MacOS的「系统设置-隐私与安全性」;

  3. 在左侧列表中找到「屏幕录制」,取消勾选Youtu-Tip,然后重新勾选;

  4. 同样在「辅助功能」中,取消勾选后重新勾选Youtu-Tip;

  5. 重新启动Youtu-Tip,权限即可正常生效。

Q3:源码编译安装时,执行pnpm install提示依赖安装失败怎么办?

A:大概率是网络问题或Node.js版本不兼容导致的,解决方案如下:

  1. 检查Node.js版本,要求为16.x及以上,可通过node -v命令查看,若版本过低,建议升级Node.js;

  2. 切换pnpm的镜像源,执行pnpm config set registry https://registry.npmmirror.com/,然后重新执行pnpm install

  3. 若仍失败,删除electron目录下的node_modules文件夹与pnpm-lock.yaml文件,重新执行安装命令。

Q4:按下ctrl + shift快捷键,无法唤醒Youtu-Tip怎么办?

A:可能是快捷键冲突或应用未在后台运行,解决方案如下:

  1. 检查系统托盘,确认Youtu-Tip是否在后台运行,若未运行,重新启动应用;

  2. 打开Youtu-Tip的设置页面,进入「快捷键」选项,查看是否修改了默认唤醒快捷键,或重新设置快捷键(如ctrl + alt);

  3. 检查是否有其他应用占用了ctrl + shift快捷键(如输入法、截图工具),暂时关闭冲突应用,测试是否能正常唤醒。

Q5:选中文本后,Youtu-Tip无法识别上下文,怎么办?

A:可能是文本长度超出限制或应用权限不足,解决方案如下:

  1. 检查选中的文本长度,若超过160字符,尝试选中核心内容(少于160字符),重新测试;

  2. 确认应用已授予「辅助功能」权限,权限未生效会导致无法读取选中的文本内容,可按照安装相关问题中的方法,重新授予权限;

  3. 尝试在不同应用中选中文本(如记事本、浏览器、文档),测试是否是特定应用的兼容性问题。

Q6:截图后,Youtu-Tip无法解析图片内容,或回复「无法识别图片」怎么办?

A:可能是图片格式不支持或图片质量过低,解决方案如下:

  1. 确认框选的截图区域是否包含有效内容,避免框选空白区域;

  2. 若截图的是高清图片或大尺寸界面,Youtu-Tip会自动压缩图片,可能导致解析失败,尝试框选较小的区域,重新截图;

  3. 检查是否授予了「屏幕录制」权限,该权限是截图功能的必要权限,未授予则无法完成截图与解析。

Q7:添加Ollama模型后,调用时提示「连接失败」怎么办?

A:可能是Ollama服务未启动或模型未拉取,解决方案如下:

  1. 打开终端,执行ollama serve命令,启动Ollama服务,确保服务正常运行(终端显示「Listening on http://localhost:11434」);

  2. 检查是否已拉取对应的Ollama模型,执行ollama list命令,查看模型列表,若未拉取,执行ollama pull <模型名称>拉取模型;

  3. 在Youtu-Tip的模型配置页面,检查Ollama服务地址是否正确(默认http://localhost:11434),若Ollama服务运行在其他端口,需修改对应地址。

Q8:切换模型后,Youtu-Tip的响应速度变慢,怎么办?

A:响应速度与模型体量、设备性能相关,解决方案如下:

  1. 若使用的是大参数量模型(如7B及以上),本地推理速度会较慢,建议切换为轻量化模型(如Youtu-LLM、Llama 3 8B);

  2. 关闭设备上的其他占用资源的应用(如视频剪辑软件、大型游戏),为模型推理释放CPU与内存资源;

  3. 在Youtu-Tip的设置页面,进入「模型优化」选项,降低模型的推理参数(如温度值、最大生成长度),可提升响应速度。

Q9:自定义的GUI技能,AI无法识别或执行失败怎么办?

A:可能是技能描述不清晰或步骤不可执行,解决方案如下:

  1. 检查技能的Markdown格式,确保第一条非空行是技能名称,后续步骤描述清晰、具体,避免模糊的表述(如将「整理文件」改为「将下载文件夹中的图片文件移动至图片文件夹」);

  2. 简化技能的执行步骤,避免过于复杂的操作流程(建议单技能步骤不超过5步),复杂任务可拆分为多个简单技能;

  3. 在技能编辑页面,点击「测试技能」,查看AI是否能正确理解技能内容,根据测试结果修改技能描述。

Q10:调用Youtu-Agent处理文件时,提示「文件读取失败」怎么办?

A:可能是文件权限不足或文件格式不支持,解决方案如下:

  1. 确认要处理的文件是否为Youtu-Agent支持的格式(目前支持文档、表格、图片、纯文本文件),不支持的格式会导致读取失败;

  2. 检查文件的权限设置,确保当前用户拥有该文件的读取权限,可右键点击文件,选择「显示简介」,在「共享与权限」中修改权限;

  3. 尝试将文件移动至桌面等公共目录,重新调用Agent处理,避免因文件路径过深或包含特殊字符导致的读取问题。

Youtu-Tip:腾讯云开源的本地化、主动式离线桌面 AI 智能助手

七、相关链接

  1. 项目主仓库https://github.com/TencentCloudADP/youtu-tip

  2. 官方Release页面https://github.com/TencentCloudADP/youtu-tip/releases

  3. Youtu-LLM模型文档https://github.com/TencentCloudADP/youtu-tip/tree/master/youtu-llm

八、总结

Youtu-Tip是腾讯云ADP团队面向桌面端用户打造的一款优秀开源本地化AI助手,它以「隐私安全、交互极简、能力全面」为核心,通过全离线运行、上下文自动识别、GUI技能自定义、Agent桌面联动等功能,彻底解决了云端AI工具的隐私泄露、交互繁琐、本地任务处理能力缺失等痛点,核心基于自研Youtu-LLM轻量化模型打造,同时兼容Ollama本地模型与OpenAI SDK标准端点,降低了用户使用本地大模型的技术门槛。该项目的设计既兼顾了普通用户的易用性需求,又为开发人员提供了灵活的二次开发空间,能够广泛适配办公、学习、开发、生活等各类桌面端场景,为用户打造了「数据不出本机、能力按需定制」的桌面智能体验,是本地化AI桌面助手领域的一款极具实用性与创新性的开源产品。

打赏
THE END
作者头像
AI铺子
关注ai行业发展,专注ai工具推荐