Handy(离线语音转文字工具)

  • 软件版本:0.5.4
  • 软件类型:音频工具
  • 软件语言:简体中文
  • 运行环境:Windows,MacOS,Linux
  • 软件大小:10.3 MB
  • 发布时间:

Handy是什么

Handy是一款完全免费、开源且可扩展的离线语音转文字(Speech-to-Text)桌面应用程序,专为注重隐私与自由的用户设计。它无需连接互联网,所有语音处理均在本地完成,确保你的声音永远不会上传到云端。基于 Tauri 框架(Rust + React/TypeScript) 构建,Handy 支持 Windows、macOS 和 Linux 三大主流操作系统,通过一键快捷键即可将你说的话实时转化为文本,并自动粘贴到任意文本输入框中,真正实现“说话即输入”。

Handy 诞生于对现有语音识别工具的反思:大多数商业产品依赖云服务,存在隐私泄露风险;而少数本地化方案又往往封闭或难以定制。为此,开发者创建了 Handy——一个真正开放、透明、社区共建的语音输入解决方案。

该项目采用现代化技术栈:

  • 前端界面:React + TypeScript + Tailwind CSS,简洁直观

  • 后端逻辑:Rust 编写,高效稳定,负责音频采集、系统事件监听和机器学习推理

  • 核心引擎:

    • whisper-rs:支持 OpenAI Whisper 模型的本地运行(small/medium/turbo/large)

    • transcription-rs:集成 Parakeet V3 模型,CPU 友好,具备自动语言检测能力

  • 底层库支持:

    • cpal:跨平台音频输入

    • vad-rs:基于 Silero 的语音活动检测(VAD),精准识别何时开始说话

    • rdev:全局快捷键注册

    • rubato:高质量音频重采样

整个流程完全在设备本地执行,从录音 → 静音过滤 → 语音识别 → 文本输出,全程不联网。

软件功能

功能 描述
🔊 离线语音识别 所有语音数据保留在本地,绝不发送至任何服务器
⌨️ 快捷键触发 自定义键盘快捷键启动/停止录音(如 Ctrl+Space)
🖱️ 推送通话模式 支持“按住说话”模式,类似对讲机操作
🌐 多语言识别 Parakeet V3 支持自动语言检测,无需手动选择语种
💡 GPU 加速 使用 Whisper 模型时,若有 NVIDIA/AMD/Intel 显卡可启用 GPU 推理加速
🧩 多模型支持 用户可自由切换 Whisper 小/中/大模型 或 Parakeet V3 CPU 优化模型
🛠️ 调试模式 开发者可用 Ctrl+Shift+D(Win/Linux)或 Cmd+Shift+D(Mac)进入调试视图
🔄 实时粘贴 识别完成后,文本直接插入当前光标位置的应用程序(浏览器、文档、聊天软件等)

软件特色

1. 极致隐私保护

“你的声音属于你自己。”
Handy 不收集、不上传、不记录任何语音片段,所有计算都在你自己的电脑上完成。

2. 高度可扩展性(Forkable by Design)

代码结构清晰,模块化设计,鼓励开发者 Fork 项目并进行二次开发。无论是添加新模型、改进 UI 还是集成 AI 编辑器,都可以轻松实现。

3. 灵活的模型选择

  • Whisper 系列模型:精度高,适合高性能设备

  • Parakeet V3:轻量级 CPU 模型,可在老旧设备上流畅运行(最低支持 Intel Skylake)

4. 真正的跨平台支持

支持:

  • macOS(Intel 与 Apple Silicon)

  • Windows x64

  • Linux(推荐 Ubuntu 22.04 / 24.04)

5. 简单易用,专注核心任务

没有复杂的菜单和多余功能,只有一个目标:把你说的话变成文字,放进文本框里。

6. 免安装 CLI 版本可用

除了图形界面版,还提供原始 Python 命令行版本(Handy CLI),便于脚本集成与自动化使用。

使用方法

第一步:下载与安装

  1. 访问AI铺子软件下载页

  2. 根据操作系统下载对应安装包(.exe, .dmg, .AppImage 等)

  3. 安装程序并运行

第二步:授权权限

首次启动需授予以下权限:

  • 麦克风访问权

  • 辅助功能权限(用于模拟键盘输入,将文本粘贴到其他应用)

macOS 用户注意:需在「系统设置 > 隐私与安全性 > 辅助功能」中手动添加 Handy。

第三步:配置快捷键

进入 Settings(设置) 页面:

  • 设置你喜欢的录音快捷键(例如 Ctrl+Alt+S)

  • 选择默认使用的语音识别模型(Whisper-small / Parakeet V3 等)

  • 启用/关闭自动开始识别、静音检测灵敏度等选项

第四步:开始使用

  1. 打开任意文本编辑器(如 Word、Notion、微信、Chrome 输入框)

  2. 按下快捷键开始录音

  3. 清晰说出你想输入的内容

  4. 松开按键,几秒内文字就会出现在光标处!

提示:说慢一点、清晰些,识别准确率更高。

收费价格

✅ 完全免费!永久免费!

Handy 遵循 MIT 开源许可证,任何人都可以:

  • 免费下载、使用、修改、分发

  • 用于个人或商业用途

  • 自行构建、部署、二次开发

项目由社区贡献者和赞助商共同支持,无广告、无订阅、无付费墙。

常见问题解答(FAQ)

Q1:Handy 是否需要联网?

不需要。所有语音识别过程均在本地完成,即使断网也能正常使用。

Q2:支持哪些操作系统?

✅ 支持:

  • macOS(M系列芯片 & Intel)

  • Windows 10/11 x64

  • Linux(Ubuntu 推荐,其他发行版也可尝试)

Q3:对电脑配置有什么要求?

模型类型 推荐配置
Whisper (Small/Medium) 至少 8GB 内存,GPU 更佳(NVIDIA CUDA 支持)
Whisper (Large/Turbo) 强烈建议配备独立显卡(≥6GB VRAM)
Parakeet V3(CPU 模式) 最低 Intel 6代酷睿 / AMD 同级别处理器,性能约为实时速度的 5 倍

注:低配电脑建议使用 Parakeet V3 模型以获得更好体验。

Q4:如何提升识别准确率?

  • 使用高质量麦克风

  • 在安静环境中讲话

  • 发音清晰、语速适中

  • 优先选用 Whisper Medium 或 Large 模型(需较强硬件)

Q5:能否添加中文训练模型?

目前内置模型已支持中文识别(尤其是 Whisper 和 Parakeet V3)。未来可通过自定义模型路径加载更多语言模型。

总结

Handy不仅是一款实用的离线语音转文字工具,更是一个开源的语音输入软件。它以 隐私优先、本地运行、开放共享 为核心理念,填补了市场上缺乏真正自由、可控语音识别工具的空白。无论你是程序员、作家、学生还是残障人士,只要你想用语音快速输入文字,而又不愿牺牲隐私,Handy 都是一个值得信赖的选择。

更重要的是——它属于你。你可以阅读它的每一行代码,修改它的每一个细节,甚至把它变成你理想中的样子。

软件截图

  • Handy(离线语音转文字工具)

Handy下载地址

安装形式 安装版,绿色版
更新时间
软件语言 简体中文
立即下载
THE END