FluidVoice:最快的 macOS 离线语音转文字应用
原标题:altic-dev/FluidVoice
Swift★ 3,321 stars+264 今日
速览
FluidVoice 是一款基于 Swift 开发的 macOS 开源应用,利用系统级语音识别技术实现极速的离线语音转文字功能。它无需上传数据至云端,所有处理均在本地完成,适合注重隐私且需要高效文字输入的用户场景。
AI 深度解读
这是什么
FluidVoice 是一款基于 macOS 的开源语音转文字(Voice-to-Text)听写应用,由 altic-dev 维护。该项目在 GitHub 上已获得 3321 个 Star,主语言为 Swift,遵循 GPLv3 开源协议。
其核心定位是提供“本地优先”的语音输入体验,通过集成多种先进的语音识别模型(如 Parakeet、Whisper、Nemotron 等)和可选的本地 AI 增强引擎(Fluid Intelligence),实现极低延迟的实时转录与智能文本后处理。与依赖云端 API 的传统方案不同,FluidVoice 强调数据隐私,所有语音处理和 AI 增强均可在 Mac 本地完成,无需联网即可使用核心功能。
解决的问题
- 云端隐私泄露风险:传统语音输入工具(如部分云 API 服务)需要将音频数据上传至服务器,存在数据泄露隐患。FluidVoice 解决了这一痛点,确保语音、音频和转录文本默认不出本地。
- 延迟与响应速度:许多开源或免费语音模型在 macOS 上存在较高的延迟或识别准确率不足的问题。FluidVoice 通过重构 Parakeet 实现,显著降低了从说话到屏幕显示文字的延迟。
- 文本格式混乱:原始语音转录往往缺乏标点、大小写混乱且上下文逻辑不通。FluidVoice 引入了本地 AI 增强层,自动进行智能格式化、上下文感知的大小写修正及后处理,提升文本可用性。
- 功能单一:多数工具仅支持简单的语音转文字。FluidVoice 提供了“命令模式”和“写作模式”,不仅支持听写,还支持通过语音控制 Mac 系统(启动应用、运行快捷指令等)以及跨应用的文本重写。
核心功能
- Fluid Intelligence(本地 AI 增强):
- 这是一个私有的本地 AI 运行时,完全在设备端运行。
- 提供智能格式化、上下文感知的大小写修正和文本后处理。
- 零数据外泄,无需 API Key,无需网络连接。
- 双模式操作:
- Command Mode(命令模式):通过语音控制 Mac,启动应用、运行 Shortcuts、触发系统动作或自动化工作流。
- Write Mode(写作模式):在任何应用的文本字段中直接输入或重写文本。支持选中现有文本进行语音改写,或直接在光标处听写新内容。
- 多模型支持:
- 内置支持多种语音识别引擎:Apple Speech、Nemotron Speech 3.5、Parakeet Flash、Parakeet TDT v3/v2、Cohere Transcribe 以及 Whisper。
- 用户可根据语言需求和延迟容忍度自由选择模型。
- 实时预览与界面适配:
- Live Preview:实时转录叠加层,支持 MacBook 刘海屏(Notch)适配,文字随说话实时出现。
- 自适应主题:跟随系统 Light/Dark 模式,提供紧凑的工具栏切换。
- 全局快捷键与系统集成:
- 支持全局快捷键,无需切换应用即可捕获语音。
- 通过 Accessibility API 实现智能打字,确保文本能可靠地插入到任何应用中。
- 菜单栏集成,提供快速访问、状态监控和设置入口。
- 音频历史与分析:
- 可选的本地音频历史记录,支持预算控制和 ZIP 导出。
- 今日使用统计面板,直观展示每日使用情况。
- 云 AI 增强(可选):
- 若用户选择使用云端增强,支持 OpenAI、Groq 或自定义提供商。API Key 安全存储在 macOS Keychain 中。
亮点 / 与同类相比
- 极致的本地化与隐私保护:
- 与依赖 Google、Apple 或 Microsoft 云 API 的竞品不同,FluidVoice 的 Fluid Intelligence 和核心语音模型均可完全离线运行。这是其最大的差异化优势,特别适合对数据隐私有极高要求的用户。
- Parakeet 性能优化:
- 项目重写了 Parakeet 的实现,号称是 macOS 上最快的原生 Parakeet 实现之一,实现了近乎零延迟的转录体验,优于许多通用开源方案。
- 高度可配置性与模块化:
- Everything is Optional:AI 增强、Fluid Intelligence、音频历史、分析数据均为可选功能。核心听写体验开箱即用,仅需权限和快捷键配置。
- Per-App Configuration:可为不同应用分配不同的 Prompt 集,使听写风格适应当前工作场景(如在代码编辑器中使用技术术语,在邮件中使用正式语气)。
- 跨模型灵活性:
- 支持从轻量级的 Apple Speech 到高精度的 Nemotron 和 Whisper,用户可在准确率、速度和资源占用之间自由权衡。
- 开源透明:
- 核心应用基于 GPLv3 开源,代码透明。虽然 Fluid Intelligence 运行时目前私有(以维持免费核心服务的可持续性),但应用主体完全开放,社区可审查和贡献代码。
适合谁用 / 上手
适合人群:
- 隐私敏感用户:希望语音数据完全留在本地,不愿上传至云端的 macOS 用户。
- 开发者与技术工作者:需要快速输入代码注释、文档,或通过语音控制开发环境(Command Mode)的技术人员。
- 多语言用户:支持超过 20 种语言(包括英语、中文、法语、德语、西班牙语等),且 Whisper 模型支持多达 99 种语言。
- 追求高效输入者:希望利用 AI 自动修正标点、大小写和语法,减少后期编辑时间的写作者。
上手指南:
- 安装:
- 推荐通过 Homebrew 安装:
brew install --cask fluidvoice - 或从 GitHub Releases 页面下载最新版本。
- 推荐通过 Homebrew 安装:
- 权限设置:
- 首次运行需授予麦克风权限(用于录音)和**辅助功能(Accessibility)**权限(用于在其他应用中输入文本)。
- 初始配置:
- 设置全局快捷键(Global Hotkey),用于随时触发语音捕获。
- 在 Onboarding 流程中选择语音模型。根据语言和需求,可选择零下载的 Apple Speech,或下载高精度的 Nemotron/Whisper 模型。
- 可选增强:
- 启用 Fluid Intelligence:在 Onboarding 期间下载本地 AI 模型,以获得智能格式化和后处理功能(需额外约 3.5 GB 磁盘空间)。
- 使用云端 AI:如需 OpenAI 或 Groq 增强,可在设置中输入 API Key(存储于 Keychain)。
- 系统要求:
- macOS 15.0 (Sequoia) 或更高版本。
- Apple Silicon Mac:支持所有模型。
- Intel Mac:仅支持 Whisper 模型(从 v1.5.1 开始支持)。
- 磁盘空间:语音模型约 1 GB,Fluid Intelligence 模型约 3.5 GB。
开发者参与:
项目欢迎贡献。克隆仓库后,使用 Xcode 打开 Fluid.xcodeproj,依赖通过 Swift Package Manager 管理。提交 PR 前请确保遵循原子化提交原则,并避免提交个人 Team ID 或 API Key。
查看原文 →github.com
