GitHub 热榜GitHub Trending · 日·1 小时前

FluidVoice：最快的 macOS 离线语音转文字应用

原标题：altic-dev/FluidVoice

Swift★ 3,321 stars+264 今日

速览

FluidVoice 是一款基于 Swift 开发的 macOS 开源应用，利用系统级语音识别技术实现极速的离线语音转文字功能。它无需上传数据至云端，所有处理均在本地完成，适合注重隐私且需要高效文字输入的用户场景。

AI 深度解读

这是什么

FluidVoice 是一款基于 macOS 的开源语音转文字（Voice-to-Text）听写应用，由 altic-dev 维护。该项目在 GitHub 上已获得 3321 个 Star，主语言为 Swift，遵循 GPLv3 开源协议。

其核心定位是提供“本地优先”的语音输入体验，通过集成多种先进的语音识别模型（如 Parakeet、Whisper、Nemotron 等）和可选的本地 AI 增强引擎（Fluid Intelligence），实现极低延迟的实时转录与智能文本后处理。与依赖云端 API 的传统方案不同，FluidVoice 强调数据隐私，所有语音处理和 AI 增强均可在 Mac 本地完成，无需联网即可使用核心功能。

解决的问题

云端隐私泄露风险：传统语音输入工具（如部分云 API 服务）需要将音频数据上传至服务器，存在数据泄露隐患。FluidVoice 解决了这一痛点，确保语音、音频和转录文本默认不出本地。
延迟与响应速度：许多开源或免费语音模型在 macOS 上存在较高的延迟或识别准确率不足的问题。FluidVoice 通过重构 Parakeet 实现，显著降低了从说话到屏幕显示文字的延迟。
文本格式混乱：原始语音转录往往缺乏标点、大小写混乱且上下文逻辑不通。FluidVoice 引入了本地 AI 增强层，自动进行智能格式化、上下文感知的大小写修正及后处理，提升文本可用性。
功能单一：多数工具仅支持简单的语音转文字。FluidVoice 提供了“命令模式”和“写作模式”，不仅支持听写，还支持通过语音控制 Mac 系统（启动应用、运行快捷指令等）以及跨应用的文本重写。

核心功能

Fluid Intelligence（本地 AI 增强）：
- 这是一个私有的本地 AI 运行时，完全在设备端运行。
- 提供智能格式化、上下文感知的大小写修正和文本后处理。
- 零数据外泄，无需 API Key，无需网络连接。
双模式操作：
- Command Mode（命令模式）：通过语音控制 Mac，启动应用、运行 Shortcuts、触发系统动作或自动化工作流。
- Write Mode（写作模式）：在任何应用的文本字段中直接输入或重写文本。支持选中现有文本进行语音改写，或直接在光标处听写新内容。
多模型支持：
- 内置支持多种语音识别引擎：Apple Speech、Nemotron Speech 3.5、Parakeet Flash、Parakeet TDT v3/v2、Cohere Transcribe 以及 Whisper。
- 用户可根据语言需求和延迟容忍度自由选择模型。
实时预览与界面适配：
- Live Preview：实时转录叠加层，支持 MacBook 刘海屏（Notch）适配，文字随说话实时出现。
- 自适应主题：跟随系统 Light/Dark 模式，提供紧凑的工具栏切换。
全局快捷键与系统集成：
- 支持全局快捷键，无需切换应用即可捕获语音。
- 通过 Accessibility API 实现智能打字，确保文本能可靠地插入到任何应用中。
- 菜单栏集成，提供快速访问、状态监控和设置入口。
音频历史与分析：
- 可选的本地音频历史记录，支持预算控制和 ZIP 导出。
- 今日使用统计面板，直观展示每日使用情况。
云 AI 增强（可选）：
- 若用户选择使用云端增强，支持 OpenAI、Groq 或自定义提供商。API Key 安全存储在 macOS Keychain 中。

亮点 / 与同类相比

极致的本地化与隐私保护：
- 与依赖 Google、Apple 或 Microsoft 云 API 的竞品不同，FluidVoice 的 Fluid Intelligence 和核心语音模型均可完全离线运行。这是其最大的差异化优势，特别适合对数据隐私有极高要求的用户。
Parakeet 性能优化：
- 项目重写了 Parakeet 的实现，号称是 macOS 上最快的原生 Parakeet 实现之一，实现了近乎零延迟的转录体验，优于许多通用开源方案。
高度可配置性与模块化：
- Everything is Optional：AI 增强、Fluid Intelligence、音频历史、分析数据均为可选功能。核心听写体验开箱即用，仅需权限和快捷键配置。
- Per-App Configuration：可为不同应用分配不同的 Prompt 集，使听写风格适应当前工作场景（如在代码编辑器中使用技术术语，在邮件中使用正式语气）。
跨模型灵活性：
- 支持从轻量级的 Apple Speech 到高精度的 Nemotron 和 Whisper，用户可在准确率、速度和资源占用之间自由权衡。
开源透明：
- 核心应用基于 GPLv3 开源，代码透明。虽然 Fluid Intelligence 运行时目前私有（以维持免费核心服务的可持续性），但应用主体完全开放，社区可审查和贡献代码。

适合谁用 / 上手

适合人群：

隐私敏感用户：希望语音数据完全留在本地，不愿上传至云端的 macOS 用户。
开发者与技术工作者：需要快速输入代码注释、文档，或通过语音控制开发环境（Command Mode）的技术人员。
多语言用户：支持超过 20 种语言（包括英语、中文、法语、德语、西班牙语等），且 Whisper 模型支持多达 99 种语言。
追求高效输入者：希望利用 AI 自动修正标点、大小写和语法，减少后期编辑时间的写作者。

上手指南：

安装：
- 推荐通过 Homebrew 安装：brew install --cask fluidvoice
- 或从 GitHub Releases 页面下载最新版本。
权限设置：
- 首次运行需授予麦克风权限（用于录音）和**辅助功能（Accessibility）**权限（用于在其他应用中输入文本）。
初始配置：
- 设置全局快捷键（Global Hotkey），用于随时触发语音捕获。
- 在 Onboarding 流程中选择语音模型。根据语言和需求，可选择零下载的 Apple Speech，或下载高精度的 Nemotron/Whisper 模型。
可选增强：
- 启用 Fluid Intelligence：在 Onboarding 期间下载本地 AI 模型，以获得智能格式化和后处理功能（需额外约 3.5 GB 磁盘空间）。
- 使用云端 AI：如需 OpenAI 或 Groq 增强，可在设置中输入 API Key（存储于 Keychain）。
系统要求：
- macOS 15.0 (Sequoia) 或更高版本。
- Apple Silicon Mac：支持所有模型。
- Intel Mac：仅支持 Whisper 模型（从 v1.5.1 开始支持）。
- 磁盘空间：语音模型约 1 GB，Fluid Intelligence 模型约 3.5 GB。

开发者参与： 项目欢迎贡献。克隆仓库后，使用 Xcode 打开 Fluid.xcodeproj，依赖通过 Swift Package Manager 管理。提交 PR 前请确保遵循原子化提交原则，并避免提交个人 Team ID 或 API Key。

查看原文 →github.com