← 返回信息流
GitHub 热榜GitHub Trending · 日·1 小时前

FluidVoice:最快的 macOS 离线语音转文字应用

原标题:altic-dev/FluidVoice
Swift3,321 stars+264 今日

速览

FluidVoice 是一款基于 Swift 开发的 macOS 开源应用,利用系统级语音识别技术实现极速的离线语音转文字功能。它无需上传数据至云端,所有处理均在本地完成,适合注重隐私且需要高效文字输入的用户场景。

AI 深度解读

这是什么

FluidVoice 是一款基于 macOS 的开源语音转文字(Voice-to-Text)听写应用,由 altic-dev 维护。该项目在 GitHub 上已获得 3321 个 Star,主语言为 Swift,遵循 GPLv3 开源协议。

其核心定位是提供“本地优先”的语音输入体验,通过集成多种先进的语音识别模型(如 Parakeet、Whisper、Nemotron 等)和可选的本地 AI 增强引擎(Fluid Intelligence),实现极低延迟的实时转录与智能文本后处理。与依赖云端 API 的传统方案不同,FluidVoice 强调数据隐私,所有语音处理和 AI 增强均可在 Mac 本地完成,无需联网即可使用核心功能。

解决的问题

  1. 云端隐私泄露风险:传统语音输入工具(如部分云 API 服务)需要将音频数据上传至服务器,存在数据泄露隐患。FluidVoice 解决了这一痛点,确保语音、音频和转录文本默认不出本地。
  2. 延迟与响应速度:许多开源或免费语音模型在 macOS 上存在较高的延迟或识别准确率不足的问题。FluidVoice 通过重构 Parakeet 实现,显著降低了从说话到屏幕显示文字的延迟。
  3. 文本格式混乱:原始语音转录往往缺乏标点、大小写混乱且上下文逻辑不通。FluidVoice 引入了本地 AI 增强层,自动进行智能格式化、上下文感知的大小写修正及后处理,提升文本可用性。
  4. 功能单一:多数工具仅支持简单的语音转文字。FluidVoice 提供了“命令模式”和“写作模式”,不仅支持听写,还支持通过语音控制 Mac 系统(启动应用、运行快捷指令等)以及跨应用的文本重写。

核心功能

  • Fluid Intelligence(本地 AI 增强)
    • 这是一个私有的本地 AI 运行时,完全在设备端运行。
    • 提供智能格式化、上下文感知的大小写修正和文本后处理。
    • 零数据外泄,无需 API Key,无需网络连接。
  • 双模式操作
    • Command Mode(命令模式):通过语音控制 Mac,启动应用、运行 Shortcuts、触发系统动作或自动化工作流。
    • Write Mode(写作模式):在任何应用的文本字段中直接输入或重写文本。支持选中现有文本进行语音改写,或直接在光标处听写新内容。
  • 多模型支持
    • 内置支持多种语音识别引擎:Apple Speech、Nemotron Speech 3.5、Parakeet Flash、Parakeet TDT v3/v2、Cohere Transcribe 以及 Whisper。
    • 用户可根据语言需求和延迟容忍度自由选择模型。
  • 实时预览与界面适配
    • Live Preview:实时转录叠加层,支持 MacBook 刘海屏(Notch)适配,文字随说话实时出现。
    • 自适应主题:跟随系统 Light/Dark 模式,提供紧凑的工具栏切换。
  • 全局快捷键与系统集成
    • 支持全局快捷键,无需切换应用即可捕获语音。
    • 通过 Accessibility API 实现智能打字,确保文本能可靠地插入到任何应用中。
    • 菜单栏集成,提供快速访问、状态监控和设置入口。
  • 音频历史与分析
    • 可选的本地音频历史记录,支持预算控制和 ZIP 导出。
    • 今日使用统计面板,直观展示每日使用情况。
  • 云 AI 增强(可选)
    • 若用户选择使用云端增强,支持 OpenAI、Groq 或自定义提供商。API Key 安全存储在 macOS Keychain 中。

亮点 / 与同类相比

  • 极致的本地化与隐私保护
    • 与依赖 Google、Apple 或 Microsoft 云 API 的竞品不同,FluidVoice 的 Fluid Intelligence 和核心语音模型均可完全离线运行。这是其最大的差异化优势,特别适合对数据隐私有极高要求的用户。
  • Parakeet 性能优化
    • 项目重写了 Parakeet 的实现,号称是 macOS 上最快的原生 Parakeet 实现之一,实现了近乎零延迟的转录体验,优于许多通用开源方案。
  • 高度可配置性与模块化
    • Everything is Optional:AI 增强、Fluid Intelligence、音频历史、分析数据均为可选功能。核心听写体验开箱即用,仅需权限和快捷键配置。
    • Per-App Configuration:可为不同应用分配不同的 Prompt 集,使听写风格适应当前工作场景(如在代码编辑器中使用技术术语,在邮件中使用正式语气)。
  • 跨模型灵活性
    • 支持从轻量级的 Apple Speech 到高精度的 Nemotron 和 Whisper,用户可在准确率、速度和资源占用之间自由权衡。
  • 开源透明
    • 核心应用基于 GPLv3 开源,代码透明。虽然 Fluid Intelligence 运行时目前私有(以维持免费核心服务的可持续性),但应用主体完全开放,社区可审查和贡献代码。

适合谁用 / 上手

适合人群:

  • 隐私敏感用户:希望语音数据完全留在本地,不愿上传至云端的 macOS 用户。
  • 开发者与技术工作者:需要快速输入代码注释、文档,或通过语音控制开发环境(Command Mode)的技术人员。
  • 多语言用户:支持超过 20 种语言(包括英语、中文、法语、德语、西班牙语等),且 Whisper 模型支持多达 99 种语言。
  • 追求高效输入者:希望利用 AI 自动修正标点、大小写和语法,减少后期编辑时间的写作者。

上手指南:

  1. 安装
    • 推荐通过 Homebrew 安装:brew install --cask fluidvoice
    • 或从 GitHub Releases 页面下载最新版本。
  2. 权限设置
    • 首次运行需授予麦克风权限(用于录音)和**辅助功能(Accessibility)**权限(用于在其他应用中输入文本)。
  3. 初始配置
    • 设置全局快捷键(Global Hotkey),用于随时触发语音捕获。
    • 在 Onboarding 流程中选择语音模型。根据语言和需求,可选择零下载的 Apple Speech,或下载高精度的 Nemotron/Whisper 模型。
  4. 可选增强
    • 启用 Fluid Intelligence:在 Onboarding 期间下载本地 AI 模型,以获得智能格式化和后处理功能(需额外约 3.5 GB 磁盘空间)。
    • 使用云端 AI:如需 OpenAI 或 Groq 增强,可在设置中输入 API Key(存储于 Keychain)。
  5. 系统要求
    • macOS 15.0 (Sequoia) 或更高版本。
    • Apple Silicon Mac:支持所有模型。
    • Intel Mac:仅支持 Whisper 模型(从 v1.5.1 开始支持)。
    • 磁盘空间:语音模型约 1 GB,Fluid Intelligence 模型约 3.5 GB。

开发者参与: 项目欢迎贡献。克隆仓库后,使用 Xcode 打开 Fluid.xcodeproj,依赖通过 Swift Package Manager 管理。提交 PR 前请确保遵循原子化提交原则,并避免提交个人 Team ID 或 API Key。

查看原文 →github.com