Whisper Input【超快 Github 开源语音输入】

Whisper Input 截图

简介

Whisper Input 是受到即友FeiTTT启发做的一个简单的 python 代码。可以实现按下 Option 按钮开始录制,抬起按钮就结束录制,并调用 Groq Whisper Large V3 Turbo 模型进行转译,由于 Groq 的速度非常快,所以大部分的语音输入都可以在 1-2s 内反馈。并且得益于 whisper 的强大能力,转译效果非常不错。

因为 macOS 自带的语音识别效果确实是比较差,现在有了大模型,识别的准确度已经非常高了,甚至可以在不少情况下做到完全不需要修改就可以输出结果。

最近有朋友提交了新的 PR ,目前也支持了SiliconFlow 托管的 FunAudioLLM/SenseVoiceSmall 模型,速度比 Groq 托管的 Whisper Large V3 Turbo 更快,识别更准确,并且自带标点符号,大部分的请求都可以在 1s 内得到返回。

功能

功能快捷键
多语言语音转译Option 或者 Alt
中文翻译为英文Shift + Option 或者 Shift + Alt

⚠️ 项目目前还不够产品化,并且未来可能相当长的一段时间都不会产品化。如果大家想作为日常稳定使用的产品,推荐使用同样是朋友开发的WhisperKeyBoard ,体验非常丝滑,并且可以做到完全离线使用。

访问方式

目前软件已经开源,可以直接在ErlichLiu 的 Github 库当中访问,欢迎大家贡献 想法。

未来可能会比较有意思的部分

这个输入其实非常简单,未来想尝试探索如何将一些可能适合输入法场景下的 Agents 进行整合,会主要探索这个方向。

目前看下来大概率会主要用 Claude 的 MCP 来实现,这也是目前我个人认为是最愿意花时间去做投入的 Agents 方向。原因很简单,两年的时间里,只有 Claude 做出来了一种非常不错的设计,把客户端、服务器以及交互都做了协议支持。如果赌,我肯定是更相信 MCP 可能是更长久的路径。

如果要支持 MCP,那么我们需要参照 Claude 的教程在 Whisper Input 内实现一个 Client,然后我们就可以接入目前已经有的各种 Server,也可以尝试构建更适合输入法场景下的 Server。

但这种比较适合输入法场景下的 Server 是什么呢?这就是探索的部分,我现在还不知道,但是直觉上会觉得这个过程可能会很好玩,而且有一定的想象力。因为输入是一切需求的入口,语音输入是更自然的一切需求表达的入口

作为入口适合做多重,或者多么迅速的任务呢?

  • 是否适合异步的任务?

  • 如何做交互过程的授权?

  • 如何反馈?

  • 输出是什么样的呢?

  • ...

这些都不知道,因为这些也太早了,还说不清。

MCP 还有个比较有想象力的部分

MCP 目前由 Claude 官方还维护着一个 server 库,这些库大部分都是开源的,都是第三方贡献的,Claude 还没有把这些做到自己的客户端里,也没有展示,甚至配置使用 MCP 说实话都不是很方便。但这些恰恰说明他很早期,差不多真的是一个 MVP 版本。

如果你尝试用过 MCP,你会体验到 MCP 可以跨多个 server,利用多个 server 里的工具来通过 Claude 串联起一个工作流完成一些事。这个就是最有想象力的部分,简单的举例,这个就像是更智能版本的 Apple 快捷指令。

由于 Claude 的设计能力非常强,把 Client、Server 和权限的部分都拆开了,所以现在导致 Claude 以及其他任何人都可以构建自己的 MCP Client;过去的供应商以及服务商们会贡献自己的 Server,这两段都是生态市场的一部分。但是对于用户来说,其实最重要的是 Workflow,但是恰恰没有人去做 Workflow。

为什么呢?因为 Workflow 就像 Prompt 一样,很难赚钱,可能未来是服务设计费里的一部分;可能国内的各种模型的应用厂商自己会做了 MCP 支持之后自己维护一个自己的 MCP Workflow Store,就像现在有很多的 Apple 快捷指令商店一样。这些会作为附属运营的一部分出现,当然我认为如果设计服务做的好,也就是 Workflow 规划设计的好,其实也可以独立存在,专门做一个 Agents 帮助用户用自然语言来规划最优 MCP Workflow。

并且 Claude 表示自己目前在开发远程的 MCP Server 支持,那么不久之后,可能 Claude 的 MCP 存在的价值就会非常明显的高于ChatGPT Task,可以实现远超 ChatGPT Task 以及 GPTs 的能力。

好了,洋洋洒洒写了这么多,如果你对 Whisper Input 感兴趣,请访问:https://github.com/ErlichLiu/Whisper-Input.git

如果你对 MCP 感兴趣,也欢迎加我讨论,微信号:geekthings。