Nothing Essential Voice 上手:端侧 AI 语音输入工具的新选择
当 Google、Nothing 和独立开发者都在押注端侧 AI 语音输入,开发者该如何选择?
背景
2026 年 4 月,AI 语音输入赛道突然热闹起来。Google 在月初发布了基于 Gemma 模型的离线优先语音输入应用 Google AI Edge Eloquent,Nothing 在月底推出了系统级集成的 Essential Voice,而独立产品如 Wispr Flow、Superwhisper 等也在快速迭代。
这个赛道的逻辑很简单:普通人用手机打字平均 36 词/分钟,但说话速度可以达到 4 倍。AI 语音输入的目标就是让你的说话速度直接变成写作速度。
Nothing Essential Voice 是什么
Essential Voice 是 Nothing 公司为 Phone (3) 推出的系统级 AI 语音输入工具,核心功能包括:
- 跨应用语音转文字:在任何应用中通过语音输入文字
- 自动去除填充词:自动过滤 “um”、“ah” 等口语填充词
- 自定义语音快捷键:为地址、链接、模板等常用内容设置语音快捷方式
- 实时翻译:支持 100+ 语言的即时翻译
- 硬件快捷键触发:通过 Phone (3) 的 Essential Key 一键激活
使用方式
触发方式: 1. 按下 Essential Key(硬件按键) 2. 或从键盘界面激活 工作流程: 说话 → 实时转写 → 自动清理填充词 → 输出干净文本
自定义语音快捷键示例
语音指令 → 输出内容 "我的地址" → "XX 市 XX 区 XX 路 XX 号" "发邮件" → "mailto:example@email.com" "会议链接" → "https://meet.example.com/xxx"
与同类工具对比
| 特性 | Essential Voice | Google AI Edge Eloquent | Wispr Flow | Superwhisper |
|---|---|---|---|---|
| 端侧处理 | ✅ 系统级集成 | ✅ Gemma 本地模型 | ❌ 云端 | ❌ 云端 |
| 填充词过滤 | ✅ | ✅ | ✅ | ✅ |
| 自定义快捷键 | ✅ | ❌ | ✅ (Custom Mode) | ✅ |
| 翻译 | ✅ 100+ 语言 | ❌ | ❌ | ❌ |
| 平台 | Android (Nothing) | iOS (Android 即将推出) | Mac/Win/iOS/Android | Mac/Win/iOS |
| 隐私 | 设备端处理 | 可选离线模式 | 云端处理 | 云端处理 |
关键差异分析
端侧 vs 云端 是这个赛道最核心的分歧点:
- 端侧方案(Essential Voice、Google Eloquent 离线模式):隐私更好、无网络依赖、延迟更低,但模型能力受限
- 云端方案(Wispr Flow、Superwhisper):模型能力强、功能丰富,但需要网络、有隐私顾虑
开发者视角:端侧 AI 语音输入的技术挑战
如果你正在考虑构建类似的端侧语音输入工具,以下是几个关键技术点:
1. 语音识别模型选型
端侧 ASR(自动语音识别)需要在精度和体积之间权衡:
# 端侧 ASR 模型对比
models = {
"Whisper-tiny": {
"size": "39M",
"wer": "~15%",
"latency": "~200ms",
"languages": 99
},
"Whisper-base": {
"size": "74M",
"wer": "~12%",
"latency": "~350ms",
"languages": 99
},
"Gemma-ASR": {
"size": "自定义",
"wer": "~10%",
"latency": "~250ms",
"languages": 100+
}
}
2. 实时流式处理
语音输入需要流式处理,不能等用户说完一整段才输出:
import asyncio
async def stream_transcription(audio_stream):
"""流式语音转文字示例"""
buffer = b""
async for chunk in audio_stream:
buffer += chunk
if len(buffer) >= CHUNK_SIZE:
# 实时转写当前片段
text = await asr_model.transcribe(buffer)
# 实时清理填充词
cleaned = remove_fillers(text)
yield cleaned
buffer = b""
3. 填充词过滤
这是 AI 语音输入和普通语音识别的核心区别:
import re
def remove_fillers(text: str) -> str:
"""移除口语填充词"""
fillers = [
r'\bum\b', r'\buh\b', r'\blike\b',
r'\byou know\b', r'\bso\b', r'\bwell\b'
]
for filler in fillers:
text = re.sub(filler, '', text, flags=re.IGNORECASE)
# 清理多余空格
return re.sub(r'\s+', ' ', text).strip()
4. 系统级集成
Nothing Essential Voice 的最大优势是系统级集成——它不是独立应用,而是操作系统的一部分:
系统级集成的好处: ✅ 任何文本框都能使用 ✅ 硬件快捷键直接触发 ✅ 无需切换应用 ✅ 与键盘深度整合
实际使用场景
场景 1:快速回复消息
传统方式:打开手机 → 找到聊天 → 打字回复(约 30 秒) Essential Voice:按 Essential Key → 说话 → 自动清理 → 发送(约 8 秒)
场景 2:跨语言沟通
你说中文 → AI 实时翻译为英文 → 输出到英文聊天应用 支持 100+ 语言,适合国际化团队沟通
场景 3:开发者笔记
按快捷键 → 口述想法 → 自动格式化 → 粘贴到文档/代码注释 比打字快 3-4 倍,特别适合记录思路
未来展望
端侧 AI 语音输入正在成为一个重要的方向。几个值得关注的趋势:
- 更多系统级集成:Google 的离线语音输入、Nothing 的系统级集成,预示着手机厂商会将 AI 语音输入作为系统功能
- 模型小型化:Gemma、Whisper-tiny 等模型让端侧高质量 ASR 成为可能
- 个性化定制:学习用户的说话习惯、专业术语,提高识别准确率
- 多模态融合:语音 + 手势 + 眼动的多模态输入
总结
Nothing Essential Voice 代表了 AI 语音输入的一个重要方向:系统级、端侧处理、隐私优先。虽然目前仅支持 Nothing Phone (3),但它展示了一种可能性——当 AI 能力直接集成到操作系统中,用户体验会有质的提升。
对于开发者来说,这个赛道的技术栈(端侧 ASR + 流式处理 + 文本后处理)也值得学习。即使你不做语音输入产品,这些技术也可以应用到其他需要实时语音交互的场景中。
参考资料: TechCrunch: Nothing introduces an AI-powered dictation tool TechCrunch: Google quietly released an offline-first AI dictation app on iOS Wispr Flow Superwhisper