2026年4月26日 2 分钟阅读

Nothing Essential Voice 上手:端侧 AI 语音输入工具的新选择

tinyash 0 条评论

当 Google、Nothing 和独立开发者都在押注端侧 AI 语音输入,开发者该如何选择?


背景

2026 年 4 月,AI 语音输入赛道突然热闹起来。Google 在月初发布了基于 Gemma 模型的离线优先语音输入应用 Google AI Edge Eloquent,Nothing 在月底推出了系统级集成的 Essential Voice,而独立产品如 Wispr Flow、Superwhisper 等也在快速迭代。

这个赛道的逻辑很简单:普通人用手机打字平均 36 词/分钟,但说话速度可以达到 4 倍。AI 语音输入的目标就是让你的说话速度直接变成写作速度。

Nothing Essential Voice 是什么

Essential Voice 是 Nothing 公司为 Phone (3) 推出的系统级 AI 语音输入工具,核心功能包括:

  • 跨应用语音转文字:在任何应用中通过语音输入文字
  • 自动去除填充词:自动过滤 “um”、“ah” 等口语填充词
  • 自定义语音快捷键:为地址、链接、模板等常用内容设置语音快捷方式
  • 实时翻译:支持 100+ 语言的即时翻译
  • 硬件快捷键触发:通过 Phone (3) 的 Essential Key 一键激活

使用方式

触发方式:
1. 按下 Essential Key(硬件按键)
2. 或从键盘界面激活

工作流程:
说话 → 实时转写 → 自动清理填充词 → 输出干净文本

自定义语音快捷键示例

语音指令 → 输出内容
"我的地址" → "XX 市 XX 区 XX 路 XX 号"
"发邮件" → "mailto:example@email.com"
"会议链接" → "https://meet.example.com/xxx"

与同类工具对比

特性Essential VoiceGoogle AI Edge EloquentWispr FlowSuperwhisper
端侧处理✅ 系统级集成✅ Gemma 本地模型❌ 云端❌ 云端
填充词过滤
自定义快捷键✅ (Custom Mode)
翻译✅ 100+ 语言
平台Android (Nothing)iOS (Android 即将推出)Mac/Win/iOS/AndroidMac/Win/iOS
隐私设备端处理可选离线模式云端处理云端处理

关键差异分析

端侧 vs 云端 是这个赛道最核心的分歧点:

  • 端侧方案(Essential Voice、Google Eloquent 离线模式):隐私更好、无网络依赖、延迟更低,但模型能力受限
  • 云端方案(Wispr Flow、Superwhisper):模型能力强、功能丰富,但需要网络、有隐私顾虑

开发者视角:端侧 AI 语音输入的技术挑战

如果你正在考虑构建类似的端侧语音输入工具,以下是几个关键技术点:

1. 语音识别模型选型

端侧 ASR(自动语音识别)需要在精度和体积之间权衡:

# 端侧 ASR 模型对比
models = {
    "Whisper-tiny": {
        "size": "39M",
        "wer": "~15%",
        "latency": "~200ms",
        "languages": 99
    },
    "Whisper-base": {
        "size": "74M", 
        "wer": "~12%",
        "latency": "~350ms",
        "languages": 99
    },
    "Gemma-ASR": {
        "size": "自定义",
        "wer": "~10%",
        "latency": "~250ms",
        "languages": 100+
    }
}

2. 实时流式处理

语音输入需要流式处理,不能等用户说完一整段才输出:

import asyncio

async def stream_transcription(audio_stream):
    """流式语音转文字示例"""
    buffer = b""
    async for chunk in audio_stream:
        buffer += chunk
        if len(buffer) >= CHUNK_SIZE:
            # 实时转写当前片段
            text = await asr_model.transcribe(buffer)
            # 实时清理填充词
            cleaned = remove_fillers(text)
            yield cleaned
            buffer = b""

3. 填充词过滤

这是 AI 语音输入和普通语音识别的核心区别:

import re

def remove_fillers(text: str) -> str:
    """移除口语填充词"""
    fillers = [
        r'\bum\b', r'\buh\b', r'\blike\b', 
        r'\byou know\b', r'\bso\b', r'\bwell\b'
    ]
    for filler in fillers:
        text = re.sub(filler, '', text, flags=re.IGNORECASE)
    # 清理多余空格
    return re.sub(r'\s+', ' ', text).strip()

4. 系统级集成

Nothing Essential Voice 的最大优势是系统级集成——它不是独立应用,而是操作系统的一部分:

系统级集成的好处:
✅ 任何文本框都能使用
✅ 硬件快捷键直接触发
✅ 无需切换应用
✅ 与键盘深度整合

实际使用场景

场景 1:快速回复消息

传统方式:打开手机 → 找到聊天 → 打字回复(约 30 秒)
Essential Voice:按 Essential Key → 说话 → 自动清理 → 发送(约 8 秒)

场景 2:跨语言沟通

你说中文 → AI 实时翻译为英文 → 输出到英文聊天应用
支持 100+ 语言,适合国际化团队沟通

场景 3:开发者笔记

按快捷键 → 口述想法 → 自动格式化 → 粘贴到文档/代码注释
比打字快 3-4 倍,特别适合记录思路

未来展望

端侧 AI 语音输入正在成为一个重要的方向。几个值得关注的趋势:

  1. 更多系统级集成:Google 的离线语音输入、Nothing 的系统级集成,预示着手机厂商会将 AI 语音输入作为系统功能
  2. 模型小型化:Gemma、Whisper-tiny 等模型让端侧高质量 ASR 成为可能
  3. 个性化定制:学习用户的说话习惯、专业术语,提高识别准确率
  4. 多模态融合:语音 + 手势 + 眼动的多模态输入

总结

Nothing Essential Voice 代表了 AI 语音输入的一个重要方向:系统级、端侧处理、隐私优先。虽然目前仅支持 Nothing Phone (3),但它展示了一种可能性——当 AI 能力直接集成到操作系统中,用户体验会有质的提升。

对于开发者来说,这个赛道的技术栈(端侧 ASR + 流式处理 + 文本后处理)也值得学习。即使你不做语音输入产品,这些技术也可以应用到其他需要实时语音交互的场景中。


参考资料: TechCrunch: Nothing introduces an AI-powered dictation tool TechCrunch: Google quietly released an offline-first AI dictation app on iOS Wispr Flow Superwhisper

发表评论

你的邮箱地址不会被公开,带 * 的为必填项。