AI音声入力の仕組み

声は
キーボード
より速い

しかし「ただの音声認識」ではありません。2022年以降のAI音声入力は、 2つの異なるAIが連携する二層構造になっています。 なぜこの技術が生まれ、どう動き、何が限界なのか——5分で理解できる解説です。

150
wpm — 話す速さ
50
wpm — タイピング平均
2
層のAI処理
スクロール
なぜ音声入力が必要か

タイピングの壁

人間が話す速度は、タイピング平均の約3倍です。 文字入力という行為そのものが、思考の速度に追いついていない。 それが音声入力の根本的な動機です。

タイピング(一般) 約 40–60 wpm
タイピング(上級者) 約 90–120 wpm
自然な会話 約 130–150 wpm
ニュースキャスター(早口) 約 180–200 wpm

ただし注意が必要です。 速度の優位性は「長文・連続入力」に限られます。短い返信や単語補完なら、 タイピングの方が速い場合もあります。また公共の場での使用は社会的摩擦を生むという 物理的・文化的障壁が存在します。

技術の歴史

なぜ昔の音声認識は
使えなかったのか

「声でテキスト入力」という発想は1960年代から存在します。 しかし2022年まで、それは多くの人にとって実用に耐えませんでした。

1990年代
隠れマルコフモデル(HMM)時代
音の連続を確率的に処理する数学モデルが使われた。 専用マイクと数時間の「声の学習」が必要で、ちょっとした咳や環境音で精度が激落ちした。 英語以外はほぼ機能しなかった。
2010年代
スマートフォン音声入力の台頭(Siri・Google)
ニューラルネットワークの導入で精度は向上。しかし出力は生の文字起こしのみ。 「えっと」「なんか」がそのまま残り、句読点も入らず、誤変換の修正は手動。 実用的なのは「電話をかけて」レベルの単純命令だけだった。
2022年9月
OpenAI Whisper — 第一の革命
インターネット上の音声68万時間で訓練されたモデルが無償公開される。 99言語対応、ノイズ耐性が劇的に向上、日本語の精度も実用レベルへ。 この技術を土台に、多数の音声入力アプリが誕生した。
2023年〜現在
LLM後処理の統合 — 第二の革命
GPT-4・Claudeなどの大規模言語モデルが「文字起こし後のクリーンアップ」を担うようになった。 タイプレス・アクアボイスなどのアプリがこの二層構造を実装し、 「喋るだけで整形された文章が出る」体験を実現した。
第一の革命

Whisperが
変えたこと

Whisperは「どれだけ多くの音声データで学習させるか」という発想の転換から生まれました。 ルールを人が書くのではなく、現実の人間の声を大量に聞かせることで精度を獲得した。

680,000
時間の学習データ(インターネット上の実音声)
99
対応言語数
無償
オープンソース公開(誰でも利用可)
30秒
一回の処理チャンク長(音声を30秒単位で処理)

Whisperの内部で何が起きているか

声がテキストになるまでに、Whisperの中では3つの変換が行われています。

音声波形 アナログ→デジタル
16kHzサンプリング
メルスペクトログラム 音を「周波数の地図」に変換
80チャンネル×時間軸
Transformerエンコーダ スペクトログラムの
パターンを圧縮
Transformerデコーダ 1トークンずつ
テキストを生成
生のテキスト まだ「えっと」も
入っている

メルスペクトログラムとは

音声を「時間 × 周波数」の2次元マップに変換したもの。ちょうど音楽の楽譜を ピアノロール状に視覚化したようなイメージです。Whisperはこれを「画像として読む」 ことで言葉のパターンを学習しています。人間が「声の特徴」を目で見て識別するのと 構造的に似た処理です。

第二の革命

隠れた第二のAI
——LLM後処理層

Whisperは精度の高い文字起こしを生成しますが、 出力はまだ「話した通りのテキスト」です。 「えっと」「なんか」「あー」が入り混じり、文章として使えません。 ここで第二のAIが登場します。

Whisper出力(生)
えっとですね、なんか今回の件について、あのー確認したんですけど、そのー要するに、要するに申し込みの、あ待って、申し込みの締め切りが、なんか明日なんですよ。はい。
LLM処理後(出力)
今回の件について確認しました。

申し込みの締め切りが明日となっています。ご対応をよろしくお願いします。

LLM後処理が行っていること

フィラー語の除去

「えっと」「なんか」「あのー」「要するに」を削除し、意図だけを残す

文体の整形

ですます調 / 箇条書き / 段落分けを、文脈に合わせて自動選択

文法の補完

途中で言い直した文や未完成の文を意味が通るように修正

情報の解釈

LLMは解釈をします。微妙なニュアンスが失われることがある(諸刃の剣)

LLMはどのように指示を受けるか

アプリは「システムプロンプト」という裏側の指示文をLLMに渡しています。 これが各アプリの個性になります。

# システムプロンプト(概念的な例)
あなたは音声文字起こしを整形するAIです。
- フィラー語(えっと、なんか、あのー)を除去してください
- ですます調で書いてください
- 改行を適切に入れてください
- 元の意味を変えずに自然な文章にしてください
---
[ここに Whisper の生テキストが入る]
仕組みの全体像

声がテキストに
なるまでの全工程

「声を出す」から「テキストが届く」まで、実際には6つのステップがあります。 多くのアプリはこれらをバックグラウンドで自動実行しています。

01
マイクが音を拾う
スマートフォンや PCのマイクが音声をデジタル信号(16,000回/秒サンプリング)に変換します。背景ノイズも一緒に記録されますが、後の工程で対処されます。
16kHz PCMデジタル音声
02
音声をメルスペクトログラムに変換
デジタル音声を25ms単位の短い窓で区切り、各区間の周波数成分を80チャンネルの「周波数マップ」に変換します。このマップが Whisperへの入力になります。
80チャンネル × 時間軸 の行列
03
Whisperエンコーダが音声の意味を圧縮
Transformerアーキテクチャのエンコーダが、スペクトログラム全体を走査し、「音声の特徴表現(埋め込みベクトル)」に圧縮します。この時点でノイズへの耐性が発揮されます。
Transformerエンコーダ(6層)
04
Whisperデコーダがテキストを生成
エンコーダの出力を受け取ったデコーダが、1トークンずつテキストを生成します。すでに生成したテキストを参照しながら次の言葉を予測する、オートコンプリートの連続です。
生の文字起こし(えっと・なんか含む)
05
LLMが文章を整形・後処理
生の文字起こしがGPT-4やClaudeなどのLLMに渡されます。システムプロンプトの指示に従い、フィラー語の除去・文体整形・段落分けが行われます。ここがアプリごとに最も差が出るポイントです。
LLM後処理(第二のAI層)
06
テキストが入力欄に届く
整形されたテキストがクリップボードにコピーされるか、テキスト入力欄に直接挿入されます。キーボードアプリ型であれば、カーソル位置に直接流し込まれます。
使えるテキストの完成
核心の矛盾

精度 vs 自分らしさ
——避けられないトレードオフ

AI後処理が強力なほど、テキストは「綺麗」になります。しかし同時に 「自分っぽさ」が失われていきます。 これはバグではなく、技術の本質的な構造から来るものです。

AI処理の強さと「自分らしさ」のスペクトラム
Super Whisper
AquaVoice
Typeless
← 生に近い(自分らしい) AI感が強い(整形された)→

AI処理が少ない場合

自分の言い回しが残る
誤解釈リスクが低い
!
フィラー語・言い直しが残る
!
カスタムプロンプト設定が必要

AI処理が多い場合

設定不要ですぐ使える
出力が常に整形済み
「AI感」が出て自分っぽくない
短文で意図しない変換が起きやすい

重要な批判的視点: 「AI感を除去する」という問題は根本的に解決が難しい。なぜなら、文章を整形するためには LLMが「解釈」しなければならず、解釈には必ずバイアスが混入するからです。 「声のトーンで口調を自動判定する」といった研究が進んでいますが、 現時点ではユーザーが意識的にモードを選択するしか解決策がありません。

アプリ比較

3つのアプリの
アーキテクチャ比較

同じWhisper + LLMの二層構造を使いながら、どこに力を入れるかでアプリの性格は大きく変わります。

Super Whisper
最高のカスタマイズ性
使いやすさ
カスタマイズ性
モデル・プロンプトを完全制御
キーボード不要のアプリ内入力
!
設定が複雑・バックアップ必須
設定が消えるリスクあり
キーボード統合に強み
AquaVoice
キーボードにマイクが宿る
使いやすさ
カスタマイズ性
キーボードのマイクボタンで即起動
話しながらリアルタイム文字表示
!
無料枠の文字数が少ない
!
プロンプトカスタマイズが必要
Typeless
設定不要ですぐ使える
使いやすさ
カスタマイズ性
初期設定ゼロで良い感じに動く
入力履歴の学習機能あり
!
「AI感」が強めという声もある
フリック入力との相性問題あり
現実的な評価

いつ使うと効果的で
いつ使うべきでないか

AI音声入力は万能ではありません。使う文脈によって、タイピングより優れる場合と、 逆に非効率になる場合が明確に分かれます。

得意な使い方
長文メールや報告書の下書き
AIへのプロンプト入力(考えながら喋る)
一人でいる自宅・個室での作業
SNSへのだらだらした思考の書き起こし
返事の内容が決まっているメールへの返信
苦手な使い方
電車・カフェなど公共の場(社会的障壁)
「了解です」などの短い返信
書きながら考えを整理する文章
固有名詞・専門用語が多い文章
句読点や文体を精密にコントロールしたい文章

プライバシー上の注意点: クラウド型のアプリでは、音声データがサーバーに送信されて処理されます。 機密性の高い会議や個人情報を含む会話に使用する場合は、 各アプリのプライバシーポリシーを確認することを推奨します。 ローカル処理型(Super Whisperの一部モードなど)はサーバー送信を回避できます。

これからの可能性

次の進化が
向かう方向

現在の技術的課題から、次世代の音声入力が解こうとしている問題が見えてきます。

声のトーンによる自動モード切り替え

メールの口調で話せば「ビジネス文体」に、友人に話すように話せば「カジュアル文体」に自動切り替え。 現在は手動モード切り替えが必要ですが、音量・抑揚・話速から文脈を自動判定する研究が進んでいます。

リアルタイム文字表示(ストリーミングSTT)

話しながら画面に文字が流れるリアルタイム表示。「録音して処理」ではなく「話すたびに更新」する体験で、 入力待ちのストレスを大幅に軽減します。AquaVoiceやしめじが実装を進めています。

話者分離との統合

会議で「誰が何を言ったか」を自動分離して記録するWhisper + 話者分析の組み合わせ。 Claudeなどのツールはすでにこれを実用化しており、議事録作成の自動化として活用されています。

骨伝導・電極マイクによる「無声入力」

喉の振動を皮膚から検出するセンサーや、筋電位を読み取る電極を使い、 声を出さずに音声入力する技術の研究が進んでいます。公共の場での「社会的障壁」問題の根本解決になる可能性があります。