AI音声入力の仕組み

声は
キーボード
より速い

しかし「ただの音声認識」ではありません。2022年以降のAI音声入力は、 2つの異なるAIが連携する二層構造になっています。なぜこの技術が生まれ、どう動き、何が限界なのか——5分で理解できる解説です。

150

wpm — 話す速さ

wpm — タイピング平均

層のAI処理

スクロール

なぜ音声入力が必要か

タイピングの壁

人間が話す速度は、タイピング平均の約3倍です。文字入力という行為そのものが、思考の速度に追いついていない。それが音声入力の根本的な動機です。

タイピング（一般）約 40–60 wpm

タイピング（上級者）約 90–120 wpm

自然な会話約 130–150 wpm

ニュースキャスター（早口）約 180–200 wpm

ただし注意が必要です。速度の優位性は「長文・連続入力」に限られます。短い返信や単語補完なら、タイピングの方が速い場合もあります。また公共の場での使用は社会的摩擦を生むという物理的・文化的障壁が存在します。

技術の歴史

なぜ昔の音声認識は
使えなかったのか

「声でテキスト入力」という発想は1960年代から存在します。しかし2022年まで、それは多くの人にとって実用に耐えませんでした。

1990年代

隠れマルコフモデル（HMM）時代

音の連続を確率的に処理する数学モデルが使われた。専用マイクと数時間の「声の学習」が必要で、ちょっとした咳や環境音で精度が激落ちした。英語以外はほぼ機能しなかった。

2010年代

スマートフォン音声入力の台頭（Siri・Google）

ニューラルネットワークの導入で精度は向上。しかし出力は生の文字起こしのみ。「えっと」「なんか」がそのまま残り、句読点も入らず、誤変換の修正は手動。実用的なのは「電話をかけて」レベルの単純命令だけだった。

2022年9月

OpenAI Whisper — 第一の革命

インターネット上の音声68万時間で訓練されたモデルが無償公開される。 99言語対応、ノイズ耐性が劇的に向上、日本語の精度も実用レベルへ。この技術を土台に、多数の音声入力アプリが誕生した。

2023年〜現在

LLM後処理の統合 — 第二の革命

GPT-4・Claudeなどの大規模言語モデルが「文字起こし後のクリーンアップ」を担うようになった。タイプレス・アクアボイスなどのアプリがこの二層構造を実装し、「喋るだけで整形された文章が出る」体験を実現した。

第一の革命

Whisperが
変えたこと

Whisperは「どれだけ多くの音声データで学習させるか」という発想の転換から生まれました。ルールを人が書くのではなく、現実の人間の声を大量に聞かせることで精度を獲得した。

680,000

時間の学習データ（インターネット上の実音声）

対応言語数

無償

オープンソース公開（誰でも利用可）

30秒

一回の処理チャンク長（音声を30秒単位で処理）

Whisperの内部で何が起きているか

声がテキストになるまでに、Whisperの中では3つの変換が行われています。

音声波形アナログ→デジタル
16kHzサンプリング

→

メルスペクトログラム音を「周波数の地図」に変換
80チャンネル×時間軸

→

Transformerエンコーダスペクトログラムの
パターンを圧縮

→

Transformerデコーダ 1トークンずつ
テキストを生成

→

生のテキストまだ「えっと」も
入っている

メルスペクトログラムとは

音声を「時間 × 周波数」の2次元マップに変換したもの。ちょうど音楽の楽譜をピアノロール状に視覚化したようなイメージです。Whisperはこれを「画像として読む」ことで言葉のパターンを学習しています。人間が「声の特徴」を目で見て識別するのと構造的に似た処理です。

第二の革命

隠れた第二のAI
——LLM後処理層

Whisperは精度の高い文字起こしを生成しますが、出力はまだ「話した通りのテキスト」です。「えっと」「なんか」「あー」が入り混じり、文章として使えません。ここで第二のAIが登場します。

Whisper出力（生）

えっとですね、なんか今回の件について、あのー確認したんですけど、そのー要するに、要するに申し込みの、あ待って、申し込みの締め切りが、なんか明日なんですよ。はい。

LLM処理後（出力）

今回の件について確認しました。

申し込みの締め切りが明日となっています。ご対応をよろしくお願いします。

LLM後処理が行っていること

フィラー語の除去

「えっと」「なんか」「あのー」「要するに」を削除し、意図だけを残す

文体の整形

ですます調 / 箇条書き / 段落分けを、文脈に合わせて自動選択

文法の補完

途中で言い直した文や未完成の文を意味が通るように修正

情報の解釈

LLMは解釈をします。微妙なニュアンスが失われることがある（諸刃の剣）

LLMはどのように指示を受けるか

アプリは「システムプロンプト」という裏側の指示文をLLMに渡しています。これが各アプリの個性になります。

# システムプロンプト（概念的な例）
あなたは音声文字起こしを整形するAIです。
- フィラー語（えっと、なんか、あのー）を除去してください
- ですます調で書いてください
- 改行を適切に入れてください
- 元の意味を変えずに自然な文章にしてください
---
[ここに Whisper の生テキストが入る]

仕組みの全体像

声がテキストに
なるまでの全工程

「声を出す」から「テキストが届く」まで、実際には6つのステップがあります。多くのアプリはこれらをバックグラウンドで自動実行しています。

マイクが音を拾う

スマートフォンや PCのマイクが音声をデジタル信号（16,000回/秒サンプリング）に変換します。背景ノイズも一緒に記録されますが、後の工程で対処されます。

16kHz PCMデジタル音声

音声をメルスペクトログラムに変換

デジタル音声を25ms単位の短い窓で区切り、各区間の周波数成分を80チャンネルの「周波数マップ」に変換します。このマップが Whisperへの入力になります。

80チャンネル × 時間軸の行列

Whisperエンコーダが音声の意味を圧縮

Transformerアーキテクチャのエンコーダが、スペクトログラム全体を走査し、「音声の特徴表現（埋め込みベクトル）」に圧縮します。この時点でノイズへの耐性が発揮されます。

Transformerエンコーダ（6層）

Whisperデコーダがテキストを生成

エンコーダの出力を受け取ったデコーダが、1トークンずつテキストを生成します。すでに生成したテキストを参照しながら次の言葉を予測する、オートコンプリートの連続です。

生の文字起こし（えっと・なんか含む）

LLMが文章を整形・後処理

生の文字起こしがGPT-4やClaudeなどのLLMに渡されます。システムプロンプトの指示に従い、フィラー語の除去・文体整形・段落分けが行われます。ここがアプリごとに最も差が出るポイントです。

LLM後処理（第二のAI層）

テキストが入力欄に届く

整形されたテキストがクリップボードにコピーされるか、テキスト入力欄に直接挿入されます。キーボードアプリ型であれば、カーソル位置に直接流し込まれます。

使えるテキストの完成

核心の矛盾

精度 vs 自分らしさ
——避けられないトレードオフ

AI後処理が強力なほど、テキストは「綺麗」になります。しかし同時に「自分っぽさ」が失われていきます。これはバグではなく、技術の本質的な構造から来るものです。

AI処理の強さと「自分らしさ」のスペクトラム

Super Whisper

AquaVoice

Typeless

← 生に近い（自分らしい） AI感が強い（整形された）→

AI処理が少ない場合

✓

自分の言い回しが残る

✓

誤解釈リスクが低い

フィラー語・言い直しが残る

カスタムプロンプト設定が必要

AI処理が多い場合

✓

設定不要ですぐ使える

✓

出力が常に整形済み

✗

「AI感」が出て自分っぽくない

✗

短文で意図しない変換が起きやすい

重要な批判的視点：「AI感を除去する」という問題は根本的に解決が難しい。なぜなら、文章を整形するためには LLMが「解釈」しなければならず、解釈には必ずバイアスが混入するからです。「声のトーンで口調を自動判定する」といった研究が進んでいますが、現時点ではユーザーが意識的にモードを選択するしか解決策がありません。

アプリ比較

3つのアプリの
アーキテクチャ比較

同じWhisper + LLMの二層構造を使いながら、どこに力を入れるかでアプリの性格は大きく変わります。

使いやすさ

カスタマイズ性

✓

モデル・プロンプトを完全制御

✓

キーボード不要のアプリ内入力

設定が複雑・バックアップ必須

✗

設定が消えるリスクあり

キーボード統合に強み

使いやすさ

カスタマイズ性

✓

キーボードのマイクボタンで即起動

✓

話しながらリアルタイム文字表示

無料枠の文字数が少ない

プロンプトカスタマイズが必要

使いやすさ

カスタマイズ性

✓

初期設定ゼロで良い感じに動く

✓

入力履歴の学習機能あり

「AI感」が強めという声もある

✗

フリック入力との相性問題あり

現実的な評価

いつ使うと効果的で
いつ使うべきでないか

AI音声入力は万能ではありません。使う文脈によって、タイピングより優れる場合と、逆に非効率になる場合が明確に分かれます。

得意な使い方

長文メールや報告書の下書き

AIへのプロンプト入力（考えながら喋る）

一人でいる自宅・個室での作業

SNSへのだらだらした思考の書き起こし

返事の内容が決まっているメールへの返信

苦手な使い方

電車・カフェなど公共の場（社会的障壁）

「了解です」などの短い返信

書きながら考えを整理する文章

固有名詞・専門用語が多い文章

句読点や文体を精密にコントロールしたい文章

プライバシー上の注意点：クラウド型のアプリでは、音声データがサーバーに送信されて処理されます。機密性の高い会議や個人情報を含む会話に使用する場合は、各アプリのプライバシーポリシーを確認することを推奨します。ローカル処理型（Super Whisperの一部モードなど）はサーバー送信を回避できます。

これからの可能性

次の進化が
向かう方向

現在の技術的課題から、次世代の音声入力が解こうとしている問題が見えてきます。

声のトーンによる自動モード切り替え

メールの口調で話せば「ビジネス文体」に、友人に話すように話せば「カジュアル文体」に自動切り替え。現在は手動モード切り替えが必要ですが、音量・抑揚・話速から文脈を自動判定する研究が進んでいます。

リアルタイム文字表示（ストリーミングSTT）

話しながら画面に文字が流れるリアルタイム表示。「録音して処理」ではなく「話すたびに更新」する体験で、入力待ちのストレスを大幅に軽減します。AquaVoiceやしめじが実装を進めています。

話者分離との統合

会議で「誰が何を言ったか」を自動分離して記録するWhisper + 話者分析の組み合わせ。 Claudeなどのツールはすでにこれを実用化しており、議事録作成の自動化として活用されています。

骨伝導・電極マイクによる「無声入力」

喉の振動を皮膚から検出するセンサーや、筋電位を読み取る電極を使い、声を出さずに音声入力する技術の研究が進んでいます。公共の場での「社会的障壁」問題の根本解決になる可能性があります。

声はキーボードより速い

タイピングの壁

なぜ昔の音声認識は使えなかったのか

Whisperが変えたこと

Whisperの内部で何が起きているか

メルスペクトログラムとは

隠れた第二のAI——LLM後処理層

LLM後処理が行っていること

LLMはどのように指示を受けるか

声がテキストになるまでの全工程

精度 vs 自分らしさ——避けられないトレードオフ

AI処理が少ない場合

AI処理が多い場合

3つのアプリのアーキテクチャ比較

いつ使うと効果的でいつ使うべきでないか

次の進化が向かう方向

声のトーンによる自動モード切り替え

リアルタイム文字表示（ストリーミングSTT）

話者分離との統合

骨伝導・電極マイクによる「無声入力」

声は
キーボード
より速い

なぜ昔の音声認識は
使えなかったのか

Whisperが
変えたこと

隠れた第二のAI
——LLM後処理層

声がテキストに
なるまでの全工程

精度 vs 自分らしさ
——避けられないトレードオフ

3つのアプリの
アーキテクチャ比較

いつ使うと効果的で
いつ使うべきでないか

次の進化が
向かう方向