ドラゴンスピーチ11で音声入力を再認識した話
音声認識入力ソフトは10年以上前にIBMのViaVoiceを試した事があります。当時の印象は「反応が遅く認識率も今一つで実用的ではない」でした。今やスマホでは当たり前となった音声認識処理がクラウドサービスではないソフトウエアとしてどうなっているのか、との興味から最新の音声認識入力ソフト「ドラゴンスピーチ11」を体験するイベントに参加したのでした。
■ドラゴンスピーチ11~気になる能力・機能
ニュアンス・コミュニケーションズ・ジャパン(株)の音声入力操作ソフトウェア「ドラゴンスピーチ11」はWindowsXP, 7, 8, 8.1(何故かWindows Vistaは対象外です)用のアプリケーションで2009年にはIBMよりViaVoiceを含む音声入力関連の特許や技術を獲得するなどして現在に至っています。
Microsoft Surface ProをクライアントPCとして行われた機能紹介デモは大別すると
- 音声入力及びコマンドの実演
- SNS専用音声コマンドの実演
- 音声コマンドのカスタマイズ
の三点、まずは久しぶりに目の当たりにした音声認識入力ソフトの印象から。
音声によるテキスト入力やコマンド操作のデモでは、単語や文節の認識、変換速度ともに十分速く正確で、これなら確かにキーボードより速く入力できる場面もあり得る、と感じました。これは、例えばiPad Air+Siriによる音声入力の認識率やタイムラグと遜色ないレベルです。勿論、専門用語が多く含まれる論文の類いは十分な学習(トレーニングや単語登録)が必要になるとは思いますが、日常的な文章入力ならストレスなく使えるレベルででしょう。
またリアルタイムに音声入力変換を行えるだけでなく、ボイスレコーダーなどを使って録音した音声ファイルから手動あるいは自動で文字起こしができる、一種のタイムシフト変換が可能になっています。つまり、予め口述筆記(録音)をしておいて、後からまとめてテキスト化出来る訳ですね。
例えば、口述内容に集中したい場合、パソコンの手動操作で思考を中断される事はできるだけ避けたいものです。こんな時にこの機能は有効ではないでしょうか。
市販のボイスレコーダーだけでなくiPhone+専用アプリで録音した口述ファイルもテキスト化できるので活用範囲はスタンドアローンで使う時よりも広がるはずです。
■音声入力ソフトをどう使うか?~実践編
さて、ドラゴンスピーチ11が実用的な音声認識能力を持っている事はわかりました。
では、キーボードなどの物理的な入力デバイスを使わずに、音声で文字入力する具体的なシーンはどこにあるのか? その一つの回答としてデモの中で示された例がTwitterへの投稿です。
例えばテレビ中継されるサッカーの試合を実況ツイートする、と言うシーンを考えてみましょう。テレビの画面を見ながらキーボードでTwitterへ投稿、と言う操作の流れを想定した時、キーやPCの画面を見ている間に試合の大事な場面を見逃した!と言う事が往々にして起こりえます。
ドラゴンスピーチ11のSNS専用音声コマンドを使えば、Twitterへの投稿ダイアログ内に音声で入力し、「クリック OK」と発声すれば投稿が完了します。
TLを開くとこの様に投稿されたことが確認出来ました。
つまりツイートするのにパソコンのモニターやキーボードをいちいち見る必要がないので、TVの実況画面に集中できる、と言う事なんですね。
なるほど、Twitterによるスポーツの実況中継なら、基本的に短文(或いは単語)なので認識率は相当高そうなので、ほぼTVの画面から目を離す事なく投稿できるでしょう。音声入力ソフトの面目躍如ですね。
ただ、「ゴ~~~~~~~~~ル!!」なんてツィートしたい時はどうなんでしょうか?
実際にデモンストレーターの方は自宅で実況ツイートにドラゴンスピーチを使用している、との事でしたが、語彙を含めて自由自在にツィートに使えるようにするためにはそれなりにトレーニング(学習)を積む必要があるのかも知れません。
で、音声入力を積極的に使いたい、もう一つの解
それは当日のゲストスピーカー、ブログ "Lifehacking.jp"の堀(@mehori)さんが紹介された「ブログの下書きを音声入力で行う」というもの。
堀さん曰く、「子どもを寝かしつけた後に雑用をこなし(堀さんは気象研究を生業とされており、同時に小さなお子さんの子育て中でもあります)、ようやく自分の時間となる深夜にパソコンに向かってブログを0から書き始めるのは物凄い精神力が要る、と言うか無理」、そこで「通勤の自動車内でiPhone+Siriを使って音声入力によるブログ記事の下書きを作ってます」との事。
この録音による下書きで記事の7割は出来上がるので、残る3割をデスクトップで修整すれば忙しい深夜でも完成へと持ち込めるのだそうです。
あぁ、この状況はブログを書く者としてよく判ります。小さな子ども相手でなくとも、例えば深夜残業から帰宅し自分の時間が出来た頃には疲れ切っていた、なんて事はありがちな話だったりします。それ故に隙間時間を見つけてブログの下書きやネタの作り置きをしたりするのですが、堀さんの場合はそれが自動車の中、つまり個室でありながら両手(両足)がままならない環境を逆手にとり、音声入力を有用なインプットツールとしているのです。
さらに堀さんによれば、音声入力には別のメリットがあるとの事。
それは話す言葉で文字かする事で頭の中の考えをより短く単純化でき、それを積み上げ、肉付けする事で再構成すると、カドが取れてまるっとした流れるような文章になるのだそうです。これを始めからキーボード上で考え文字化するとガチガチの理詰めで長ったらしい文章になりがち、なんだそうです。
なるほど、語彙に長けてどんな文体でもキーボードから入力できる文才のある人なら良いのでしょうけれど、私のように記事の内容によって表現方法をどうしようか、悩んでしまう人間にとって、この手法は文章表現に幅を持たせるツールとして試してみるべき、ですね。
動く自動車内でドラゴンスピーチを使うことは現状ではかなり難しいと思いますが、ボイスレコーダーで車内収録し、後でドラゴンスピーチを使用してテキスト化しても良い訳で、ブログの下書き以外にも応用は色々と考えられそうです。
■ドラゴンスピーチ その使い方・まとめ
音声を認識して文字(テキスト)化するドラゴンスピーチはその性質上、自ずと使用する環境は限定的になります。しかしながら、その限定される環境を逆手に取り、用途を絞り込む事で、キーボードによる文字入力とは異なる思考方法や文章表現が生まれる、そんなポテンシャルがこのソフトにはある事が判りました。
そんな視点で考えるとドラゴンスピーチ11は単に手による入力から音声入力へと置き換えるものではなく、むしろキーボード入力を補完しながらこれまでとは異なる創造力を引き出してくれる、そんなソフトウェアと位置付ける事ができそうです。
幸いな事にドラゴンスピーチ 11 日本語版を自分のPC環境でモニターできる事になりました。ブログ記事下書き作成の他、色々と使い途を探りつつ、文章作成スキームにどの様な変化が起こるのか、検証してみようと思います。
« サントリー ザ プレミアムモルツ「香るプレミアム」はプレモルらしいビールでした | トップページ | パナソニック DIGA DMR-BXT970 試用記 (1)~外観をチェック #全録DIGA »
« サントリー ザ プレミアムモルツ「香るプレミアム」はプレモルらしいビールでした | トップページ | パナソニック DIGA DMR-BXT970 試用記 (1)~外観をチェック #全録DIGA »
コメント