ソースネクストから音声認識技術を活用した新しい製品が登場した。人工知能(AI)ボイスレコーダーの「AutoMemo(オートメモ)」だ。同社が2017年12月に発売したAI翻訳機「POCKETALK(ポケトーク)」は大ヒット商品となった。オートメモはポケトークで培った音声認識技術を、録音した音声をテキスト化することに応用した製品だ。

音声をテキストに変換する作業は「文字起こし」と呼ばれる。筆者のようなフリーライターや記者にとっては日常的な作業だが、とても手間がかかる。音声を録音したボイスレコーダーの「再生」と「一時停止」を繰り返しながら、手作業で文字にパソコンに入力していくためだ。聞き取りにくい箇所は、何度も音声を聞き返すこともしばしば。そのため文字起こしには、録音時間の2〜3倍くらいの作業時間がかかるのが普通だ。

「文字起こしの手間を少しでも省けないか」というのは多くのライターや記者の積年の思い。ライターや記者以外でも会議の議事録を作成したり、受講した講義の内容をノートにまとめたりする人など、文字起こしの省力化に対するニーズは高い。

録音した音声から自動的に文字に変換してくれれば、音声を聞き直さなくても内容を確認でき、再編集するのも最小限の手間で済むのではないか――。こうした期待からボイスレコーダー利用者の注目を集めているのがAutoMemoだ。早速、製品を取り寄せ、実用に足るか検証してみた。

ボイスレコーダーにしてはサイズが少し大きいが、胸ポケットへの収納は問題なし。さっと取り出して録音を始められる

■音声のテキスト化はスマホアプリ経由で

AutoMemoの特徴から見ていこう。印象的なのが、ボタンがたった3つしかないシンプルな外観。端末の状態や操作メニューを表示するディスプレーすら見当たらない。そのため第一印象は、携帯音楽プレーヤーかと思ったほどだ。本体サイズは、幅41×高さ130×厚さ12ミリ。重さは86グラムで、一般的なボイスレコーダーに比べるとやや大ぶり。搭載するボタンは「電源」と「録音」、そして重要なポイントや話題の転換点に挿入する「ブックマーク」の計3つだ。

ボタンが少ないため、操作はとても簡単だ。本体の電源を入れたあと、録音ボタンを押すだけ。電源が入ると録音ボタン周りの発光ダイオード(LED)が点滅し、録音を開始すると今度はボタン中央部だけが点灯する。このためディスプレーがなくても、電源が入っているだけ(待ち受け状態)なのか、録音中なのかは一目で分かる。

AutoMemoの外観はとてもシンプル。本体前面にはボタンが2つあり、上が「録音」ボタン、下が「ブックマーク」ボタンになる 上部には録音用のマイク、右側面には電源ボタンを搭載反対側には、充電用のUSB Type-C端子とマイク入力端子がある

本体がこれほどシンプルに作られているのは、スマートフォンとの連携を前提としているからだ。録音データを聞き直したり、テキスト化した内容を確認したりするのも基本的にスマホアプリからとなる。肝心の音声をテキスト化するクラウドへのアップロードも、やはりスマホアプリから設定したWi-Fi(無線LAN)経由だ。そのため職場や相手の会社などで録音した場合は、自宅に帰ってきてからAutoMemoの電源を入れ、Wi-Fi経由でクラウドへアップロードする必要があった。

AutoMemoはスマートフォンと連携して使う製品。このため初回のセットアップ時、愛用のスマホ(iPhoneまたはAndroid)に専用アプリをインストールして機器同士の接続設定をする

音声のテキスト化にかかる時間は、メーカー公称で録音時間の3分の1。実際に30分ほどの録音データをアップロードしたところ、その半分となる15分ほどだった。変換精度は後述するとして、ここまでの流れは、自分で音声をテキスト化するよりも、大幅な時間短縮になっている。

なお音声のテキスト化は、1カ月1時間までなら無料で利用できる。月1時間を超える場合は、有料プランへの加入が必要だ。有料プランは、1カ月30時間分の音声をテキスト化できる「プレミアムプラン」(月額980円)と、音声10時間分のテキスト変換の権利を購入する「10時間チャージ」(1回980円)の2種類。21年1月上旬時点では、前者のプレミアムプランで申し込みから6カ月間は無料で利用できるキャンペーンを実施していた。

音声データのテキスト化は、無料だと月1時間まで。1時間を超えて音声をテキスト化したい場合は有料となり、月額課金の「プレミアムプラン」か「10時間分チャージ」のどちらかを選ぶ