仕事でYouTubeやInstagram, TwitterなどのSNSに動画を投稿しなくてはならない人も結構増えています。
そんなときの悩みが、「解説などのナレーション音声を入れなきゃいけない」けど、ナレーションを頼むような予算がないことではないでしょうか?
1万円程度から音声合成ツールもありますが、個人用途には使えても商用利用には別途ライセンスが必要と分かって、がっかりした経験はありませんか? そして結局、テレワーク用のヘッドセットで録音し、ノイズだらけの音で社内からの評判もイマイチ……なんてこともありますよね。
そんな中、無料で、商用利用も可能なAI 音声合成ソフト VOICEVOX(ボイスボックス)が公開されました。
今回は、ダウンロードから簡単に使う方法・使ってみた上でのTIPSなどをご紹介します。
- 仕事、趣味を問わず、無料で高品質なナレーションを入れた動画を作ってみたい人
- 動画にかぎらず、音声案内を無料で作ってみたい人
- ニコニコ動画などで合成音声を利用した動画を作成していた。
- 中小企業診断士(登録予定)者として業務支援のために活動。
- 元専業エンジニア、現在も半エンジニアとして最新技術、AI技術の導入支援、指導を行っている。
無料で動画に音声を入れられるAI音声合成ツール「VOICEVOX」を使って見た
VOICEVOX の特徴
2021年8月現在、添付されている音声ライブラリ2種については、Voice:ずんだもん、Voice:四国めたん のようにクレジット記入すれば無料で使用できます。
ライブラリ:ずんだもん については可愛らしいアニメ声で堅い感じの商用利用は少し難しいように思える声質です。
ライブラリ:四国めたん については、落ち着いた音声で、こちらは商用動画のナレーションなどに向いているように思えます。
また、VOICEVOX で使われているこれらのキャラクターは、東日本大震災の東北復興支援を目指して作られたキャラクターおよびプロジェクトの「東北ずん子」のリソースを用いて開発されています。
とくに、最近ではAI(ディープラーニング)の発展のために、クラウドファンディングを通じて積極的にコミュニティにリソースを提供しており、VOICEVOXでもそれらが用いられているようです。
- 商用・非商用問わず無料(音声ライブラリごとにライセンス条件あり)
- ディープラーニング(AI)技術を使った音声合成ソフト
- 入力したテキストを音声に変換してくれる(一般的な文章・漢字ならそのまま対応)
- アクセントの他、イントネーションの細かな調整が可能
- その他、話速、音声のピッチ(音高)、抑揚の調整が可能
- 音声ライブラリを切り替えながら、1つの画面で複数のセリフを作成できる
- 音声が短い場合などで、出力される音声が小さくなる場合がある
- 同じく語尾が切れてしまって聞こえる場合がある
- 発声間隔の細かい調整ができないところ
- クレジット表記が難しい場合に使いづらいことがある(店舗内アナウンスや、電話案内などには使えない? 問い合わせようとしたが該当窓口が見つからず)
まだリリースされたばかりなので、使っていてちょっと使いづらいな! というところは正直ありました。
しかし、無料で、まだまだ精力的に開発が進められているのでいずれ解消されるでしょう。
また、音声合成で不満に感じた部分は「短い場合」なので、発声間隔の調整は音声編集ソフトや動画編集ソフトで直接、間隔をあけるようにして、極力短い音声を作らないことで対応できます。
どうしても短い音声になってしまう場合は、ダミーテキストを貼り付けて、長い音声として出力した後にカット編集するなどの工夫をすると、ある程度対応できます。
VOICEVOX のダウンロードからインストール、初回起動まで
ダウンロード
VOICEVOXはGoogle ドライブ経由で配布されています。ダウンロードの際は、VOICEVOX の公式ページから「ダウンロード」ボタンをクリックし、更にファイル一覧が表示されるので、「VOICEVOX-x.x.x-win.zip」ファイルをダブルクリックします。
x.x.xのところには、バージョンの数値が入ります。8月現在では、0.2.0が最新版ですね。
ダブルクリックすると、下記のようなメッセージが表示されるので、「ダウンロード」をクリックします。
さらに、上記のような警告が表示されます。通常は問題ないので「エラーを無視してダウンロード」をクリックします。不安な方は、お手元のウイルス対策ソフトでウイルススキャンを行って下さい。
ダウンロードされたZipファイルの中の、「VOICEVOX」フォルダを適当な場所に展開することでインストールは完了になります(インストーラーはありません)。
ただし、2021年8月現在、フォルダパスに日本語が含まれていると動作しないことがあるようなので、日本語を含まないフォルダに展開するようにします(C:\DownloadSoft\ など、インストーラーを必要としないアプリを入れておくフォルダを作っておくと便利です)。
VOICEVOXのZipファイルは非常にサイズの大きなものになっており、使っている解凍ソフトによっては上手く展開できない場合があります。
そういった場合には、安定性の高い7-zipなどのアーカイバ(解凍ソフト)を利用すると上手く展開できることが多いです。
初回起動
展開されたVOICEVOXフォルダの中の、VOICEVOX.exeファイルがVOICEVOXの本体なのでダブルクリックして実行します(ショートカットを設定しておくと便利です)。拡張子を表示していない場合は、「V」のアイコンのファイルが目印になります。
また、初回起動時、Windows Defenderにより「Windows によってPCが保護されました」という表示がでる場合があります。
これは、全世界的に実行された回数が少ないアプリケーションなどで表示される場合があります。ただ、これだけでウイルスへの感染を示唆するものではない(充分に安全と言えるほど、実行された回数がない)ので、「詳細情報」をクリックしてから「実行」ボタンをクリックします。
不安な方は、オンラインのウイルスチェックなども利用して安全性を確認してから、「実行」ボタンをクリックしてください。現在は多数ダウンロードされ実行されているため、恐らくでる可能性は低いと思います。
エンジンのモード選択
初回起動時は、下図のようなダイアログが表示されます。
VOICEVOXは、CUDAというNVIDIA社のGPGPUプラットフォームを利用しています。
通常、高価なゲーミングPCか、動画・3Dソフト編集用に作成されたPC以外は上記の条件を満たさないため、「CPUモード」を選択します。確実に自分のPCは大丈夫だ、と分かる方だけが「GPUモード」を選んでください(どれだけ性能がよくても、AMD社製のGPUでは動作しないので注意してください)。
CPUモードの方が処理に時間はかかりますが、出力は同じはずなので問題はありません。
エンジンモードを選択すると、初期化に数十秒~数分程度かかってVOICEVOXが起動します。
近年までグラフィックボードはPCでゲームを楽しむ人にだけ必要なものとされていました。
ただ、NVIDIAがCUDAというプラットフォームを開発するとグラフィック系ツールや動画系ツールのみならず、数値解析やディープラーニングにも活用されるようになりました。
とくにここ1, 2年は、仮想通貨のマイニングのために品薄が続いており、最高級品になると、それだけで普通のPCが数台買えるほどの価格になっています。
VOICEVOXのメイン画面
- 入力されている台本テキストを、すべて音声合成し再生します。
- 音声が再生いる場合、停止します。
- 入力されている台本テキストを、すべて音声合成し、フォルダに個別のwavファイルとして保存します。台本のテキストも、個別のテキストファイルとして保存します。
- 台本テキストファイルを読み込みます。
- クリックして音声ライブラリを選択します。画像では、「四国めたん」が表示された状態になっています。
- 台本テキストを入力します。1行につき、ひとつの音声ファイルとして出力されます。また、クリックして選択された行が、8~11での設定対象となります。
- 台本テキストの入力行を追加します。テキストの入力行ごとに、音声ライブラリ・再生設定は変更できます。
- 上から順に、読み上げのスピード、音程の高低、抑揚の強さを設定できます。細かい数値が入力しづらい場合は、左側のパネルの区切りをドラッグして広げることで、調節しやすくなります。
- ここをクリックすると、下段の調整パネルが「アクセント」に切り替わります(画像ではアクセントの状態)。
- ここをクリックすると、下段の調整パネルが「イントネーション」に切り替わります。
- アクセントの位置を調整します。横にドラッグしてアクセントの位置を調整します。
- 選択された行のみ読み上げます(合成に少し時間がかかります)。
「イントネーション」を選択した場合は上図のようになります。スライダーを上下に調整することで、イントネーションの微調整ができます。
細かな調整がしづらい場合は、上側の緑の「区切り」を上方向にドラッグして広げると、調整しやすくなります。
単語の区切り方/繋げ方
VOICEVOXの文章の解析は優秀ですが、やはり不自然な場合も多々あります。
たとえば、サンプルの文章では「お電話ありがとう」まで一息で(1アクセントで)発音していますが、「お電話」と「ありがとう」で区切ってそれぞれにアクセントを付けた方が自然そうです。こういうときには、ワとアの間にマウスカーソルを持っていくと、下図のように青いマーカーがでます。
その状態でクリックすると、単語の区切りが追加されてアクセントもそれぞれ別に付けられるようになります。
上図では、「イントネーション」タブでやっていますが、「アクセント」タブでも同様です。
そして、意図せず分割されてしまった単語・1アクセントのまとまりですが同様に、
広く空いたギャップのところにマウスカーソルをあてると、ブルーのマーカーがでるので、この状態でクリックすると結合されます。
VOICEVOXで音声合成する場合のTIPS
現時点で、意図と違った音声が出力されやすかったパターンと、筆者が使ってみての対処方法です(後々改善されていった場合は不要になります)。
短いテキストだけの台本はできるだけ作らない
「お電話ありがとうございます」の場合、「オデンワアリガトオ」と一息に読まれます。これを「単語」の区切りを使わず、「お電話」と「ありがとうございます」の2行に分けた場合、「お電話」の読み上げ音声が小さくなり、また語尾も不自然に切れて聞こえます。
面倒臭がらずに、単語の区切りを追加して調整しましょう。
句読点はできるだけ使わない
「お電話ありがとうございます」の場合、単語の区切りを追加しただけだと、間が不自然で一気にしゃべっているように聞こえます。
そこで読点をつけると、何故か「お電話」の発音が不自然に、語尾が切れ気味になります。
また、「はい、ありがとうございます」などでは一切再生されない現象がでるそうです(マニュアルより)。「はい、」の場合ふたつ続けて「はい、はい、ありがとうございます」とすることで対応できるようです。
ただ、「お電話、」くらい長いと、「おでん、お電話、ありがとうございます」と読まれてしまいます。
そのため、読点くらいの間がほしい場合などは、音声編集ツールや動画編集ソフトで音声ファイルを分割し、適切な間を開けるようにするといいでしょう(または、「おでん、お電話……」の先頭を削除するなどでもいいでしょう)。
音量調整は別のツールで行う
上記に気をつけても、どうしても、全体の音量がばらついてしまう場合があります。その場合は、他の編集ツールで音声の音量を揃えるといいでしょう。
ディープラーニングの場合、「このときはこう」と、プログラマが逐一設定して行くのではなく、ほんとうにAIに学習させています。
そのため、サンプル数が少ないデータや音声が短い場合などで期待された結果と違う結果が出やすくなっています。
VOICEVOXの開発者さんはこの界隈では有名な、優秀な方なのでどんどん改善されていくでしょう。ただ、逆に現段階で触っておくと「AIってこういうものなんだ」という理解ができ、AI万能論などに騙されにくくなるという意味でもお勧めです。
留守電応答や店舗内アナウンスに使いたい場合
声のみの場合は最後に「お話しは四国めたんが対応しました」という感じで声で入れていただければと思います。
よろしくお願いします (〃ゝ∇・)ゞ
(原文ママ)
とのことです。留守番電話の応答や店舗内でのアナウンスの場合にはこのような形で音声をいれればいいそうです!
おわりに
例文を見ていただけたら分かる通り、筆者はお盆期間中の自動応答音声に使おうとしていました。しかし、「電話音声にクレジット表記はできないぞ?」となり結局、取りやめになりました。もっと早く準備して、クレジット表記に気づいて問い合わせておけばよかったのですが……。とても強力なツールなので、問い合わせて結果がでたら、こちらに掲載します。東北ずん子公式ツイッター様にお返事いただき、掲載許可もいただいたので掲載しました(TIPS内)。
VOICEVOX の公式サイトでは、「中品質」と表記されていますが、無料でかつ、高品質な音声合成ができる、しかも商用可能というすごいツールです。
CPUによる合成では少し動作が遅いことが懸念されますが、GPUモードで動作させる分にはストレスもないので解説動画などを作りたい! 自社サービスの紹介動画に安定した音声でナレーションをつけたいという場合に、とてもお勧めできます。
今回はテキストファイルの読み込みについて解説しませんでしたが、Excelなどで書いて、一気に読み込ませることもできるようなので、使い勝手もいいですね。
気になった方は、是非ダウンロードして使ってみてください。また、元になった「東北ずん子」のプロジェクトは、定期的にこういったAIの発展につながるようなクラウドファンディングや、もちろん復興支援も行っているので注目してみてください。