AviUtl動画に使う読み上げ音声の調声 VOICEROID2編

この記事は、初めてVOICEROIDなどの読み上げツールを用いて動画を作り、投稿するまでのサポートシリーズの一つだ。

前回は、骨組みにあたる動画構成の作り方、そして読み上げツールで喋ってもらう台本の作り方の流れを解説した。

このあたりは作りたい動画によっても変わってくるが、大体の場合は前回解説した2パターンのいずれかで作ることができるだろう。

それでもまだよく分からなければ調べてみたり、あるいは投稿されている動画を参考にしたりするといい。

さて、前回から一応動画製作の中身に入っているのだが、まだそんな感じはしなかった。

まあ、テキストしか触っていないので当然だろう。

大変長らくお待たせしたが、ようやく読み上げツール自体を使い始めよう。

本シリーズでは大きく二つ、VOICEROID2とCoeFontの使い方を解説する。

この二つの理由は…私が使っていて解説できるのがこの二つだけだからだ。

他のツールを使う場合は、それぞれ使い方やできることを調べてみて欲しい。

今回の記事では、そのうちVOICEROID2を扱っていこう。

また、同じVOICEROIDでもバージョンやキャラクターの違いによってできること、操作方法の差がある可能性があることはご了承願いたい。

初期設定
1. 読み上げの基本設定
調声
複数文の一斉調声
おわりに

初期設定

まず、購入した製品をインストールし、起動してみよう。

初回起動時に利用規約の確認画面等があったかはちょっと忘れてしまったが、そういった部分を除くと幾つかのエリアに分かれたウィンドウが出てくると思う。

左上に「ボイス」、「チューニング」と書かれた領域とテキスト入力画面、そしてその右にキャラクター。

私の画面を例に出すと以下のような感じ。

このそれぞれの説明…の前に、初期設定を確認しておこう。

上部メニューの「ツール」から「オプション」を選択すると、もう一個ウィンドウが出てくる。

その中、「音声保存」というタブを開いてほしい。

もうすでに設定してしまっているものではあるが、私の画面では以下のような感じだ。

幾つか設定項目があり、確認して欲しいのは以下の項目。

「その他」：「テキストファイルを音声ファイルと一緒に保存する」にチェックが入っていること
枠外：「音声保存時に毎回設定を表示する」にチェックが入っていないこと

特に重要なのが一つ目で、このテキストも後でAviUtlに取り込む際に必要となる。

そのため、必ずチェックが入っていることを確認し、入っていなければ入れておこう。

二つ目の枠外については、音声保存時にこの設定を表示するかどうかの設定で、毎回確認したい方はチェックを入れておいてもいい。

私は毎回確認画面が出てくるのが嫌だったので、チェックを入れていない。

ここまでが必須で確認した方がいい内容だ。

他にもやり方によっては確認した方がいい項目もあるが、それはまた後程見ていこう。

読み上げの基本設定

さて、まずはこのVOICEROID2の基本的な使い方を見ていこう。

購入したキャラクターの音声が扱えるのだが、ぶっちゃけ何も設定していなくても喋らせることは可能だ。

しかし、それだとあまりに落ち着きすぎているし話すスピードも遅かったりするかもしれない。

というわけで、それを細かく設定していくことになる。

この時に、プリセットという考え方がある。

画面の左上、「ボイス」と書かれている項目があると思う。

「標準」というタブを見ると、購入したキャラクターが並んでいるはずだ。

VOICEROID2の製品を複数購入している方は、そのインストールしたものが全て入っていると思う。

これらそれぞれがプリセットというもので、特にこの「標準」タブに入っているものが基本になっている。

さて、では作業を一つ。

どれでもいいので音声を一つ選択して、左下の「コピー」を押してみよう。

確認画面が表示され、「はい」を選択すると、「ユーザー」というタブにその声のコピーが登録される。

これらは別で管理されており、ベースとなる声から音量や話すスピードなどをそれぞれで変えることができる。

つまり、同じ声でも、複数の読み方が登録できるということだ。

ただ、標準側のプリセットが元になって、ユーザー側にも反映されるということはない。

例えば標準側で何か設定を入れたとしても、それがユーザー側にまで反映されることはないので、そこは安心して欲しい。

ユーザータブ側は名前も編集できるので、例えばテンションが高い時や、同じ声で複数人数を使い分ける場合はそれが分かる名前にするといいだろう。

では、その設定をするために下の「チューニング」の項を見ていこう。

ここでは、各プリセットの基本となる読み上げ設定を行うことができる。

4つのタブがあるが、今いじるのは左から二つだけ。

まず「マスター」というものだが、これは声に関わらない共通の設定だ。

つまり、ここで設定した内容はプリセットに関わらず全ての声に影響される。

そのため、変更した際の影響範囲が大きすぎるのであまり変更するのはオススメしない…のだが。

右側の「ポーズの長さ」は声によって大きく変わるものでもないと思うので、ここで設定してしまってもいいだろう。

3種類のポーズの長さを設定できるが、イメージとしては長ポーズが読点(、←これのこと)で区切る部分、短ポーズが読点ほどではないが少し区切る部分、文末ポーズは文字通り。

短ポーズはデフォルトの150msでもいいが、長ポーズ(デフォルト370ms)、文末ポーズ(デフォルト800ms)はちょっと長い。

実際に喋らせて調整するのがいいが、参考までに出すと私の設定は長ポーズが250ms、文末ポーズは400msだ。

ちなみに、文末ポーズだけはここでしか設定できないので、調整したい場合は全部変わることを覚えておこう。

で、その設定が済んだら次に「ボイス」のタブを開いてみてほしい。

ここで、選択されているプリセットの設定を行う。

マスターと似た項目が並び、その後ろに一部の声では「スタイル」という項目もある。

これから解説していくが、実際にいじる場合は何らかのテキストを入力して、読み上げた音声を聴きながら変更するようにしてほしい。

左から順に見ていこう。

「音響効果」の4つは文字通り、音量を調節したり話すスピードを変えたりなどができる。

高さもそのまま、抑揚はイントネーションの強弱と思ってくれればいいだろう。

ちなみに、適度に抑揚を落とすと棒読み感も表現できたりするので小技として覚えておくといいかもしれない。

次の「ポーズの長さ」、チェックマークがあるが、これを入れると個別で設定を行うことができる。

もしそのプリセット固有でポーズの長さを変えたい場合は、これを設定するようにしよう。

最後、その右に「スタイル」という項目がある場合。

ここでは、声質そのものを調節することができる。

それこそ、大きく変化させればまるで別人であるかのように読み上げさせることも可能だ。

ここは…キャラクターによって調整できる内容も異なるので、是非ご自身で試してみて欲しい。

ただ、キャラクターやバージョンによってはこれが存在しないものもあるので、使いたい場合は対応したものを購入するよう気を付けたい。

ここまで設定が終われば、基本的な読み上げスタイルが完成するだろう。

調声

では、本格的に読み上げ作業のやり方を解説していこう。

この、意図した読み上げ方に微調整していく作業のことは、一般的に調声(ちょうせい)と呼ばれている。

まず、上で設定した(あるいはこれからなら設定する)プリセットをあらかじめ選択しておく。

そのベースのキャラクターが右に表示されるはずだ。

その状態で、テキスト欄に読み上げたい音声を、まずは一文だけ入力してみよう。

その後、テキスト欄下の「再生」ボタンを押すと、テキストを読み上げてくれる。

微調整を行わない場合はもう完成で、あとは「音声保存」ボタンから音声データを出力するだけ。

このとき、初期設定でテキストも出力するよう設定してあるので、保存場所を見ると二つのファイルが存在するはずだ。

…が、読み上げる文章によっては漢字の読み方が間違っていたり、イントネーションがおかしかったりすることだろう。

その設定を行うのが、「フレーズ」というタブだ。

「アクセント」の調声

今回はサンプルとして、「これから、調声を頑張っていきましょう。」というテキストを標準プリセットの葵に対して調声していこう。

読み上げた音声を是非聞いていただきたかったのだが…規約的に読み上げた音声をここに貼るのはNGなので、ご自身で試してみて欲しい。

補足すると、規約で音声がDLできる状態での公開はNGで、ここに貼る際にはDL不可とするオプションがないらしい。

上の文章をそのまま読み上げると「これから、しらべこえをがんばっていきましょう」と読み上げられる。

…読み方が間違っているので、そこから修正する必要がありそうだ。

一度読み上げた状態で「フレーズ」タブを開くと、以下のように表示されるはず。

では、ここでの基本的な考え方を紹介する。

中学時代の国語を思い出してみて欲しい。

文の構造で、文節というものをやったのを覚えているだろうか。

文節とはそれ以上切ると文章としての意味が分からなくなる単位のことで、中学では「ね」を入れて不自然にならない単位、と習った人もいるだろう。

このフレーズでは、その文節が重要な考え方となってくる。

厳密にはアクセント句という別物だが、慣れないうちは文節で区切ると上手くいくことが多い。

「アクセント」というところを見ると、〇が連なっていて、その下に発音が一つ分対応している。

また、〇はある程度線で繋がっており、間はスペースだけ空いているかPのマーク。

この一塊が、アクセント句になっている。

まず、元の文章を文節に区切ると「これから」「調声を」「頑張って」「いきましょう」だろうか。

このうち、「調声を」の部分が二つに分かれてしまっているので、これをくっつけてみる。

くっつけたい二つのアクセント句のうち後ろの先頭、今回で言えば「コ」の部分を右クリック。

するとメニューが出てくるので、その中から「アクセント句を結合」を選択しよう。

これで、一つ前のアクセント句と結合される。

次に、読み方を直す。

読み方が間違っているアクセント句のどれでもいいので、カタカナの部分を右クリック。

今度は「読み編集」を押すと、新たにウィンドウが出てくる。

ここに正しい読みを入れるのだが、幾つか注意がある。

入力は全てカタカナ全角か伸ばし棒
「は」は「ワ」として、「を」は「オ」として入力する
同じ母音の音が二つ連続で続く場合は、二つ目を伸ばし棒にする(例えば「多い」は「オーイ」、「調声」は「チョーセー」など)
などなど

ぱっと思いつくものだけ出したが、一旦はこれらに気を付けて入力しよう。

ようは、ここでは文字で書いた際の表記として正しいものではなく、具体的に発音する音を入力することになる。

今回は「ちょうせいを」と読んで欲しいので、上の注意に従うと「チョーセーオ」と入力することになる。

これでOKを押すと、カタカナの部分が入力した通りに変わっているはずだ。

この段階での読み上げを確認したい場合は、テキスト欄すぐ下ではなく、アクセント調声部分の下にある再生を押すようにしよう。

上の再生を押すと注意が出てくる通りだが、ここで今やっているのはフレーズ編集というもの。

これを登録することで、そのフレーズは登録された読み方に修正される、ということだ。

さて、これで聞いてみると「調声を」の部分にまだ違和感があると思う。

これは、そこのイントネーションがおかしいことが原因だ。

イントネーションは、一つのアクセント句内における音の上下と思ってくれればいいだろう。

今度は、そのイントネーションを直していこう。

この何が正しいかだが、ぶっちゃけ普段話す時のイントネーションを確認して、それを再現すればいい。

厳密に見たい場合には、アクセント辞典なるものが存在するが…そこまでやる必要もないと思う。

ここで、アクセント句とイントネーションの関係を一つ補足しておこう。

一つのアクセント句で、「一度高い音から低い音に下がったら、もう上げることはできない」という法則が成り立っている。

つまり、一つのアクセント句に着目すると、イントネーションの形は必ず以下のいずれかになっている。

低…低
高…高
低…低高…高
高…高低…低
低…低高…高低…低

ちょっといじってみてもらえれば分かると思うが、VOICEROID側で制御されており、この形にしかできない。

いじり方は簡単で、それぞれのカタカナの上にある〇をドラッグ＆ドロップすればいい。

では、直してみよう。

「ちょうせいを」と言う場合、最初の「ち」だけ低く、そこからは全て高いかと思う。

その通りに直してみよう。

これで、かなり自然に読み上げてくれたと思う。

最後に、このフレーズを保存する必要がある。

先ほども書いた通り、これを保存しないと適用してくれない。

今確認用に再生したボタンの二つ右、「登録」を押せばOK。

これで、上の再生ボタンを押しても今直した形で読み上げてくれるようになった。

もちろん、この後に音声保存すれば修正後の読み上げで出力される。

これで一通りの基本的な調声は以上だ。

ちょっとオマケで、同じイントネーションでもアクセント句が結合されているかどうかで読み方が少し変わる。

文節とは変わってしまうが、それが不正解ということは一切ない。

気になったら一度くっつけてみてどうなるかなど、色々と試してみよう。

また、今回は必要なかったので触れなかったが、各アクセント句の間にポーズを挟むことができる。

ポーズを入れたい部分にカーソルを合わせると少し青くなるので、そこで右クリックすると、短ポーズ、長ポーズ、任意長ポーズが挿入できる。

この短ポーズ、長ポーズはマスター(あるいはプリセットの個別設定があるならボイス)で設定されているミリ秒数、任意長ポーズはここで数値を入力してそれだけ読み上げの間隔を開けてくれる。

ちょっと間隔を開けたい場合は是非活用しよう。

その他の調声

さて、今操作していたアクセント以外にも、音量、話速、高さ、抑揚という項目がある。

これらも、それぞれ調節可能だ。

基本的な操作方法は全て同じで、まずは調節したい箇所を選択。

すると、色は異なるが横に一本の線が出現する。

例えば、話速の場合は緑色だ。

この画面では、アクセント句単位でそれぞれの数値が調整できる。

クリックしてもらっても構わないし、調節したいアクセント句にカーソルを合わせた状態でマウスホイールを操作することでも調節可能。

一か所調節するとそれ以降全て反映されるが、途中から元に戻したい場合はそこで再設定すれば戻すことができる。

こういった部分を凝ることで、より自然な発音に近づけることができるだろう。

なお、フレーズの登録はこの情報もまとめて保存される。

流れとしては、まずアクセント部分で直せるものは全て直し、その後他の項目を微調整していく、という形だ。

ここまでのまとめ

ちょっと考えることが多いので、一旦このあたりでプリセットの考え方、調声の流れなどをまとめておこう。

まず、そもそもこのソフトで読み上げる音声全体の設定があり、それがマスタータブの設定。

次に、各キャラクターを元にしたプリセットがあり、ボイスタブで設定した内容が反映される。

そして、文章にフレーズ登録があればその内容もさらに反映され、最終的に読み上げられる声が決定する。

基本的にマスタータブではポーズ間隔のみの設定をオススメし、プリセットに対するボイスタブの設定で個性を出していこう。

この二つは一度設定したらそうそういじることはなく、それからは読み上げた際のフレーズに対して微調整…調声を行っていく。

まずはアクセント句の区切り方が合っているか確認し、間違っていれば修正。

次に漢字や英単語等の読み方が間違っていればそれを直す。

そして、イントネーションの上下がおかしければそれを直して、基本部分はOK。

これに対して、残る音量や高さ、話速、抑揚をアクセント句ごとに微調整していく、という流れだ。

…と書いたが、イントネーションの上下まででもかなり自然な読み上げになる。

特別何かしらの感情を声で表現しなくてもいい場合は、そこで止めてしまってもいいだろう。

最後に、そのフレーズを登録することで、保存時や再度の読み上げ時にも反映される、といった感じになる。

…フレーズ編集で一つ補足すると、その編集エリアの右上あたりに、「通常。」と書かれた部分があると思う。

これは、その文の種類を表すもので、通常はまあそのまま、普通に読み上げられる。

他にも語尾を少し上げてくれる「疑問？」や、強く言い切るような読み上げになる「断定！」などがある。

基本的には文末に使う丸やクエスチョンなどで自動設定されるが、これを変えることでもやはり読み方が変わってくるので、違和感があればここを触ってみてもいいだろう。

複数文の一斉調声

ここまで、調声のやり方を解説してきた。

これを台本があるならその内容を、ないなら直接入力して調声を続けていく…のだが。

台本の場合、一文ずつプリセットを選択してからコピペしてフレーズ編集して保存して…と繰り返すのはなかなか面倒だろう。

そこで、読み上げさせるプリセットをテキストで制御する機能を使ってみよう。

まず、上部メニューの「ツール」→「オプション」を開いて欲しい。

その「ボイス」タブに、「ボイスプリセットタグ」という項目があるはずだ。

これは、読み上げテキストの中に特定の文字列を入れることで、自動でプリセットを変更することができるようになるもの。

チェックを入れれば、プロンプト文字列というところに入れた内容で判断してプリセットを変更してくれる。

テキスト側の書き方は、プリセット名をそのまま書き、その直後に(スペース等入れずに)プロンプト文字列を入力、その後ろから喋らせる内容を記載する。

例えば、上の画像の設定で「琴葉茜>」という文字列を文の先頭に入れると、先ほどまで葵で読み上げていた内容が、どのプリセットを選択していたとしても(標準タブの)茜で読み上げられる。

もちろんユーザー側のタブにあるプリセットでも可能だ。

これを使うと、例えば以下のようなことができる。

入力した内容通りだが、一度に複数文を、声を切り替えながら進めることが可能だ。

フレーズには一文ずつ表示されるため、おかしいところがあれば再生ボタンをもう一度押して一時停止し、その状態で直していこう。

で、最後に音声保存だが、その前にもう一度「ツール」から「オプション」を開き、「音声保存」を見てみよう。

「ファイル分割」の部分で、真ん中の「1文毎に区切って複数のファイルに書き出す」にチェックを入れておいて欲しい。

これをすることで、上の方法で調声しても1文ずつ別ファイルとして出力することができる。

まとめて1ファイルでもいいのでは？と思うかもしれないが、これをすることでAviUtlでの編集時に効力を発揮する。

その下準備だと思ってくれればいいだろう。

ちなみに、実はこれをすると逆に面倒になる部分も出てくるのだが…その概要と対処法も一緒にAviUtlの解説側で説明しよう。

おわりに

今回は、VOICEROID2の調声方法を解説した。

あれこれ書いたが、ただテキストを入力して、読み間違いだけ直すだけでも立派な調声だ。

最初は、違和感がなくなる程度を目指して調声してみよう。

ここも凝りだすといくら時間をかけても足りなくなってしまう。

特に、何度も同じフレーズを編集していると、どんな読み上げをさせたかったか分からなくなる場合だってあるだろう。

そんな時は一旦休憩するか、関係ないフレーズの調声に進むか、あるいは最初からやり直すなどした方がいい。

それか、他の動画を見てどんな調声をしているか、再現してみるのも面白いだろう。

これが済めば動画編集になるので、是非頑張ってもらいたい。

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31