一例をあげるとVOCALOID6とSynthesizer V。似ているようで決定的な違いがあります。個人的には結局両方必要になりました()。この記事ではわかった違いをかんたんにまとめます。
この記事でわかること
- AIボーカルの違い
- どういう使い方をしたいか?
- シンセサイザーとしての声の意味
きっかけは
このブログでは課題曲を階名を歌ってもらうということをやってきました。これはひきつづきやっていきます。ですが今回すこし心境の変化もあって歌手を交代することにしました。そこで新たな歌い手をさがして最新のAI歌声音声合成でテストで歌ってもらうということをしばらくやってみました。
明らかになった考え方の違い
すると部分的なアウトプットが似ていてもアプリの作り方・考え方に大きな違いがあることが分かりました。僕は1ユーザーに過ぎませんからブログラムの出自みたいなことにはくわしくありません。しかしそれでもわかるはっきりとした違いがあります。
かんたんにわかるポイント
違いがあらわれているのはカバーしている音域ですね。今回僕は階名で歌う範囲としてギターの音域をおさえたいと考えていました。E2~D6までが入るとするとだいたいC2~D6がその範囲になります。しかし冷静に考えるとこれは4オクターブ+2半音。もちろん人間が声で出せる音域ではないですね。ただVOCALOIDを当たり前のように使っているとこのことはさほど意識しません。他のメーカーの音源をVOCALOIDと同じように使おうとして気付きました。
なにを目的にしているか
それは「人間の歌唱をシミュレートする」のか「人間の歌声をモチーフとした楽器をつくる」のかの違いです。VOCALOID6は後者。それ以外は基本的に前者です。僕はピアノやギターといった楽器のメロディを階名で表現するのに「声」を使いたいと考えています。なのでこちらについてはVCALOID6以外の選択肢はありません。再生音のピッチの正確さについても楽器メーカーの製品ですから間違いのないところ。安心して使うことができます。
声が楽器になったことでうまれたもの
僕が言うまでもありませんが「人間が歌わない」ことによってかえって歌の表現はとてつもない自由を得ました。それが今日までボカロの歌の世界を形作っています。当初は粗削りな作品も多かったですがノイズの中から意味を汲み取ろうと熱心に耳をすましていたのは僕だけではなかったはず。音声合成そのものは定着して目新しさはなくなりましたが表現があともどりすることはありません。AIが曲全体の制作をアシストする未来がもうすぐそこまでやってきて、いまは再度の飛躍のための準備期間のような時期ではないでしょうか。楽器の領域に踏み込んだ声が今後どんな新しい表現をみつけられるのか。ゼロからイメージして作り出すトライはユーザーの私たちにゆだねられています。
人間に近づいた歌声
一方で技術の進歩はアプリの歌唱能力をどんどん人間に近づけています。ChatGPTの受け答えがまるで人間のようと話題ですが音声合成によるボーカルもまったくいっしょ。記事の文章をAIが書いたのか人間が書いたのかが見分けがつかなくなるのはまもなく。同様に人間がうたっているのかAIがうたっているのか音を聞いて分からなくなる未来はすぐそこです。リアルな歌声を目指すアプリの音域は当然ですがより狭く実際の人間の歌唱に近いものになっています。
できることが違う
妥協せずに自分の歌や目的にあったライブラリを探すべきですね。人間の歌手にイメージを伝えるための「仮歌」にするなら思ったように歌ってもらうのに手間がかかっては意味がありません。逆に完パケまで歌ってもらうならとことこん自分の考える表現に道具として追随してもらう必要があります。出したい音が出ないことに途中で気づくのは(今回僕がそうでした)できれば避けたいですね。幸いお試し期間が設けられているアプリが多いですから納得のいくまで試すことができます。
歌の表現に不足はない
個人的には本当に表現しようと思ったら現在でもアプリの表現能力に不足はないと思います。音域は例外的な落とし穴。もちろん歌の表現や雰囲気に適した歌唱は存在します。自分の耳できいて心地よく感じるAIを選べば間違いないですね。きっと聞く人にも伝わると思います。僕も階名唱がなるべくはやく復活するように頑張ります。それではまた次回のブログでお目にかかりましょう!