先日AI作曲サービスのSOUNDRAWのHPでサンプルを聞き自分でもすこし操作してみてアウトプットされる曲の完成度の高さに感銘を受けました。そうこうしているとちょうどGoogleがAI作曲のデモを公開しているという記事を見つけました。なので今回はSOUNDRAWとMusic LM(GoogleのAI作曲)の曲を聞き比べてどんなふうにちがいがあるのか直接比較してみたいと思います。AI音楽の専門家でもなんでもないアマチュアのただの音楽好きの考えたこと。的外れな点にはご容赦いただいてお付き合いください。
この記事でわかること
- SOUNDRAWの特徴
- Music LMのサンプル曲
- 聞き比べてみると
- 完成度が高いがゆえに
SOUNDRAWには中の人がいる(のでは?)
これだけたくさんの曲のムードが選べます
Angry/ Busy & Frantic /Dark /Dreamy /Elegant /Epic /Euphoric /Fear /Funny &Weird /Glamorous /Happy /Heavey &Ponderous /Hopeful /Laid Back /Mysterious /Peaceful /Restless /Romantic /Running /Sad /Scary /Sentimental /Sexy /Smooth /Suspense
怒っている/ 忙しくて慌ただしい/ 暗い/ 夢見心地/ 優雅な/ 壮大な/ 幸福感に満ちた/ 恐れ/ 面白くて奇妙な/ 魅力的な/ 幸せな/ 重くて考え込むような/ 希望に満ちた/ リラックスした/ 神秘的な/ 平和な/ 落ち着かない/ ロマンチック/ 走っている/ 悲しい/ 怖い/ センチメンタル/ セクシー /なめらかな /サスペンス
以上25ムード
そして「テーマ」も設定できます。何についての動画/webかということですね。
Ads & Trailers /Broadcasting /Cinematic /Corporate /Comedy /Cooking /Documentary /Drama /Fashion & Beauty /Gaming /Holiday Season /Horror & Thriller /Motivational & inspiring /Nature /Photography /Sports & Action /Technology /Travel /Tutorials /Vlogs /Wedding & Romance /Workout & Wellness
広告と予告編 /放送 /映画的 /企業 /コメディ /料理 /ドキュメンタリー /ドラマ /ファッション&ビューティー /ゲーム /休暇シーズン /ホラー&スリラー /モチベーション&インスピレーション /自然 /写真 /スポーツ&アクション /テクノロジー /旅行 /チュートリアル /ブログ /ウェディング&ロマンス /ワークアウト&ウェルネス
以上22テーマ
すごいですね~。動画が目に浮かんできますが網羅されていないものってあるんでしょうか。それから曲ジャンルも選べます。
Acoustic/ Hip Hop/ Beats/ Funk /Pop /Drum n Bass /Trap /Tokyo night pop /Rock /Latin /House /Tropical House /Ambient /Orchestra /Electro & Dance /Electronica /Techno & Trance /Lofi Hip Hop
以上18ジャンル
これは翻訳はいらないでしょうか。
見て頂いてもわかるとおりこれだけの細かい内容を破綻なく「使える」楽曲としてつくりわけて生成しますから当然AIがつくっているわけではなく中の人がいます。できあがった曲をリクエストに基づいてつなげている感じですね。条件がちがっていても出来上がる楽曲がかぶる場合はありますが中の人が作っている以上当然。条件どおりにしていたら単純計算で9900曲必要になりますから。サンプルはこちらのHPでもきけますが、自分でつくるのも簡単です。そのほかに選ぶのは曲の長さとテンポだけ。それから曲調(energy)をLow Medium High VeryHighの4段階で選べます。時間の中で盛り上がりをつくるのも自由というわけ。アップな気分になるアゲアゲな雰囲気の曲もつくれるのが良いですね。サイトを見ている人に楽しい気分になってもらうためには大切なことだと思います。前回もご紹介したHPはこちら。クリーンリンクです。
LoFi Hip Popの作例をひとつ。動画になりそうですよね。でも音楽をそのまま使って音楽を聞かせる動画にするのは禁止です。
https://soundraw.io/edit_music?m=643f355f0a8afe00102a23dd
音楽制作をされているかたに注意喚起しておくと、音楽を目的物とするときはSOUNDRAWの利用には制限がかかります。ロイヤリティフリーでスポティファイなどに配信して収益化はすることは可能ですが60%以上を自分の音源にすることが必要。またその楽曲についても自身の著作権はSOUNDRAWは放棄しないということなのでメロディをかいたとしてもあなたの著作権は楽曲の一部についてのものとなります。一般のビート販売でステムやトラックを購入する場合と違って楽曲が自分のものにならないことは理解しておく必要があります。ながく自身のサイトでコンテンツとして使ってもらうための措置と考えればやむを得ないことなのかも知れません。良い物にするための製作費もかかっていると思いますし。ひとがつくっているからカッコイイんだ。そのことを念頭に今度はGoogleのMusic LMみてみましょう。
Music LMはこんな感じです
こちらがWebサイト。
https://google-research.github.io/seanet/musiclm/examples/
アンドレア・アゴスティネリ、ティモ・アイ・デンク、ザラン・ボルソス、ジェシー・エンゲル、マウロ・ヴェルゼッティ、アントワーヌ・カイヨン、チンチン・ファン、アレン・ヤンセン、アダム・ロバーツ、マルコ・タリアスカッチ、マット・シャリフィ、ニール・ゼギドゥール、クリスチャン・フランク
Google Research
概要: MusicLMという、テキストの説明から高音質な音楽を生成するモデルを紹介します。例えば、「落ち着いたバイオリンのメロディーが歪んだギターリフに支えられる」といった説明です。MusicLMは、条件付き音楽生成のプロセスを階層的なシーケンスツーシーケンスモデリングタスクとして捉え、24kHzで数分間一貫性のある音楽を生成します。実験により、MusicLMは音質とテキストの説明に従った点で従来のシステムを上回ることが示されています。さらに、MusicLMはテキストとメロディーの両方に条件付けることができ、テキストキャプションで記述されたスタイルに従って口笛やハミングのメロディーを変換できることを示しています。将来の研究を支援するために、5.5kの音楽-テキストペアで構成され、人間の専門家によって提供された豊富なテキスト説明を含むデータセット「MusicCaps」を公開しています。
サンプルが沢山あっていろいろ聞けますね。それにしてもなぜ音楽を表すのにテキスト?キャプションをつけたのはミュージシャンとの説明もありますが??ミュージシャンはそもそも言葉の専門家ではないはずだし統一された音楽用語なんてむしろ例外では???と不勉強のためよくわからないことが多いです。サンプルを聞くとOpenAIのJukeboxよりはだいぶ聞きやすい感じですがやはり「予測と裏切り」のバランスが悪く感じます。そのことについてはこちらの記事で書きました。音楽が良いと感じるためのひとつの原則ではないかと考えています。
テーマがよくわからないうちにコーラスに展開してしまったり、解決してほしい不協和が不協和のまま続いたり。そういう作曲をしないように指示するのは簡単だとおもうのですがそうしないのはなにか理由があるんでしょうね。聞きづらい点を直すのはすぐできそうな気もしますが自律的に作曲させるということが最優先なのかもしれません。
現状で比較すると
AIが作曲しているかどうかは聞き手にとっては重要ではないので、音楽のことがよくわかっていて聞く人に心地よさを感じさせる(場合によってはテンションアップで購買意欲を高めさせる)ようにつくられているSOUNDRAWの方が実用的なのはまちがいありません。「完全にAIが作曲する」というのは音楽というよりは「研究・実験」の色彩が強いですね。音楽的な価値や評価は要素のひとつにすぎません。機械学習がさらにすすんでジャンルの定石のようなものをMusic LMが完全に自分のものにしたら次第にその違いは小さくなっていくことは考えられます。ただ、定石だけの音楽ではおもしろくありません。意外性を組み込んだ時にそれが成功しているかどうか判断するのはAIにとってはむずかしいことなのかもしれません。今回は個人的には実用性でSOUNDRAWの圧勝。作曲を勉強しているひとにとっても参考になるサービスだと感じました。それではまた次回のブログでおめにかかりましょう!