【注意】
画像が非常に多い記事となります。通信環境にご注意ください。
Cheena:最近AIの画像生成とか文章生成が話題になっていますね。楽器も生成してくれないかな…
ネモト:楽器デザインの一助となりそうね。
Cheena:MidJourney、Stable Diffusion、Dream by Wombo、AIのべりすとなどなど…

“4 string Acoustic Bass”をStable Diffusionで出力したのがこれ。

同じくStable Diffusionの"6 String Acoustic Guitar Designed By Avicii"がこれです。
・ ・ ・
Cheena:というわけで今回は…AIで楽器を作ってみましょう!
ネモト:やってみようか!
Cheena:今回使用するのは「Stable Diffusion」、長いのでSDと省略します。基礎プログラムが公開されており誰でもカスタムが可能、文字からの出力に加えて画像から画像の出力も可能、かつ出力品は商用利用含めて自由に使用できるようになっています。
画像出力における用語についてざっくりした解説…
- ・プロンプト(Prompt)
- 「AIに入力する文言」のことです。単語により、出力したい画像そのもの、解像度、作風などが変わるため、日夜研究が行われています。呪文、おまじない、と呼ばれることも。
- ・シード値(Seed)
- 「ランダムな数値(乱数)を生成するための数値」です。SDではシードを操作することにより、主に構図や画角がはっきりと変わります。
- ・教師データ(Training Data)
- 「この画像は○○である」というデータのことです。例えば、パイプオルガンの画像があったとして、そこには楽器、パイプオルガン、キーボード、などの要素がタグ付けされますが、更に場合により教会、讃美歌、なども付与されることがあります。画像生成においては、いかに欲しい画像の要素を持つプロンプトを書くかが腕の見せ所になります。
Acoustic Guitarを指定するとほぼ安定してアコギが出力されます。Acoustic Bassは歪んだ瓢箪になります。
エレキギター/エレキベースの場合、StratocasterやTelecasterでは案外綺麗に出力しますがJazz Bass、JazzmasterなどはJazzが優勢になり形状が安定しません。
また、メーカー名とモデル名と弦数を全て大文字に、ハイフンで繋ぐと多少明確に出力することができます。
また、描画エンジンを指定すると何故か安定する傾向にあります。
あとはシード値を変えて綺麗なものが出るまで回すだけです。
Cheena:さてまずはこれ。
“Illust of wine red ORIGINAL-PRECISION-BASS, super realistic, unreal engine”、シード値が2048の結果がこれです。

ネモト:色々と気になる。PGの形状とか、3連ノブの2つ目はノブじゃなくてジャック穴なんだろうかとか。若干歪んでるけど底部がシンメトリックになってるとPB感が出るね。
Cheena:Cabronita Telecasterに近いピックガードとコントロールプレートの付近が融合していますね。
おそらくソープバーピックアップなのも良い。シンプルに扱いやすく取り回しの効くベース、というところでしょうか。
ちなみに楽器名を小文字にしたり繋がなかったりしたものがこちら。




プロンプトを細かく変えて実験したところ、同一シードでも差異が出るということから、大文字化やハイフンでの接続の有効性が確認されました。
ネモト:なるほどねぇ。
最後のやつの溶け方はダリ感があっていい。
Cheena:図らずもホーンがWarwick風になっていたり、多層ボディっぽさがあったりしていますね。
次を見てみましょう。

"Illust of deep sea blue STRATOCASTER-GUITAR, super realistic, unreal engine"のseed値が2048です。
かなり明瞭ですが、Lead IIが混ざっていますかね?
ちなみにSTRATOCASTER-GUITARをacoustic guitarに変更するとこれになります。

7弦!
ネモト:なんかものすごく「ありそう」な感じになってきたけど、メイプル指板のアコギってあんまりないよね。オールメイプルアコギとかあったら面白いかも。
Cheena:また重そうな……ちょっと音の方向性の想像が付きづらいのがいいですね。どうせならフレイムメイプルトップとかいいかも……
というわけで”Illust of ALL-MAPLE-ACOUSTIC-GUITAR”にしてみました。

……普通のアコギっぽくなってしまいました。ちなみにdeep sea blue acoustic guitarを出力してから数日経っていますが、プロンプトを再現しシードも2048に設定すると上の画像が出てきます。
つまり、all mapleとdeep sea blueに何か別の要素が引っかかっているんですね。
ネモト:指板と側板はローストなのかな?
しかし何がひっかかっているんだろうか。共通点はなさそうだけど。
Cheena:この見た目ではおそらく、ただのアコギが出力された、ということだと思います。mapleを入力するとほとんどの場合楽器のシェイプが崩れてしまって、maple-coloredやmaple-fingerboardにしてもこれは同様でした。

“Illust of maple-fingerboard acoustic guitar, super realistic, unreal engine”のシード2055は最も綺麗に出力された例ですが、mapleをebonyなど他の木材にすると崩れました。
つまり、木材であること自体が何かしらの破損トリガーになっていると考えて差し支えないと思います。
もうひとつ気になるのは、deep sea blue acoustic guitarとdeep wine red acoustic guitarでのシード2048は綺麗に出力されるものの、wine red acoustic guitarとsea blue acoustic guitarは結構崩れたということです。


Deep wine redが左、wine redが右です。
更に、sea blueの場合はこうなります。

作画崩壊とまではいかないものの、なんとなく味のある作画になっていますね。
となると可能性としては、”deep”が画像の安定化に一役買っているとも考えられるのですが、”deep+木材の名前”では余計に崩れるばかりでした。
ゆえに木材ではなく色で指定、かつdeepを付ける、としてdeep beigeという謎の色を指定してみたところ、こうなりました。


……やはり崩れますね。中南米の街並みの壁にありそうなデザインだ。
ネモト:mapleやebonyは「天然のものなのだから崩さなくては(見た目が画一的では)リアリティがない」と判断してるんだろうか。deepは「対象の特徴を強化する」と処理しているのなら崩れるよね。仮説だけども。
Cheena:一回ここらでちゃんとしたアコギも置いておきます。
YAMAHA ( ヤマハ ) / FG830 Natural アコースティックギター
うん、作画崩壊してないね。
maple単体では楓の葉が出力されるので、もう一つ考えるべき仮説としてはそもそも"メイプル指板のアコギ"が学習されていない、というところでしょうか。"楽器種"については学習していても、"指板"に関しては為されていない、とか。
しかしあの7弦ブルーアコギ、ちょっと欲しいな…
ネモト:なるほどねえ。確かに学習していないなら出るわけもないわな…。
私も7弦アコギちょっと気になる。よく乾いた音がしそう。
Cheena:さて次に行きますか。ブラックボックスの中身を議論するのに意味はないので…
ネモト:確かにね…私たちにはわからない世界だ。
Cheena:その前に一度、私が使っているAIとプロンプトの使用方法、それにデータセットについてお話しておきますか。少し長くなるので格納しておきます。
SDは2022年8月現在、Hugging Face内のDemoで使用できるほか、公開されたデータをGoogle Colab上で動かす、PCにダウンロードしてローカルで動かす、などの手段によって使用できます。
上のリンクから起動する分には必要ありませんが、Google Colabやローカルで起動する際には、SDのアクセストークンが必要になります(執筆時の情報です。これ以降も改良が続き、アクセス方法やセットアップが変わる可能性があるためここでは詳細は割愛します)。
SDはオープンソースであり、改変版が多数ネット上にも出回っています。
良く見かけるのは不適切画像を削除するフィルターを回避するもの、画像を入力して似た画像を出力するもの、等であり、Google Colab上で駆動するものがほとんどです。
AI自体の学習については、MidJourney等と比較して小規模なこともあり、ジャンルによっては良い画像を生成できないことがあります。これについては後に言及します。
SDのバージョンは幾つかありますが、この記事内で使用しているのはver.0.2.4、Seed値を固定して画像を再現できるようになった最初のバージョンです。
Andy Baio氏により、SDのデータセットのうち1200万枚(約0.5%)の画像を確認できるサイトが公開されています。
これを確認することにより、どのような画像がどの単語に対応するのか、多少なりとも確認することができます。
例えば、「Wallpaper」とすると単なる壁紙ではなく、PC用や携帯用の背景が大量にヒットすることから、これらの要素を持った画像を生成する際には「Wallpaper」が適するとわかります。
また、データセットの言語的・文化的な癖として、「Tempura」を検索してみれば、天蕎麦や天丼が多数ヒットする一方、海外のTempura Roll(巻きずしに衣をつけて揚げたもの)やTempura Pork(豚カツの別名)が混ざり、更にEgg Tempera Paintingの誤字と思われるEgg Tempuraもヒットする、天麩羅単体ではなかなか出てこない、という状態が確認できます。
Cheena:一旦楽器を離れ、アルバムジャケットでも……
こちらはどちらかというとSDよりMidJourneyの方が得意(MidJourneyはアーティスト名+Album Artworkでそれっぽい画像を出力できる一方、SDではアーティスト本人の画像が出力されてしまう。デザイン自体を明確にする必要があり、生成者側の意図が強く出てしまう)ですが、逆にいえばPromptを深読みしてしまって面白くないとも言えるのでSDで生成します。
アーティストだと誰が良いですか?
ネモト:ふむ…
デビッド・ボウイとかどうだろう?独特のセンスで作られたアルバムジャケットってイメージがある。
Cheena:いってみますか。まずはDavid Bowie's single album artwork、2048番で……

Araddin Saneでしょうか?対照実験として同シードで別のアーティストも用意しましたが、構図と背景色は似たようなもの……と思っていたら、David Bowieに似たAvicii(左)とは対照的にBon Jovi(右)がやけに格好良いロゴになりましたね。


Aviciiの方はおそらくStoriesなどのジャケットでも被っている帽子がTim Bergling本人に追加されて……Bon Joviは何があった。多分羽の部分はロゴの要素だと思います。
ネモト:あえていうなら若い頃のボンジョヴィが着てるジャケットの柄っぽいというか。80年代は大抵ぶっ飛んでいたけど、それでもあの人達は独特だから…。
Cheena:謎が増えました。このままアルバムジャケットにしても格好いいですけどね……
もう少し回してみましょう。なんとなくアーティスト名よりジャンル名が良さそうと思いやってみたところ、
“Classic”

“Rock n’ Roll”

“Jazzy Rock”

“Bluegrass”

“Punk Fusion”

“Techino Pop”

“Trance”

“Hard Rock”

“Irish Metal”

”Emo Rock”

“Alternative Rock”

“Dubstep”

“EDM”

“Chiptune”

のアルバムアートワークができました。Chiptuneはドットアート風でかなり可愛いし、体と文字が一体化して顔が映らないEmo Rockもいいですね。
Prompt自体の考察としては、シード2048ではAlbum Artworkの何処かに”円形”の要素があるのと、”Dubstep”と”EDM”に共通するであろう”Electronic”が上下左右対称を作りやすい、という所でしょうか。それと、時折モノクローム/モノトーン/低彩度が出力されるというのの傾向としてロック派生(オルタナ、エモ、メタル)というのがあるでしょうか……
ネモト:こりゃすごい…。"Irish Metal"が1番好きかな。思ったよりそれっぽいのが出てくるから面白いね。
Cheena:ですねえ。他のAIで作ったもので非常に格好いいのもあるんですが、どれも商用不可だったりライセンスが高額だったりして残念ながら紹介できません……
ネモト:私もやってみようかと思っていたんだけど、PCのスペック的に厳しくてなぁ…。新調したらやろうと思ってる。
Cheena:ローカル処理いいですね。Google Colabでやると処理制限があるので、大量に、さらに早く生成したい時はローカルが向いています。
ネモト:ぼちぼちPCを組もうかしら…。10~15万円のミドルスペックを数年ごとに組むことにしてるんだけど、今は更新時期じゃないし特に困ってないからなぁ…。これのために組むのもどうかと思うし。
Cheena:グラボが最低4GBだったかな、必要です。快適に使うならもっと強いものを…となると結構大変なんですよね。
ネモト:強めのGPUか…これを機にSteamを再開しようかな。しばらく据え置きでやってたから…。
※Steam…PC向けのゲームプラットフォーム
Cheena:だんだん脱線してきましたね。無理やり軌道修正するために”(ジャンル名)-by-(アーティスト名) Album Artwork”で幾つかシード違いのものを見てみようと思います。SDだとこれが一番安定するらしく……
“EDM-by-Zedd Album Artwork”
“256”

“512”

“1024”

“2048”

“4096”

“8192”

“16384”

“32768”

派手になったTrue ColorsやClarityが多いですねえ。そしてやはり上下左右対称の画像が多い。
“Jazz-by-Daft-Punk Album Artwork”だとこうなります。
“256”

“512”

“1024”

“2048”

“4096”

“8192”

“16384”

“32768”

案外綺麗に出るものの、なんか細部が違います。おそらくエマニュエルのマスクの反射がバイザーか何かだと解釈されたのでしょうか……
にしてもDaft Punkの書くジャズアルバム、どんな音がするんだろう。シード8192のソロアルバムも気になる。蒸留でもされてるのか、手回しオルゴールですかね?
ネモト:手回しオルゴールはやりそう。
バリバリに歪ませたサックスをリードにしたりして。
Cheena:格好いいですね。もう解散してしまったし、音楽リミックス専門AIの登場に期待です。でも権利関係がめちゃくちゃ面倒臭そうだな……
さて、画像系AIは一旦ここまでとしましょうか。
文章系AIを次回やってみましょう。
ネモト:そうね。ありがとうございました。
Cheena:ありがとうございました。
コラム「sound&person」は、皆様からの投稿によって成り立っています。
投稿についての詳細はこちら