#31 画像生成AIを実際にビジネス利用するためには -LoRA/ControlNet-

Kinkakuへの投資

10月 10, 2023

Kinkakuという画像生成AIのスタートアップに投資をさせていただいた。Akuma.aiという画像生成サービスを行っているので、ぜひ気になるかた登録して利用をしてみていただければ幸い。プレスリリースは下記の通り。

生成AIスタートアップKinkaku、資金調達を完了し、ゲーム・コンテンツ制作のための画像生成クラウド「Akuma.ai」を正式リリース

実際にはこの動画を見ていただくか、実際につかってもらうのが一番なのだが、Stable diffusion web UIを実際につかうと環境構築のためにインストールしたり、GPUが高いPCでないとなかなか生成ができなかったりする。そういった環境構築など必要なく利用することができるようになっている。またモデルを学習させることができ、そのモデルをベースに画像生成することができるようになっている。

非常に抽象化すると、実務に耐えうるクオリティの画像生成ができる可能性があるサービスを提供していると認識している。まだまだこれからサービス自体も改善していくが、ぜひ利用していただければ幸い。

https://akuma.ai

-そもそも現状だと画像生成AIはビジネス利用・実利用しずらい？

生成系AIが注目されてから様々なユースケースを皆が探している。書店にいくと”ChatGPTでできる〇〇”といったタイトルの本が多く並んでいるのが現状である。一時期のDAOやWeb3のときに近い流れを感じるし、その当時は自分がビジネスに興味がなかったのでわからないが、iPhoneなどがでてきたときや、インターネットがでたときも同じような現象が起きていたのかもしれない。それぐらい現状はまだ全員がユースケースを探しているタイミングである気がしている。（もしかすると全てのことに使える可能性もあるが）

画像生成の分野に今回は着目を当てるが、いまこれを読んでいる方で、画像生成AIを使って他人の目に見えるものでなにかつくったことはあるだろうか？　プロンプトを入れて、画像生成したことがある方はほとんどだと思うが、いわゆるビジネス利用として実需で使った方はどのぐらいいるのだろうか？まだ正直数としては多くはないのではないかと思う。

一番多いのはブログ記事などにおいて画像生成でOGPをつくるといったものはよく利用しているのではないか、自分も唯一今利用しているのはそういった意味での画像生成はよく使っている。

ガラガラポン課題：現状の生成だと理想の画像がでるまでが困難で実運用にはきつい

特にプロンプトの扱いにまだなれてない場合（自分もだが）は生成ごとにおみくじやガチャガチャをひくように毎回違うコンテンツテイストのものが生まれてくるようになる。どんなのがでてくるのがわからないのが面白さではあるものの、ガラガラポンの運用だと一貫性が生まれず実運用はされづらい。

例えばLPの画像利用や、Webページでの商品画像利用になるとデザイナーに依頼する場合、カラーコードに従い、またこれまでの暗黙知・共有知をベースに作成する。それはブランドの思想であったり、CVRがこれまで良かったクリエイティブなどを覚えているからだ。

しかし現状の画像生成AIをそのまま利用するとそのようなものが受け継がれなくなってしまう。なので実運用になかなか乗りづらいのが今の現状ではないだろうか（一方VCとして実務で働いているため、こんな使い方している！というのがあればぜひ連絡してご共有いただければ幸い）

そのため海外のスタートアップを見ると例えばTypefaceやJasperあたりがその課題に挑戦しているように思える。下記画像がTypefaceがトップ画面で出しているが、自分の商品画像を登録すると、ブランドに適した文言や画像を生成してくれる。こういったfine-tuningをしていくことによって、実運用に耐えうる用になるのではないかと思う。

（といっても技術の進歩甚だしいので、数年後この記事を読んで何言ってるんだ？こいつは？となる可能性もある）

画像生成においても上記のような問題を抱えていたことはクリエイターとしてもわかっていたので出てきた技術がLoRAやControlNetというものが登場してきた。

-LoRA/ControlNetなどの技術の登場。しかしまだエンジニア以外は使いづらいのが現状

Stable diffusionはオープンソースでもあるため直近でも様々な技術が開発されている。いわゆるAIにおける追加学習としてのAdaptorの開発が進んでいる。Adaptorとは、事前学習済みのモデルに追加される小さなネットワークやモジュールのことで、事前学習済みのモデルを特定のタスクやデータセットに適応させるために使用される。なので簡単にうとDLCみたいな概念で、Add-onで自分の好みにカスタマイズしやすくなるものというものだ。（かといってエンジニアではないので理解間違ってたらすみません）このような技術によって、前述したガチャガチャのような、プロンプトを何度も繰り返して生成しないと理想の画像に近づけない課題（ガラガラポン問題）を解決しつつある。

LoRA

（CivitAIからの引用）

現状で有名なところでいうとLoRA（Low-Rank Adaptation）というものが今は様々な画像生成サービスにも実装がされ始めている。これは、少なくて数枚から25枚からでも特徴を学習することができ、その追加学習によりその特徴を踏まえた画像生成が可能になるというものだ。

なので例えばなのだけれども、自分の写真が数十枚(25枚ほどと記載が多かった）あればその特徴を踏まえた画像生成ができやすくなってしまうのである（そんな自分の顔など生成したくないが）これまでだと例えば自分の場合だと、プロンプトでは”日本人、男性、30代、髪少し長め、一重・・・・”みたいなことを書いていき、似ている人を生成していく必要があったが、そういったものがショートカットできるようになる（繰り返しだがそんな生成したくないが）

これはガラガラポン問題を解決できうるようになるものである。CivitAIなどに多くのLoRAがダウンロード可能なのでぜひ見てほしいが、一方著作権であり肖像権などの問題はあるので利用は慎重に考えてもらいたい。前述したように、そんな莫大な数の画像がなくとも学習できてしまうので侵害にあたる可能性が多くでてきてしまう。

ただ例えば自社のブランドやキャラクターや商品などを様々な方法で見せるための画像生成などを今後考えると、ビジネス上の実運用も期待できるのではないかと思う。（もちろんその更に学習データを考えると著作権・法律上の問題があるのでだから使えるほど容易なものではないが）

ControlNet

（こちらの記事からの画像引用）

こちらも同様に注目されている方法の1つで、事前に訓練されたモデルに新しい制約を与えて画像生成をより自由に制御する技術。ハンドルネームlllyasviel、チャン・リュミンさんという研究者が発表した方法。

制約条件を与えることでより自分の理想に近い画像生成ができるようになるものであり、例えば棒人形でポーズを先に決めることで、そのポーズをした画像生成がされたり、スケッチからそのスケッチを元に画像生成したりなど、まずプロンプト以外で制約を与えることによって、ガラガラポン問題を解決しようとしている。詳しくは下記記事などわかりやすいのでぜひ

【Stable Diffusion】拡張機能ControlNetの使い方を解説！

ControlNet用のポーズを簡単に作れる「Openpose Editor」の使い方【Stable Diffusion web UI】

このような技術発展が著しく、今後もより数年の間にモデル自体の精度もあがるし、こういった追加学習のような技術も発展していくと思うが、今日においてはまだエンジニアの方以外が実装していくのには少し手間もお金もかかるのが現状である。だからこそこの間を埋めるものとして、Kinkakuに投資を今回させていただいた。

-技術の民主化：Kinkaku(Akuma.ai)に期待すること

よりシード期なのでどうなるかは正直まだ未知数なところは多いが、この画像生成を実利用できる時間軸を短くしていき、社会実装できるような存在になってほしいと思い投資を行った。

現状はコンテンツ企業・ゲーム会社などのクリエイティブ生成と相性が良いのではと考えているため、そのような企業の方々で興味がある方はぜひ問い合わせしていただけると幸い。下記PRリリースに掲載の連絡先からぜひ。

https://prtimes.jp/main/html/rd/p/000000002.000121979.html

まだまだこの分野については自分もキャッチアップを続けないと行けないなと思っているが、そういった最先端のテクノロジーのど真ん中で勝負するより、それを実務に落とし込む存在というのは必要なはずで、そこを担う企業になっていくことを期待している。

参照

https://original-game.com/how-to-make-lora/

https://oiuy.net/archives/31884

https://w.atwiki.jp/genai_problem/pages/18.html

https://kurokumasoft.com/2023/02/24/stable-diffusion-lora/

https://civitai.com/

https://freeblog-video.com/stable-diffusion_extensions_controlnet/

Books：GitLabに学ぶ世界最先端のリモート組織のつくりかた

組織本って結構良いものが少ない印象がある。今まで読んで体系的で良かったのは、組織デザインという本が非常に良かったが、この本自体も非常に面白かった。組織デザインよりは実践的であり、タイトルにあるとおりリモートワーク中心の組織をどうつくるかという点においてはより現代のワークスタイルにあった示唆が得られる本だと思う。

ただGitLabのプロダクトでありエンジニアがおそらく大半の組織だからこそできるであろうことがあるので、そのまま真似するのは個人的には危険だと個人的には思う。一方フルリモートになるのかは疑問だが、週5必ず出社するような組織に基本的には戻らないはずではある。そのときにどのように組織の活性化を図るかということを考えないといけなくて、そのためにはこの本を読む価値があると思う。

徹底的なドキュメンテーション文化、バリューの浸透、意思決定権限の明確化（Disagee and commit）のようなところが非常にGitLabは優れていることが伝わってくる。特にドキュメンテーションの点に関しては自分も全くそのとおりだと思っており、特にリモートワーク中心になるとよりドキュメンテーションの価値が上がると思う。「かすれたインクは鮮明な記憶に勝る」という一文が非常に印象に残っている。

また個人的には、会社を去るのではなく、上司を去るというほど人間関係が組織においては大事なのだが、そのための役職、チームメンバーリレーションズスペシャリストを置いているのが興味深かった。どういうことをやっているのだろう・・？

ぜひ組織づくりに興味がある方、またリモートワークにおける組織活性化に興味ある方は一読の価値がある本だとおもうのでぜひ。

またGitlabのHandbookはコチラから公開れているのでDeepdive自分も時間あるときにしてみたいと思う。このHandbookが聖典としてここに書かれていることをもとにして会社が動くようにできている（これを公開しているのもOpensorce的ですごい）

“Disagree and commit。責任者の方針について他のメンバーは懸念や反対意見があればはっきりと意見をする必要がある。責任者も説明責任がある。双方が意見を述べる責任を果たした上で責任者が決定したことであれば賛否を問わず全員が決定を尊重してコミットして、全力で支援する。”
“ドキュメンテーションを徹底するために「かすれたインクは鮮明な記憶に勝る」という言葉を大事にしている。どんな記憶より記録のほうが信憑性が高い。”
“打ち合わせは必ず議事録を残し、議事録の外で物事が決定しないように徹底する。”

BOYAKI

もう10月で今年ラスト3ヶ月になってしまった。世界も激動しており、心配なことも多いなあと思う。ただ自分にできることはなになのか？国際政治とか学ぶかとかおもっても、それが解決できるほど万能でもないことはおもっており、どのようにできるのかは結局目の前の仕事頑張ってやるっていうのに昇華するのがいいのかなあなんて思ったりもする。難しや。。

またこのメルマガも年内は頻度を上げて書いていきたいと思っている。今脳内で書きたいことがそこそこ溜まっており、一旦年内は言語化しきりたいとおもっている。もう書きたいことないなーって年末ぐらいなるぐらいにはとりあえず書きたい。

しかし時間がないのも確か。土日に大体書いているんだけど、平日はなかなかまとまった時間がとれない。これから先はうまく時間と付き合わないとすぐ時がすぎてしまうので、そのあたりは改めてきをつけたいなと思う。

もしよかったらまだご登録してない方はメールアドレス登録いただけると嬉しいです！

時代編集会議

このポストについてのディスカッション

もっと続けますか？