USでは去年の夏ほどからずっとGenerative AI系が騒がれていて、日本でもChatGPTが出てからよりこのGenerative AI系のトレンドが来ています。自分もキャッチアップしようと思いつつ断片的にしか情報を見たり触ったりしかしていなかったので、今一度自分のためにも整理して見ようと思いったったので書いた記事となります。
Generative AIとは何なのか
いまどういうGenrativeAI系があるのか
そのユースケースの広がりはどのようなものがあるのか
このあたりを考えてみようと思います。(*恥ずかしい話ですが技術的なバックグラウンドがないためそういった技術的側面からの深堀りではないですので言い訳として記載しておきます。)
AIと社会実装
AIというワードはもちろん従来からHot topicであり、スタートアップ・VCとしても着目していた領域ではある。まずステップバックしてAIとは何なのかということを改めて調べてみた。明確な定義がもちろんあるわけではないが、”大量の知識データに対して、高度な推論を的確に行うことを目指したもの”というのが一番しっくりきた。AIブームの話はまとめだすと長くなってしまうので省略するが、やはりこの近年の流れの中で注目されはじめたのはDeeplearning(機械学習の学習方法の1つでデータの特徴を機械が自動的に見つけて学習するもの)あたりからであろう。
自分も未だにDeeplearningによってGoogleのAIが猫を認識したというニュースがすごく頭に残っている(調べると2012年らしい。もう10年前)1,000万枚の画像を学習・パターン分析していく中でAIは特徴を認識しつかんで、猫と認識することができたというもの。この特徴を掴むというのがAIが可能になって、FBの写真のタグ付けの技術であったり、いわゆる機械学習のようなものの産業実装が進んでいったのがこの10年感だったかもしれない。いわゆる認識系AI/識別系AI(Discriminative AI)による分析型AIの普及が進んだ。
結果スタートアップとしてもAIの技術活用しても、そういった認識系AIの発展領域が多かったと思う。具体的にいうと”機械学習により”結果を予想をする・プロセスを効率化する”といった分野が盛り上がった。ビックデータというバズワードからの文脈であると個人的には捉えている。
スタートアップとしてもアノテーションのようなものを効率化するサービスであったり、主にはコンサルティングを主軸としてAI活用(エンタプライズがもつデータを元に)というものが個人的には多くでてきたような認識がある。
Generative AIの出現
その中で更に数年前から話が上がってきたのがGAN(Generative Adversarial Network)という技術による画像や動画の合成や、OpenAIが開発し、2020年7月に発表したGPT-3(Generative Pre-trained Transformer 3)などが出現してきた。それ以前にGPT2が2019年にでたときにNYtimesでFakenewsを生成したときに70%以上のユーザーはそれがFakenewsだと気づかなかったという事例もあった。
その中で2021年にDALL・E 2やImagen、Midjourneyなどの、言語で指示をすると指示にあった画像を生成するAIが次々と登場し、2022年にStable Diffusionが出て一気に盛り上がった中で、Gartner社が2022年の「戦略的テクノロジートップトレンド」で”Generative AI”と書いたことにより、この言葉が今世の中を席巻している。そしてインターフェイスがわかりやすいChatGPTが2022年冬に出現したことにより一気に世間のアテンションが高まっている感覚はある。
なぜ今なのか
実際に確かにChatGPTの衝撃はすごい、自分も使いこなしているとは言えないが要約やちょっと調べるまではめんどくさいことをぱっと聞いたりしている(Google検索でもいいのだけどもう検索結果を選ぶのさえめんどくさい)
ただなぜ今このAIのレベルが進歩したかというと、付け焼き刃のリサーチ知識だけども、2015年にGoogleが出したスケールアップのアーキテクチャにより計算できるモデルの規模がスケールすることが可能となり、またTwitterのスレッドでも北川さんがおっしゃったように、量が質に転化して制度が非常に上がっているらしい。Googleのブログにも, ”language models perform poorly with very little dependence on model size up to a threshold at which point their performance suddenly begins to excel.”ある程度の閾値を超えるといきなり精度が上がりだしたと記載がある
USではGenerativeAI系への投資額が右肩あがりの成長
CBinsightsの記事によると2022年のGenerativeAI系のスタートアップは$2,645Mの調達額になっており年々右肩成長している。まさにCryptoの次のテーマであったのがこのGenerativeAIであったと言えるだろう。そしてまだ2023年2月時点ではまだブームは続いているように思える。現状だと6社がユニコーンとして存在しているがValuatioinとして圧倒しているのはOpenAIの20B。では具体的にどういうスタートアップが生まれているのかをみてみようと思う。
Generative AIの種類はどういうのがあるのか
あえて分類すると、テキスト・Code・画像・動画・3D・音声の6つに分類することができた。もちろん被っているもの・もう少し細かく分類することができるものも多くあるので1つの例としての切り方として思っていただければ幸い。1つずつ代表的なものを紹介しつつ少しだけ深堀りしていこうと思う。
テキスト生成系
これはわかりやすい、言語・テキストを生成するAI系のサービス。ChatGPTで日本や世界に衝撃を与えたけれども、OpenAIの他にも数社会社があったりする。むしろGPT技術だけでなんこか便利なサービス・ユースケースが作れそうな予感もするような分野。事業面では、広告周りやカスタマーサポートなどのようなところはインパクトが大きそう。
GPT(OpenAI):GPT-3の何が技術的にすごいのかっていうのは詳しくは正直技術的観点から自分ではわからなくて申し訳ないが、基本的に技術としては、テキスト系の生成全般そうだけども”単語とその次にでる単語の出現確率をモデル化したもの”なのだけれどもGPT3はクロールした情報の言語データを45TBものデータ量で、1750億個のパラメータ(機械が予想モデルをつくるときに必要な変数。GPT2が15億個に比べ100倍以上)を持つ。とんでもないデータ量でとんでもない変数を用意しているもの。その結果その専門的な領域で利用するためのファインチューニングも必要なくなったのがすごいらしい(記事引用)
Copy.ai・JasperAI:AIコピーライティングサービス。Copy.aiはGPT3を活用。目的と情報を箇条書きで書くとそれにそった文章を構築してくれる。SEOなどを踏まえたコンテンツ作成することができたり、自己紹介フォーマットなど用意されたりしている。マーケティング系に関しては大分効率化が進む期待感が高い。日本特有の長いLPページとかもテイストを調整する感じなどがよりできるとコピーライティングなどLP制作会社も全く違ったやり方をできるようになってくることがでると思う。
Mem:AIメモサービス。AIがメモ・ノート内容を自動的に整理整頓することができる。Notionのように構造化しなくてもよくて、色んな情報をMemになげるだけで整理してくれる。会議においての情報を瞬時にメール送信用に編集されたりすることができる。OpenAIから出資。ちょっと触って見ないとわからないところは多いけど、AI秘書っていうのは非常に良い価値をだしそうだし面白いと思う。
LAVENDER:メール営業効率化AIサービス。より上記よりは具体的なユースケースに踏み込んでいるサービス。メールデータを組み合わせて、返信率の向上を目標に、送信メッセージのドラフトと改善をAIが行う。GenerativeAIのテキスト生成とよりその結果を踏まえて学習を促すようになる。これによって本当の意味でのAutoMarketingが完成する可能性がある
Code生成系
いわゆるプログラミングのコード生成系に関してもGenerativeAIはより効果を発揮すると思う。実際にSQLとかの書き方もデータベースの名前さえあればおそらく簡単にテキストからコードへ変換出来たりもすると思う。これはエンジニアではないので的を外れた考えの可能性もあるがこういったロジックやある程度答えが決まっている言語ではあると思うので、一つ前で紹介した
GitHub coPilot:2022年6月に正式リリース。優秀なペアプログラマーのようにソースの流れやコメントに合わせて次に書くべきコードを提案してくれるらしい。このあたりの技術が進むと本当にシンプルなコードであるとプログラマーにとっては本当に時間効率になってくると思うし、もっというとノーコードでプログラミングができる(GUIでという意味でなく)ようになるのも近いと思う。
Magic:上記のものに非常に近い。Software that builds softwareというタグラインをもって、レガシーコードを読みつつ、書くべきコードの補助をしてくれるAIサービス。こういった系は何個かプログラミング分野でより出てくる気はする。テストコードを書いてくれたりなど、多くあるきはする。一方Techcrunchの取材記事にあったがコードの著作権との問題というのは今後も出てくる可能性はある。本題と異なるが、6人の正社員で$28Mを調達してきているのは驚きでしかない。
画像生成系
昨年にバズった走りである画像生成系も多く存在している。一方現状だと面白さと一発で終わり感もあるので、OGPに使うとかはあるとは思う(このメールのOGPも利用してつくった)が実際のクリエイティブの現場でどのように実装されていくかは未だ自分の中では見えていないところが多い。着手済みではあるが、Adobeのような企業がこのあたりも本腰をいれてくるはずで、クリエイティブにおけるGenerativeAIの爆発というのは必ず3年以内に起きる気はしている
Stable Diffusion,Midjourney,DreamStudio: 流石に知っている人も多いので説明は省きますが、テキストから画像を生成されるサービス。まだ万が一触っていない人いたらより面白いのでぜひ活用してみてください
動画生成系
まだ多くはないけれども動画生成系も何個かある。動画生成というよりは現状は動画合成っぽいのが正直なところだけれども。ただより今後動画がより生成されてVtuberという言葉が生まれて久しいけれども、本当の意味で全てがAIで生成されていく未来は思ったより遠くないのかもしれない。後述する音声系の技術も合わせると実は本当に近い未来の可能性が高い。
Runway:画像・動画などの生成や編集サービス。Twitterなどでも話題に上がっていたが、動画をテキストベースで変換することができる。詳しくは上記のリンクを見ていただいたほうが早いがまさにクリエイティブ能力の民主化を感じる。他にもLightricksも同じようなサービスを提供している企業ではある
3D生成系
メタバース化(VR/ARデバイス浸透)していく流れにおいて3D制作物の需要も足元では少ないが今後大きくなっていくことは間違いない。ただUnity含めて制作の難易度は画像などにくらべてより高くなっていく気はしている。そこにもこのGenerativeAIは効力を発揮しそうである。VR-chatのワールド作成などは結構今は難易度が初心者には高いが、ノーコードのように今後5−10年かけてだれでも自分のメタバースワールドを作成しやすくるなる未来などはあり得るのかもしれないとこの流れをみて思えた。
Poly:Ycom出身。テキストを入力するだけでそれに適した3Dモデルを作成することができる。Techcrunchの記事によると現状でも数百人は有料課金ユーザーで、ゲームデザイン・AR/VR・インテリア・デザイン・建築・ecomerceとまだまだユースケースは伸びていくことを期待している。
Mirage:テキストから3D生成することができるサービス。まだクオリティは今現状はイマイチ
音声生成系
テキストから音声に生成するというものや、テキストから音楽などを生成することができるようなものが増えてきている。YouTubeなどのちょっとした効果音などはこういったサービスで生成される未来は近くもっと妄想すると、動画のコンテクストや文字情報を読み取って勝手に音楽を生成することをYouTubeなどでは5年後ぐらいにあるのではないかなと思ったりした。
MusicLM(Google):テキストから音声に変換することができたり、Googleがだしたでは、テキストから音声をつくることができてしまっている。”アップテンポでギターとドラムでたまに裏切る曲をもっていく”といったように曲調の指定をすると、それにあわせた音楽が作曲される
ElevenLabs:AI音声合成プラットフォームでは、1分以上のターゲットとする人物の声があれば、その音声クローンを作ることができることができる。これはいわゆるDeepfakevoiceのような社会問題も生み出してはいるが、技術としては非常に興味深い。例えばCMなどのタレントの言葉のパターンだしなどこの技術があれば、無限に作成することができるのではないか
GenerativeAI活用案・事業案100本ノック
ということを踏まえてVCとして考えたいのはどういった事業案・どういった価値提供をGenerativeAIを活用してできるのかというのを一旦粒度などばらばら(重複もある)だけれども、書き出してみることにした。何か今事業を考えていたり新規事業を考える人のヒントになれれば幸いだけれども、まあエンタメとして眺めてほしいぐらいの期待感(VCとして捉えたときに投資したい事業ではない場合が多いですw)
家やオフィスの内装に対する提案
プログラミングのコード組成:GPTで十分かも知れないが
タレントのCMや二次利用を撮影せずに利用可能にする
フリー音楽素材の無限生成
インターネット広告運用のアドバイス業。広告代理店リプレイス:Googleが自社でやりそう
広告クリエイティブの無限生成(音声・画像)
旅行の日程を立ててくれるサービス:好みなども入れれれば理想の日程をつくってくれそう
テキストでうったものが音声化してPodcastコンテンツになる
SEOコンテンツの自動生成
AI生成ランディングページ
AIが教えるプログラミングスクール
デジタルツインによる街の設計の自動化
AIとの会話によるコーチング事業:Poised
AIとの会話によるメンタルヘルスケア事業
英会話学習のAIコーチ:Speak(OpenAI出資先)
塾や資格試験などのテスト問題を考えてくれる、例題作る手間をはぶける
GenerativeAIでつくった作品アイデアなどの著作権売買マーケットプレイス?
クイズをひたすらAIが量産し出題するサービス:昔Quiz系のサービスがあったような・・
テストの新しい形態ができる:ひたすらAIが問題を生成しつづけることで、時間内にどれだけ解けるのか?みたいな
コピーライティングの依頼
AI秘書の可能性
日程調整の自動化:現状は空いている箇所を選ぶやり方だが会話によるスムーズな日程調整
編集作業の代替
個人のデジタルツインの生成によるSNS運用代行:本人が言いそうなツイートなどをしてくれる
プレゼン時の想定質問を用意してもらう。QAツールとして使う
フィットネスの報告・ペースメイキング
採用面接の試しに受けることができる?
炎上対策のためにAIで返答をチェック:Twitterで元アイデア拝見しました
GenerativeAIでNFTアートを創り続けるアーティスト
AIがコンテンツを生成しつづけ、配信しつつづけるテレビ局
AIアイドル
ABテストの生成の自動化(コードから画像まで)
機械などの使い方マニュアルの自動生成:製造業現場での機械の使い方を自社用にカスタマイズを自動でしてくれる
研究者の論文を要点だけ書くとテキスト化してまとめてくれる
工事などの作業工程やスケジュールを自動生成
建築系などである国に報告するようなフォーマットを箇条書きから自動生成してくれる?
冷蔵庫の中のものからテキストで調理方法つきの献立を自動生成してくれる
義務教育などの学校問題に対してヒントを自動で生成してくれる
お店などの予約をやってくれる(音声生成・テキスト生成どちらも)
契約書自動生成:要件だけ入力すればいい
条件を記載すれば当てはまる補助金を自動でレコメンド
営業面談を聞いて話すべき内容を教えてくれる営業補助AI
アバター営業AI:勝手にアバターが営業してくれる
FAQを自動でずっと生成しつづける
カラオケで声を有名人に似せられるAI音声合成
カラオケAIトレーナー:カラオケ指導してくれる
駅などで状況をカメラで捉えて自動で音声生成して警告や案内などできる
自動車教習所のAIリプレイス(5,600億円ほどあマーケットある)
アフィリエイト記事の自動生成
動画アップロードするだけで自動的にそのテイストにあった音楽を生成する
コードを理解してエンジニアの技術判定をテキスト化してだしてくれる?:AI関係ないかも
作文能力向上AIコーチ
テキストで生成したスポーツ選手が競うファンタジースポーツ
テキストでほしいものを書いたら3Dプリントされてでてくるサービス
AIによるSNS代理運用サービス:投稿をずっと自動生成
AI声優:ボーカロイドの数が爆発するイメージ
キャラクターにそれっぽいことを答えさせる(実際にある:CharacterAI)
テキストからアプリUI自動生成:Twitterであった
AIがつくる映画
自動車や製造業の部品をAIが起案する
楽曲だけあればAIが作詞してくれるサービス
イベント立案サービス:やりたいことなど趣旨をいれると、キャスティングからタイムテーブルまで提案
海外進出初期コンサルタント
間違い探し画像の製造マシーン:サイゼリヤの間違い探しリプレイス
自分に合うファッション・服などを生成・販売:ex)interalia
誰もがブランドイメージなどだけでアパレルのパタンナーになれる
企業紹介の漫画などを自動生成してくれる:採用目的
職歴自動生成・自動更新サービス:自分がしたこと記入やTwitterやLinkedinなどを連携させることで自動でジョブディスクリプションができる
Job description生成サービス:任せたいジョブスコープなどを入力すると書いてくれる
財務状態サマリー生成サービス:PL/BS/CFなどを入力することでテキスト・画像で財務分析してくれる
AIを活用しているか検査するサービス:逆に
Virtual stylst:自分の好みを学習させつづけていき専属スタイリストを作成
Makeup提案:与えたい雰囲気などをテキスト入力すると、どういうような化粧品を利用するとどういうテイスト・雰囲気の顔になるのか提案
子供やペットの名前を提案サービス
ペットの状態をカメラから読み取りずっとテキストで送ってくれる見守りサービス
車のカーナビの進化:音声認識テキストがよりリッチになる(好みの店の自動レコメンドなど)
GenerativeAIを活用したRPGツクールみたいなゲームが出る
B2Bのユーザーインタビュー記事作成の自動化:NPSやコメントからインタビュー記事が作成される
資産運用アドバイスAI
ビールやジンなどの配合が必要なものの新配合を提案するAI
AIフォーム入力:入力フォームなどをテキストで注文入れたら自動生成してくれ、配信メールもテキスト自動生成
AI情シス部門:PCなどの設定含めて環境などを入力すると自動的にやり方など含めて提案してくれる
AIコンサル資料作成部門:テキストだけ入れると代替そのファームにあったテイストのPowerPointの資料が出来上がる
リフォームのAI提案
AI警備員:服装など指定して音声で注意したりする
AI動画制作ECマーケティング:自分の写真や部屋情報などを送ると自分がそのアイテムを日常時で使っているイメージができる動画が生成される
特定の絵師さんや特定の漫画家のテイストに画像変換サービス
アニメや映画の主人公が自分の顔になってストーリーが進む作品がでる?
ゲームの中に高度に発達したAI-NPCが出まくる: inworld
AI強化版ラブプラス・ときめきメモリアル
ゲーム友達AIフレンズ:ボイスチャットしながらAPEXとかできる
ボードゲームAIフレンズ:自分がボードゲームしたいけど友達いないからほしい
結婚式の席順確定AI:結婚式の席順などを想定を入寮すると自動で出す
ゲームの攻略本自動生成
子供の好き嫌いを入れるとその嫌いを克服できるメニューを提案してくれる
AIガントチャート:進捗などを入力すると遅れやタスク漏れなどを自動でテキストなどで指示してくれる
シンプルにChatgptを音声搭載したロボット。アレクサみたいな
映画撮影のCGスタジオのAIリプレイス
会社の広報ネタ元生成:メールやSlackなどから広報として使えるネタを増やす
故人をAI再現:倫理的にどうかという問題はあるが
キャリアアドバイザーAI:Prodigy AI
半ば無理矢理100個ほど考えてみて思ったのは下記あたりはぱっと思いつきやすいなと感じた。
①シンプル(結果が検索すればでやすい・組み合わせで答えが出やすい)なアウトプットなものの代替にはなりやすい
②相談しずらいもの・だれに相談したらいいかわからない(もしくは周りにいない)ような課題に対しての提案ができる可能性がある
③エンターテイメント業界・クリエイティブ作業の相性の良さ(当たり前だけど)
デジタル上でのアウトプットに関してはどの職業においてもある程度影響が出てくる気はしている。一方現実世界でものを動かすなどの作業が生じるものに関してはロボティクスとの兼ね合いだし、人がやったほうが早いし柔軟性が効くというものは多そうである。
まだまだGPT4でありより精度が上がることによって、できると思われる作業も増えていくとより社会実装のアイデアも多くなってくると思うし、この記事を書いている間にGoogleがローンチしたりと今年はより追っていくべきトレンドであることは感じた。もっと面白い未来がこの技術によってもたらされることを期待している。
自分のGenerative AIの理解整理のために書き始めた文章でしたがどうだったでしょうか。ただただ現状の現時点を整理するだけでは面白くないなと思い、事業・アイデア100本ノックを一人でやってみましたが、3日ぐらい目にするものをすべてGenerative AIでなんとかならないかなと考えながら過ごしましたw まあこういうのもの楽しいですね、自己満足ですが。
ぜひこんな感じで更新していくので、もしまだ登録頂いてない方はメールアドレスご登録していただけると幸いです。またSNSなどで共有いただけるともっと嬉しいです。
一方最後に余談ですが、Googleの検索におけるAIの対応について考えて見たいと思います。GoogleがおそらくChat-GPTやマイクロソフトに対抗してGoogleも出すというニュースが入ってきました。Googleの検索がこのAI応答方式に切り替わるとしたら、Googleのビジネスモデルとしては大打撃なのではないかなと思ってます。Web2的な考えにおいていろんな意見がネット上に自主制作であるからこそ、検索の滞在時間が伸びそれをもとに広告を出すことでGoogleなどは莫大的な収益を得てきたのがこれまでのはずです。
一方この考え方はFakenewsやクリックをつるための炎上方式に加担してきている可能性もあると思っています。非常にポスト・トゥルース的な世界をつくってきてしまった功罪があると個人的には考えています。そこをAIにするとユーザーとしてはいろんな情報をいろんなWebサイトにいって見ることは少なくなる、つまりクライアントサイドとしては自社のウェブサイトに人が来なくなったり、広告で儲けられなくなってくる。ただしその前提の情報量がWebデータで溜まってきたのはいままでGoogleなどが検索を構築したおかげであるという前提があります。まさにGoogleなどのおかげてGenerative AIが成立しているところは正直あるかなと考えてます。
その際に今後Googleがどういう意思決定をするのかは気にはなります。よりではそのGoogleのAIでのレコメンデーションに広告ビジネスモデルをくっつけるというのはあるのかもしれないけれども、非常に歪む気もしていて、現状の自分の頭ではよい発明が思いつきません。収益性か利便性かというトレードオフに悩んでいるのではないかなと個人的には思っております。もしかすると検索のときの入札というAdsの仕組みのように、このGenerative AIの検索・リスポンスにおいても莫大な富を生むビジネスモデルが眠っているのかもしれません。
かつて津田大介さんが、”情報化社会というのは広く情報が行き渡る社会ではなく、自分の見たい情報が狭く深く知れるようになった社会だ”というのをなにかの本で書いてあったことを自分は覚えていますが、その結果Fakenewsや陰謀論などが行き渡りやすくなってしまったのではないかと思います。こういったAIの進化により、偏った情報が配られる世の中からAIが正しいと決めた情報が流れるようになるのか、相対解から絶対解へのゆりもどしがあるのか、こういった観点は個人的にはこの流れをよりメタに捉えたときに非常に気になっています。
最後に余談でしたが引き続き更新していきますので、引き続きよろしくお願いいたします。
-参照ページ
https://www.gartner.co.jp/ja/newsroom/press-releases/pr-20200819
https://www.cbinsights.com/research/generative-ai-funding-top-startups-investors/
https://www.aist.go.jp/aist_j/magazine/20221026.html
https://www.nri.com/jp/knowledge/glossary/lst/alphabet/gpt_3
https://ai.googleblog.com/2022/11/characterizing-emergent-phenomena-in.html
https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/
https://techcrunch.com/2023/02/06/magic-dev-code-generating-startup-raises-23m