Stable Diffusion, ChatGPT など生成系 AI について

COMPUTER
Midjourney

Midjourney で生成

AI について。歳が分かってしまうが、自分が公開サイトをはじめたのは 1997年だ。97年といえば香港はまだイギリス領だったし、初代のたまごっちがブームになった年らしい。ホームページ(ブログではない)をはじめてすぐに MacOS 8 が発売されたから、開始当初は MacOS 7.6 Harmony を使っていただんだろう。ハードウェアは PowerMacintosh 8100 あたりか。ちょうど Steve Josb が Apple に復帰して云々、という頃だ。

当然ながらその頃は iPhone どころか iPod もない、Amazon は日本に来ていないし、Google もなかった。2ch もなかった。

どこかの時点でこれらのサービスを使うようになったんだけど、こんなサービスが面白い!だとかテクノロジーの変化について、都度ブログで触れてこなかったのは失敗だった。思うことがあれば書いておくべきだった。

ということで、将来の読み返し用に AI をとりまく社会変化について書いておく。

ざくっと AI について、社会の受け止めの歴史

古くは「エキスパートシステム」なんて言われていた頃、 AI は役に立つの立たないのか、ビジネスにおいてはお金になるのかならないのか、という状況が長く続いていた。ICT 業界では川下・コンテンツサービス領域で働いてきたが、AI は「研究」するものであって、いくつかの専門分野(特に数学的な問題解決)を除いて、応用分野で活用するものではなかった。

しかし、機械学習・多層ニューラルネットワークの登場によって AI は劇的に進化したのはご存じの通り。DeepMind AlphaGO が世間でも話題になり、「今の AI の判定処理はルールベースじゃないらしいよ」「え?どういうこと?」「機械学習、ディープラーニング」「?」「脳回路みたいなもの」「????」という感じで、久しぶりに AI 研究者に話を聞くと、技術トレンドは全く新しいものに変わっていた。

機械が画像の中の「猫」を認識すると話題になったのが 2012年。膨大な画像データと計算リソースでデータの特徴量を算出するのがトレンドということだったが、使われる用語も次元圧縮だの、多層パーセプトロンだの、モーメンタムだの、蒸留だの(笑)、研究者が夢中になっている論点どころか、AI 業界の一般常識にでさえ、リアルタイムでついていくことができなくなった。

AI はあくまでチェスや囲碁、将棋の打ち手を推測するものであって、AI は相変わらず特定の専門分野技術の話だと思っていた。全く洞察力もなく。本当に残念な人間だと思う。

そんな呑気な認識を置き去りに、AI は画像でも音声でも自然言語でも、数値で置き換えられるものは何でもたやすく処理できるようになった。

機械学習の研究は全世界に広まり、多様な成果を生み、あらゆる分野で使われる技術になった。世界の研究者の成果、 Google や Amazon 、Microsoft など IT 企業の貢献により、AI の応用領域は急激に拡大し、実務で AI を使う人も多くなった(私もそんな1人だ)。

が、2021年までの AI 技術の応用領域は、分類や重みづけ・クラスタ化といったデータ解析、画像における物体や音声における会話などデータ認識、モデル適用による数値予測や条件組合せなど、「現在ある課題」を AI を使ってどのように処理するか、というものが中心だった。

それが昨年、トレンドがすっかり変わってしまった。再び、である。

AI – 2022年に起こったこと

Stable Diffusion / Midjourney

2022年、AI は処理・判断するものから、生成するものに明らかにシフトしてしまった。 2022年、我々一般人の前に Stable DiffusionMidjourney が唐突に、しかも論文ではなく動くシステムとして出現した。Stable Diffusion はテキストコマンドにより、テキストの意味に近い画像を生成するもので、技術的には GPT ベースの Transformer Text Encoder と UNet や Scheduler を応用して得られた計算結果を描写する Autoencoder Decoder など、いくつかの技術の組合せによるシステムなのだが(The Illustrated Stable Diffusion / Jay Alammar に解説)、生成される画像の圧倒的な表現力、言語指示という誰でも扱えるインターフェイスといった要素から、画像生成系 AI に火をつけた。

当然ながら、モデル生成時や img2img における著作物利用の問題、AI が生成する画像の権利問題、AI 提供ベンダーの権利と責任問題、ディープフェイクなどの AI 活用の倫理問題、そして具体的にある分野の人間の仕事を奪う経済的な問題などが一挙に噴出した。

OpenAI ChatGPT

そして秋には OpenAI ChatGPT が現れた。Google BERT や T5、Generative Pre-trained Transformer などの自然言語処理モデル研究が進む中、OpenAI が開発した GPT-3 をベースとしたチャットボットで、入力にフィットするテキストを出力するシステムなのだが、これが「人工知能的に何でも答えてくれる!」と衝撃を持って受け止められている。BERT や T5、GPT Neo は結構ポピュラーな自然言語解析モデル・トランスフォーマーなんだけど、これでチャットボットを作ったのが凄かった。特に、日本人には海外サービスの ChatGPT が自然な日本語を出力していることに驚いたと思う。

2022年11月30日にプロトタイプが公開された以降に起こったことは、周知の通り。リストラを進める Google があわてて Google Bard を発表して株価を落としたり、リストラを進める Microsoft が OpenAI に 1.3兆円投資したり、ChatGPT を Bing に搭載したり。

2022年以降、 Catchy、Mem、Notion AI が登場したり、と AI の応用は確実に新しいフェーズに入っている。

ChatGPT のケースでもある分野の仕事を確実に奪うことが明らかになった。前述の Stable Diffusion の論点に加え、ライター職業の寿命、ChatGPT が出力するテキストの真実性(そんなものない)、AI を活用するリテラシーとリテラシー教育といったところ。

AIという技術を人類が受け入れるために必要な議論が全く間に合ってない状況だ。

AI の進化により、これから起きる変化

さて、2023年2月現時点から、将来に渡ってどんなことが起こるのか、アイデアをまとめておく。ここ数年、コロナでだいぶコミュニケーションは減ってしまったが、自然言語処理の大学研究者と共同研究したり、AI を採用したサービスを展開するベンチャーと仕事をしたり、課題から研究者をリストアップする AI を作ったりしてきた自分が感じたことをもとに、この新たなコンピューティングの夜明け(この朝は何度目だ?)に考えたことをまとめておく。網羅性はない。

ChatGPT はライターの仕事を奪い、選別が進む

新聞メディア衰退の原因がインターネットや無料コンテンツであるかのように言われているが、シンプルに情報入手ルートの多様化が進んだ結果だと考えている。海外のニュース・情報を海外駐在記者が書く記事やレポートによって知っていた時代がかつてあったが、現在ではトルコで発生した地震災害の状況をメディアの記者と同じタイミングで知ることができる。

新しいニュースに対し、社会背景や業界動向、それがあたえる影響や将来展望など、「視点」という付加価値を提供するのがメディアの仕事であり、ライターの実務だと考えているのだが、ストレートニュースのような低付加価値の記事制作は AI に置き換わると思う。昔からそういう予測はあったが、それが実現するまでの期間が見えてきた。3年以内に置き換わるだろう。

イベントで発表された製品についてプレスリリースを読んで、周辺情報を補足してネットニュース向け記事を作成するタイプの業務は真っ先になくなる。搾取ともいえる低賃金での記事執筆業務はその自動化により終焉を向かえる。

一方で、インタビューのように、機械化ができない業務はライターの仕事として一層重要なものとなる。インタビューする人物の過去の活動や発言を丁寧に取材し、領域知見をもった上でインタビューを展開し、記事にまとめる。そういうタイプの仕事は「人間の仕事」として重要になってくる。コンピュータが人にインタビューすることが日常という時代が到来しても、ライターによるインタビューは高付加価値な業務であり続けるだろう。

ChatGPT によりネットの情報はクズばかりになる

ページアクセス取得のために大量のコンテンツを生成する輩がいる。ChatGPT はその作業を劇的に効率化するだろう。既に「〇〇〇について今話題の ChatGPT に聞いてみました!」という情報価値が極限にゼロに近い記事も発生している。

何かを伝えるために下調べもしなければ、そこには自分の意見さえない。「ChatGPT によると」なんてエクスキューズは ChatGPT 自体に話題性があるからで、すぐにコンピュータが生成したコンテンツそのものがネットやソーシャルメディアに氾濫する。#人間が書きました なんてハッシュタグが登場するかもしれない。情報検索は苦難の時代を迎える。

コンピュータが生成した大量のコンテンツから、人間が作成したコンテンツ、人間の意見や意思の表明に関するコンテンツを探し出す技術が確立しないと、ネットサーフィン自体が衰退するのかもしれない。多くの人が、調べものをする際にネット検索より、YouTube や Instagram を検索するのはその兆候だが、それが加速すると思う。ちなみに AI は動画も生成可能だ。

文章の要約や骨子の立案など、業務ツールは効率化が進む

芸術活動とは異なり、ビジネスにおいて業務が効率的になるのは大歓迎だ。メールの文章や議事録、各種資料の作成、プランニングのための情報収集と分析、なんなら選択肢の提案や示唆も欲しい。

先日、NotionAI で先輩からの長文メールを要約してもらったら、依頼事項がハッキリ分かりやすく要約されて、実に便利だった。

「昔は丁寧にペンで資料を書いたもんだ、そうやって仕事を覚えていくんだ」なんて人はとっくに絶滅しているが、似たことが Word / Excel / PowerPoint の使い手にも起こる。オフィスアプリケーションはそのうち、Office という1つのアプリケーション・インターフェイスになるだろう。個人的にはこれらのツールをきちんと使って仕事をしているが、全く使わなくなる世界線も全然オーケー、ウェルカムだ。

クリエーションについて

小説を書いたり、絵を描いたり、音楽を作ること。いわゆるクリエーション・人がモノを作ることへの影響は少ないだろう。小説や絵や音楽、演奏や演技などのパフォーマンス、広くはスポーツもそうかもしれないが、それはその活動自体が人間の自己表現だからだ。見てくれる人がいることにこしたことはないが、人は独りでも歌い、モノを作る。

しかし、それを職業とする人には一定の影響があるんだろう。スーパーマーケットで流れている BGM は人間の著作物であることを要件としていないし、最近みたテレビ番組によると、カラオケのお手本ボーカルもコスト圧縮からアーティスト原版を使うのではなく、8,000円/曲で新たに吹き込んで製作しているらしい。コンテンツ作成においてコストが重要な要素となる案件については AI による効率化が進む。

コンピュータが生成した物語に人は感動しない。人は人の心が動かされたことに対し、共感・感動するのだから。

でも、それは受け手が人間である場合の話。ディープラーニングや大規模モデル構築のように受け手がコンピュータである場合は…、まぁ、こっちはもっと文脈や意味を効率的にやりとりする API やプロトコルが出てくるんだろう。

AI を活用したクリエーションツール

Stable Diffusion のような画像生成 AI を使って効率的に絵を描く人が、アマチュアだけでなくプロモにも存在している。PhotoShop や CG のような編集・加工ではなく、コマンドによりベーシックな絵を描いてしまう。もしくは自分が書いた絵を AI に仕上げてもらう。

この論点において、制作プロセスにおける AI の活用度合いは意味をなさない。「成果物の著作権を構成するための要件」は学術的には興味深いが、すぐにみんな使うようになるからだ。

実際、音楽制作においても人間の演奏や歌唱は既にソフトウェア化されている。ツールには、メロディーやコード展開を提案するものもあれば、演奏を再現するもの、音場補正を行うもの、いきなり音楽データを生成するもの、いろいろある。

音楽を「演奏したい人」は楽曲を誰が手によるものなのかは重要視しない。楽曲選択と接続によって表現する DJ はループを誰が作ったかなんて気にしないのかもしれない。ニーズはより多様に、ソリューションもより多様に。しばらくの間はいろんなツールが次々に出てきて、そのたびに興奮したり、おいおいそれは違うんじゃないか、とか思ったりするんだろう。

協調して課題を処理するコンピュータの登場

ChatGPT や Bard によりコンピュータと協調してで課題を解決する世界が現実となる(外見上、それは可能にみえる)。ナイトライダーの K.I.T.T やインターステラーの TARS のように、人間と会話し、協調しながら処理を行うコンピュータシステムの登場だ。Alexa や Siri のように会話コマンドを受け付けるコンピュータから一歩進んで、会話しながらタスクをこなす。コンピュータとのダイアログ・コミュニケーションが進化すると思う。そう、デジタル・パーソナル・アシスタントだ( Newton は登場するのが 25年早かったんだね)。

コンピュータは、パイロット支援啓発インターフェイスシステムのごとく、ユーザがより多くの成果を獲得することで、存在意義を達成する頼もしい相棒になるんだろう。

ここしばらくは、コンピュータはユーザの意思や考えをより正確に掴もうと、面倒になるくらいに質問を重ね、情報を蓄積しようとするだろう。コンピュータはユーザの発言や指示によってモデルを最適化し、そういう意味でコンピュータ(モデル)には個性が生まれると思う。

想像するとワクワクするが、残念ながら現実的には、相棒となるコンピュータの性能はユーザの資産力に左右される。貧乏人にはポンコツなコンピュータしか手に入らなくなる。

ん?あ! 寺沢武一のコブラ、あの第1話の世界がやってくるんだね!

COMPUTER
この記事をシェアしてくれると、とても嬉しい😆
Follow Me !
波形研究所 所長

WAVEFORM LAB(ウェーブフォーム・ラボ) は音楽制作、デジタルライフ、イノベーションをテーマとするサイトです。

1997年、伝説の PDA、Apple Newton にフォーカスした Newton@-AtMark- を開設、Newton や Steve Jobs が復帰した激動期の Apple Computer のニュースを伝えるサイトとして 200万アクセスを達成。2001年からサイトをブログ化、2019年よりサイト名を WAVEFORM LAB に改称、気になるネタ&ちょっとつっこんだ解説をモットーにサイトを提供しています。

Follow Me !
WAVEFORM LAB

コメント

タイトルとURLをコピーしました