2022年から2023年にかけて、画像を生成する「Stable Diffusion」や対話的にテキストを生成する「ChatGPT」など、オリジナルな文章や画像、音楽などを作り出す生成系のAIが広く多くの人々の間で話題となっている。
実は我々VECTIONでは、2020年の夏から秋にかけて、下のようなものを作っていた。
予算案(の概要を説明する文章)を入力すると、それに応じた「顔」が生成されるという遊びだ。
国でも地方自治体でも企業でも、もっと小さなグループでも、集団の予算配分はその集団の性質をよく表すと思われる。だが、特定の集団の予算案の全体像やバランス、傾向などを、ただ数値が並んだ表を見るだけで把握することは難しい。ある予算案の持つ「性質」は、超高次元の図形のようなもので、それを数値から直接読み解くには熟達が必要(もしくは不可能)だし、グラフにして「見える化」するのも面倒だ。そしてグラフにしたからといって分かりやすくなるとも限らない。
一方、人の「顔」というものも同様に、感情から性格、年齢、健康状態や個人識別まで、様々な情報座標が複雑に絡まって圧縮された超高次元の図形のような性質がある。そして、人間には人の顔に対してとても敏感だという特徴があって、些細な表情や微妙な細部の違いから、ぱっと見で多くの情報を察知する能力に優れている。このあたりは、わりと妥当な仮説といえるような気がする。
ならば、人の「顔」に、予算案の全体像(その性質や傾向)のような複雑で掴みづらいものを、ふわっとうまく要約してくれる「図表」のような機能を持たせられないだろうか。そんな思いつきから、これが生まれた。最初口にした時、あまりのバカバカしさに大笑いしたことを覚えている。
一方、我々VECTIONでは、全ての国民が自分の考える「理想の国家予算の配分」をストリーミング投票し、その集計結果が常に把握されている状態にする「ミラーバジェット」という制度を夢想してもいて、多くの人にとって「予算案」というものが身近に感じられるようになることが、まともに民主主義を機能させるために望ましいと考えている。半ば冗談、遊びのようにして使える、いろんな予算からいろんな顔が出てくるツールがあると、単純に面白くて良いのではないか。
ということで早速、自然言語処理を行うBERT、画像を生成するSAGANという、当時流行っていたモデルを使って作ってみたのが、冒頭にある画像だ。ドーナツ状のグラフ(サンバーストという表現手法)で表されているのが入力された予算配分で、その予算から生成された「顔」が中央に表示される。つまり、ドーナツ状のグラフの部分から予算案を選択すると、それに応じて「顔」が変化していくイメージだ。
この時に使用した予算のデータは、「政府の事業が検索できるサイト JUDGIT!」(https://judgit.net/)から引っ張ってきた日本政府のものだった。
だが、「顔」の「意味」を制御する方法や拘束条件(顔のどのような細部と、予算のどのような性質を紐付けるのか、その紐付けの理由や根拠をどの程度説明可能にするのか、あるいは全く説明できない方が面白いのか、など)を考えているうちに、忙しさにかまけて、公表の機会を逸してしまった。残念。
その後も、予算案という複雑で、知ろうとすると面倒なものを、「顔」で表現するというアイデアは面白いのではないかという思いは残り、さらにbot議員(https://mirror.xyz/vection.eth/Lkv1_-QciAG1811juIinXYNzLDeNan8zAeW7uHVl9KA)のようなメカニズムが仮に一般化した場合に、政策や予算案の全体的なプラン(性質や傾向)を要約してくれるシンボルのような「顔」があるのは良いことではないか、とも考えていた。
そんな文脈で、以前作ったものをなんとなく意識しながら、今ブームとなっているStable Diffusionの仕組みを見てみると、前に作ったものと構造上似た位置に、文章の意味を数値化したベクトルを入れる場所があった。そこで、試しに同じことを(https://getimg.aiというサイトを使って)やってみた。
前のネタをもう一度やってみようと思った理由の一つに、Stable Diffusionが、抽象的なプロンプト(文)から、それなりに適切な映像を作ることができることが分かったことがある。つまり、ある程度は、適切な意味(予算案)と映像(顔)との対応を自動的に作ってくれるかもしれないという期待があった。以前作ったものは、意味の構造はBERTのみが担っていて、画像生成部分にはあまり(言葉の概念による)拘束がなかったのだ。
試しに、プロンプトに以下の文章を入力すると、次のような画像が得られた。
One close-up of a face symbolizing the project "to strengthen the disaster support system by developing a "Tokyo Metropolitan Government Disaster Psychiatric Team" to provide psychiatric care and mental health support in disaster areas.
(『被災地で精神科医療やメンタルヘルス支援を行う「東京都災害時精神医療チーム」を整備し、災害支援体制を強化する』というプロジェクトを象徴する顔のクローズアップを1枚。)
出典:2019年『東京都一般会計補正予算(第2号)』
確かに、災害時に心理的なケアをしてくれそうな女性の像が生成された、気もする…。
ここで、背景があるとそちらに気が向いてしまうこと、また、リアルな人の顔だと生々しすぎるし、人種やジェンダーなどに関するバイアスが生じてしまうおそれもあることを考慮し、初期値に「能面」を設定してみた(なお、この能面は東京国立博物館所蔵物であり、写真はWikimedia https://commons.wikimedia.org/wiki/Nō_masks から選んだもの)。
何のチューニングもせずに、とりあえず「やってみた」だけだが、これをどのように判断すれば良いのだろう?
そこで、対照的な予算概略(ここでは具体的な予算案の数値ではなく、あくまで「言葉の意味」上の違いでしかないが)で「顔」を作って比較して見たらどうなるかと考え、初期値の能面を交換し、上に示した「ケアのプロンプト」と、それとはある意味「真逆」の「軍事的なプロンプト」によって、それぞれ顔を生成して比べてみた。
One close-up of a face symbolizing the project to "establish a posture of eight BMD Aegis ships as stipulated in the new National Defense Program Guidelines in order to further strengthen our nation's defense against ballistic missile threats.
(『迎撃回避能力を有する弾道ミサイル等の将来の脅威を含む弾道ミサイルの脅威に対する我が国の防衛力を一層強化するため、新たな防衛計画の大綱に規定されたBMDイージス艦8隻の態勢を確立する』というプロジェクトを象徴する顔のクローズアップを1枚。)
出典:『イージス艦へのBMD機能の付加』https://judgit.net/projects/5036
下にある9枚の画像が、その結果としてアウトプットされたものだ。
予算案のシンボルとして「顔」を使うことに意味があるのか、予算の性質の違いを「顔(=オモテ)」はちゃんと表現できているのか(できると期待していいのか)。試しに、実際に見た目から「ケア」と「軍事」の予算の違いを識別できるのか?自分の答えをメモするというアナログな方法でチャレンジできるようにしておいた。
(答えはページの下の方にあります)。
ちなみにVECTIONメンバーの正解率は82パーセントだった。メンバーのうちの一人は正解率が50パーセント程度だったが、拡大せず小さな画像で判断したためで、細部が重要であることが確認された(かな?)。
また、画像が9枚で、正解が4つと5つに分かれるのは見た目重視のためで、特に意味はない。
他にも色々と作ってみた。能面はいい感じにハマる、というか「いい顔」が生まれるようにも思う。
さて、この味を生かすにはどうすればいいのか。続く。
【クイズの正解】
| ケア | ケア | ケア |
| ケア | 軍事 | 軍事 |
| 軍事 | 軍事 | 軍事 |
正解率早見表:1/9=約11%
CREDITS
文章レジュメ・システム原案:西川アサキ、掬矢吉水
文章化:古谷利裕
画像:掬矢吉水
推敲:VECTION