Header:
Terracotta statuette of a male figure holding the head and neck of a mask or image
Cypriot
ca. 750–600 BCE
www.metmuseum.org/art/collection/search/241164
自律した個における多様なアイデンティティの尊重と、それを裏付ける人権意識の高まりは、他方でどうしても、つながりを失って分断された個人に、孤独感や孤立感をもたらしてしまうことと切り離せない。
我々は以前、そのような個に、世界の全体像と、その中にいる自分の位置を同時に知ることで「世界への参加(つながり)」を実感できる装置の、一つの比喩としてr/placeというものを紹介した。
この動画は、ネットワーク上で共有された約100万ピクセル分のキャンバスを、一人、一度に一ピクセルずつ自由に変更できるというやり方で集団的に編集するという実験r/placeのタイムラプス映像(72時間分)だ。
r/placeでは、誰でも参加でき、他人の描いたピクセルも勝手に上書きできる。動画を観ていると、思い思いの場所で何かしら意味のある画像を集団的に作ろうとする勢力があるかと思えば、それを別の意味の絵に誘導したり、破壊しようとする勢力も現れてくる。
いわば画面全体が世界情勢の地図であり、それによって示される世界の、どの位置に、どのような(1ピクセルの)介入をすべきかを、個人個人が考えて上書きをしている。
r/placeはあくまで比喩であるが、このようにして、世界情勢のリアルタイム表示とその都度でのストリーミング投票という形で行われるガバナンスが望ましいのではないかと、我々は提案した。
だが現状では、先述したような孤独感につけ込んで、多くの個がその傘の下に寄り添い合うことができるかのような、全体性の回復や伝統回帰のイメージ、あるいは、この人こそが世界を華々しく変革してくれるカリスマであるかのようなイメージを提示することで、人々を支配しようとする動きが目についてしまう。
自律した個として生きられるような強い人は、実はそんなに多くはない。そう、我々は思う。もし、そうなら、個がその一部であるような「大きなもの(大きな根拠)のイメージ」は、結局必要だろうし、否定されるべきではない。しかしそれが、あからさまに歴史や事実と異なった内容を持つものであったり、特定の属性を持った人々に対する差別や攻撃性を含んだものである場合、それを許容することはできないだろう。そのようなイメージによって実現される全体性が、人々を支配することで利益を得ようとする者に利用されてしまう場合、より多くの不幸が生産されてしまうことにもなる。
分断された個の持つ孤立感を、全体性や伝統回帰へとまとめ上げようとするイメージによる印象操作があり、それを自分の利益のために、あるいは無自覚なままに他人を支配するため利用する者がいる。少なくともこの百年くらいの間、そんな出来事を繰り返し見せられてきたように感じるし、今もなお見せられ続けているように思う。
イメージが生む「印象」によってなされるバラバラな個の統合の大きな問題点の一つは、それが特定の(意図を持つ)少数者によって操作可能であるというところにある。
権力者、有名人、ソフィスト、オピニオンリーダー、広告代理店、インフルエンサー、匿名の煽動者など、それぞれに様々な異なる目的や意図があるだろうし、印象操作にも様々な種類があるだろう。
権力による指令、戦略的なパフォーマンスによる誘導、忖度による自発的な従属を導く圧力、偽情報と知ってあえて行うプロパガンダ、などなど。ナチスによるイメージ戦略から現代の広告まで、特定の属性への悪感情を導くようになされるデマの拡散からインフルエンサーによるステルスマーケティングまで、実に様々な目的、様々な手法でなされる「イメージによる印象操作」がある。
印象操作では、そのイメージが導出された「根拠」が不明確であり、多くの場合、イメージにはそれを操作しようとする者の目的(あるいは無意識レベルでの欲望)によって大きな偏りが込められている。
イメージとして統合されたものに対して、その導出の根拠に遡ってファクトチェックやエビデンスの確認をするのは困難であり、せいぜい、イメージの発信元の信頼性の度合いをチェックすることくらいしかできないだろう。そして、イメージの発信元の信頼性を測る基準もまた「イメージ」であったりする。
とはいえ、イメージの統合性は高く、バラバラにされた個人に、世界の中での文脈を与える力が強くあるという利点があり、このようなところまでを否定する必要はないだろう。
広い意味での「エビデンス」が増えることで、それ以前までは分からなかったことがわかるようになることを「解像度が上がる」という言い方をすることがある。
しかし、高い解像度を持つ画像、あるいはテキスト(情報)を「ざっくりと」把握するためには、むしろ解像度をうまく「落とす」ために抽象化する作業が必要になる。つまり、解像度の高い広大な画像(莫大な情報)の内部で、遠く離れた位置にある(ように見える)もの同士の関係性に気づく作業であり、そのためにもまた莫大な計算が必要になる。近年のAI(特にTransformerを要素とする技術)が新しい水準に達したのも同じ計算を高速化したことによる。
イメージの持つ「ふわっとした感じ」のもつ力というのは、解像度を上げるのではなく、このように「解像度を下げる」作業で、それによって全体性を把握させる力ともいえる。イメージに付随する「恣意的操作の危険性」を排除して、この「ふわっと把握させる力」を抽出して使えないだろうか?
我々は以前、半分ネタのようなものとして「予算案を顔(能面)にする」という提案をした。これも、イメージの力を生かす仕組みの萌芽といえないだろうか。
「ふわっとしたイメージ」は、人間にとっては容易に計算できるが、自然や計算機にとっては大量の計算コストを必要とし、その後に結果として出てくる結果で、じつは高解像度の画像データそのものより、遥かに高い計算コストを必要とする。例えば顔のパターン認識や識別は、長らくAIの重要課題だったが、ようやく近年になって実用的なレベルで可能になった。
その意味では、やっと最近になって、上で挙げた属性とは反対の特性を持つ「イメージ操作」、つまり、「操作できず、アルゴリズムが透明で、検証可能であるような集合的イメージ」の操作が存在しうる可能性が見えてきたということになる。以前にはそもそも可能性すらなかったのだ。
このようなイメージ(と、それを導く計算方法)を、「(解釈可能、操作不能、透明性、それなりの全体性と持続可能性があるようなものとして)トラストレスなイメージ」と呼んでみよう。
なお、ここで「トラストレス」というのは、何らかの権威を信頼しなくても、計算結果の妥当性を検証する手段がユーザーに与えられている、というような緩い意味で使っている。先に触れたr/placeはその素朴な例だ(ただし、r/place自体には主催者がいるので、彼らを信用しないと結果が正しいことは検証できない)。
トラストレスなイメージとは逆に、現代に既によくある「計算されたイメージ」の例として、以下のようなものを挙げてみよう。
説明に使われるオーダーメイドCG
ゲームや映画に出てくる演出CG
AIが概念から作るCG
芸術としてのCG
これらはどれも、誰かの意図によって作られ、制作過程は(AI以外の場合は)不透明で、ユーザーにはその生成過程が検証可能ではない。
たとえば、ニュースなどで見られる統計の結果を説明するCGを信用するためには、統計をどのように表現するか(表現の適切さ)、そもそもそのデータが事実なのか(エビデンスの確かさ)、などについて、発信元、制作元への信頼が必要となる。
たとえば、悪意があるかは別として、薬の効能がある、ということを示すときに、平均が改善したことだけ伝える棒グラフを出し、その誤差(分散など)を示さないことはよくある。だがこの時、もし平均が改善されても、値のばらつきが前より大きくなったとすると、実際は「改善した」とは言い難い。このように、一見すると客観的である情報でも、発信者の誤魔化そうという意図の有無とは別に、割と簡単に印象を操作できてしまう。
つまり、トラストレスなイメージは現在まだ存在していない。だが、そこには少しの希望がある。
上に挙げたCGのような例とは違うものについて、r/placeという具体例を反映させて考えると、トラストレスなイメージの持つべき条件は以下のようになるだろう。
(ある特定個体、グループによる)操作ができない
(これはredditのコミュニティに依存しているr/placeでは厳密には成り立たないが、どのような絵が出てくるかは制御できない)
集団的な参加(投票など)から自動計算される
(r/placeではユーザーがピクセルを置く操作)
計算方法、過程は常に公開(保存)されている
(r/placeではソースコードはあるが、計算過程は不明)
常に全体と部分の関係がイメージ化されて、それがユーザーに対するナビゲーションにもなっている
(r/placeでは、全体の状況を地図として、どこに自分がピクセルを置きたいか判断できる)
ユーザーの意見をイメージとして表明する方法がある
(r/placeでは、そもそも意見=色)
先に述べたように、上の条件すべてを満たすイメージはまだない。たとえば各種プラットフォームが自動でユーザーの行動を収集しているが、その統計・使われ方は公開されず、イメージにもなっていないし、いくらでも恣意的な操作が可能だ。ブロックチェーン上にあるSNSで、統計処理とイメージ生成をプラグインできるようなシステムが、実装としては想像しやすいだろう。
しかし、もしトラストレスなイメージが実装されたとしても、それは、ユーザーの意見をリアルタイムで反映するものである必要があるから、集団的なデータを収集し続けて、生成され続けるものである必要がある。つまり、それに対して人が関心を持ち続ける必要があり、その動機づけが必要になる。
r/placeの場合、参加に期限がある=締切があること、そして、参加するコミュニティの自己顕示(陣取りや自己表現)が、強力な動機づけを提供していた。
r/placeは、良くも悪くも多様な意見が存在していて、それが世界だ、という現実のイメージを示すものとして秀逸だ。しかし、特に何らかの機能を持つわけではない。だが、「予算案を表現する顔=能面」のように、あるイメージ(顔)が、法案や予算案の表現となっており、さらに、そのような法案や予算案を支持する人たちの何かしらの属性を表現するなら、それは、多様過ぎてよくわからない(=解像度が高すぎる)世界やデータへの、ナビゲーション機能を持つだろう。
我々は以前、議員としての政治的信条や意見を持たず、政治的な運動をせず、ただ、法案を採決する場面で、支持者(参加者)からの投票の結果に従って投票するだけのbot議員というアイデアを提示した。
ここで、参加者の投票データを用いて、bot議員に「顔」というトラストレスなイメージをつけることもできるだろう。だが、bot議員に顔を与える場合であっても、ユーザーの「関心の持続」を別に確保する必要がある。顔自体に魅力があって、毎日見たくなる、というのは理想だろうが、難しそうだ。他に方法はあるのだろうか?
実は、このbot議員を提案したときにも、参加者に、地味で注目度の低い法案へ注目させたり、特定の議題への注目を長い期間持続させることの難しさが問題となっていた。この問題の解決法の一つとして(とても十分とはいえないが)、bot議員は政治活動を行わない代わりに、様々な問題について、情報収集や調査を行い、その情報や問題点を整理して参加者にレクチャーを行えばいいという案もあった。
その場合、bot議員のあり方には以下のような様々な段階があり得る。ここでは、bot議員とは議員=(仮に代表になる)人だけではなく、参加者の意見を集約するアルゴリズムを含んだシステムを指す。
Lv1:参加者はシンプルに法案などへの投票だけ行う(bot議員となる人物はただそれに従う)
Lv2:参加者のデータから、どのような法案に興味を向けるべきかのキュレーションをbot議員(のシステム)がする
Lv3:法案の是非についてbot議員の参加者が議論をする
Lv4:議論データをbot議員が処理してキュレーションに使う
Lv5:議論データをbot議員が処理して自律的に投票を行う(全自動型bot議員)
徐々にアルゴリズムが複雑化かつ委任の程度が増加していき、最終段階のレベルでは、今、現実に存在する代議員制に非常に近くなる。ただし、議論と結論の導出の過程の「透明性」があることと、参加者による任意タイミングでの拒否権があるのが代議員制と違う。この違いはとても大きい。
そもそも、選挙という偶然性の高い選出方法で選ばれた議員に長期にわたって権力を委任するのは問題ではないか(民意の反映において、感度が鈍く、かつ、暴走しやすい)という問題意識からbot議員は考えられた。代議員制で数年というような期間を区切って全権委任するという仕組みは、恐らく制度発生時の技術的制約から生まれたもので、現在の技術では別のやり方も可能であり、政治哲学的にも、技術的にも再検討の余地が十分にある。
全件委任の大きな利点は「楽」ということだ。そもそも、政治家でもないのに、政治的議論になんでも興味を持っているという状態は不自然だろう。政治哲学者のハンナ・アレントは、政治的議論自体を一種の芸術として目的化することで無関心を減らさないと、全体主義を招くと論じた。しかし、どうやって芸術にするのかわからない。実際に、多くの人にとっては政治的議論をしている余裕も時間もない。また、政治的な議論に対して持続的に関心を持つのが難しい理由の一つに、政治の個別トピックが、多くの場合、個人としての有権者の生活と大きくズレている、ということもある。
しかし、全件委任された政治家による重大な政治的チートとして、その無関心を利用して、有権者を縛るような法案をたくさん通して外堀を埋め、気づいたら有権者は、代理人である議員を解任する権利までが奪われている、というパターンがある。このような「代理人(代議士)による代理制度自体の破壊」は、どう裏読みしてみても、代議員制度の設立趣旨からずれているし、悲劇しか生まない。
無関心とは逆に、炎上するほど多くの議論を惹きつける政治的トピックというものもある。しかし、言葉による議論は、どうしても後から付け加えた意見の方が有利になる。しかも議論の勝敗を議論によって決定する手段は存在しないので、(言説レベルだけでは)どこまでも決着がつかず、同じ議論がぐるぐる回るだけだったりする。そして、多くの場合、不毛感だけが残る。そのような議論による不毛感と疲労自体が、政治的無関心の大きな原因になる。だから、「言葉による水掛け論」以外の形での意見表明手段がほしい。
どちらにせよ、「全体の状況」と「自分の近視眼的な文脈(関心)」を結ぶことの難しさが、無関心やバイアスの増大を生み、それを利己的で知恵のある代理人に悪用される。政治というものが持つ「全体の地図としてのイメージ」と「細部にあるトピック」の距離を縮める道具が、有権者の関心を持続させるためにも求められる。
以上を踏まえて、「トラストレスなイメージ」に求められる属性をさらに繰り返すと、次のようになるだろう。
全体性)全体構造のイメージ的把握と自分の位置の確認
誘導性)有権者を関心のあるトピックへの誘導する
委任可能性)全権委任と同様の利便性
可制御性・透明性)有権者による制御を可能にするためのアルゴリズムとその透明性
非言語性)言葉による議論以外での意見の集約
しかし、ここで見られる誘導や集約(全体化)は、ほとんど「(悪い意味での)イメージ操作」そのものなので、慎重な運用が求められる。理想的には、人による運用(裁量)が排除される必要がある。誰も運用しなくても自動的に動く、と言えるほどの強力な「(特定の勢力による)操作不能性」と「(導出される過程に関する)透明性」が求められる。
ところで、bot議員への参加者の傾向を全体化して「顔」というイメージに集約する「顔のあるbot議員」の顔の計算方法にも、先述したbot議員の段階を反映した区分があるだろう。「参加者が支持する予算案(の文章)から顔が生成される」というのは、恐らく最も単純で、それゆえ運用しやすいキュレーションになりうる。それでも、何もないところから検索したり要約を頼りに調べていくより楽そうだ。だが、より強いキュレーションとして「予算案に関する議論の意味」を顔にするというようなことを考えることもできるだろう。
トラストレスなイメージについて考えるきっかけは「予算案を顔にする」というアイデアにあった。しかし、そもそもそのイメージを「顔」に限る必要はないだろう。欲しいのは常に更新され続け瞬時の把握と細部の両立した、トラストレスな地図なのだ。
予算案を顔にする、というような「顔」による要約(集約)の利点には次のようなものがあった。
人間は一般に、顔の把握に関しては高い識別能力・記憶能力を持つ
複雑な構造の全体像を要約できる
多くの場合、顔に対して人間は興味を抱きやすい
だが、上に書いたように、トラストレスなイメージが顔でなければならないということはない(「顔」は特殊な一例に過ぎない)。たとえば、『ゼルダの伝説 ブレイス オブ ザ ワールド』というゲームの開発者チームのインタビューでは、開発時に「色によるレビュー」という指標を用いるというアイデアが実行されたことが語られている。
藤林 掲示板は、ゲームをプレイして、“いいな”、“よくないな”と思ったことを匿名で書き込めて、ほかのスタッフがルピーで“いいね”を入れる仕組みです。“いいね”が貯まると、ルピーの色が緑から青、赤になるので、チームでいちばん気になっている部分が、ひと目でわかるんです。ただし、ルールがあって、そこで議論はしない。ルピーが貯まっているところを見ると、自分がプレイしていないところでも気になってプレイをするようになって、自然と意見が集まりやすくなりますし、みんながどう思っているかを考えながらもプレイできる。というように、ただプレイするだけでなく、問題の認識などにも役立つので、ひと粒で二度おいしいといった状況になるんです。
このインタビューでは、定期的に開発中のゲームの制作を休止して、開発チーム全員でそのゲームをプレーする時間を設けたということが語られている。その時に、各自がプレーをしてみて「いいな」「よくないな」と感じたところにそれぞれ投票し、その結果が「色」によって表現されるという。そしてこの場合、良し悪しについては《議論はしない》。
インタビューで語られたわけではないが、この例で、意見表明(評価)を、直感に訴えるように色で表現するというやり方が取られたのは、言葉による議論が、不要な炎上を産んだり、結論の出ない後出しジャンケンの無限連鎖に陥ったりすることが多く、それが不毛感を生むことへの懸念が理由なのではないかと推測される。
開発者がバラバラに自分が担当する部分だけ作っていると、自分が何を何のためにしているのか不透明になり、不安になってくるだろう。上の事例では、その不安の解消を目的に、定期的にすべての開発者が、開発中のゲームをプレイして全体のイメージを共有する。このことも、本稿での文脈から興味深い。「地図(全体像)」を共有するということに相当し、しかもそれがプレゼンや言葉による説明ではなく、プレイ可能で変化していく地図になっているからだ。
もちろんこれは単なる「見える化」ともいえるが、フィードバックも視覚で、地図自体の中に入ることもできるという特徴を持つ。
また、上の事例では、開発者たちがゲームをプレイしている間、その全員の動きの軌跡をモニタリングしていたとも語られている。
藤林 モニターツールは、ワールドマップで、いま全員がどんなふうに動いているか、記録が取れるものですね。
――それはおもしろそうですね!
藤林 プランナーの席に大きなテレビを置いて、誰が、どんなふうに進行しているか、レベル調整がうまくいっているかを確認していました。
青沼 みんながいちばん死んでいる場所とかも、ひと目でわかるんですよ(笑)。
藤林 そこで、だいたい誰がどんなふうに進むか、想定通りになっているか、難易度調整は大丈夫か、といったを確認していました。
これは、前にあげた「トラストレスなイメージに求められる属性」のうちの「誘導性」という要素と重なる事柄だ。プレイヤーたちの作り出す軌跡は、ゲーム世界の中で人々がどのように活動しているかを示すことで場所に意味づけを与える(r/placeの図からのように)。
つまり、(この例ではプランナー限定だが)イメージのユーザーは他の人たちがどのように動いているのかを知ることで、自分の動き方を判断することができる。他の人たちの動きが暗黙的な導きの指標となる。これは、全体(像)を示さずに、ユーザーを属性によって分類した結果から「レコメンデーション」だけを提示する「誘導」とは大きく異なる。強いて言えばバズワードやタグのワードクラウドが近いが、映像は一つのトピックやイベントを1ピクセルまで圧縮できるので、目立たないトピックも同時に表示できる可能性が広がる。三次元的に表示するともっと収納可能なトピックが増える。
レコメンデーションの場合、システム側の悪意と無関係に、特定の狭い関心領域へユーザーを閉じ込めてしまう傾向がある。また、システム側に何らかの意図があって特定情報を優遇すると、「推薦されなかった領域」に関する情報は(「見えているが小さい」のではなく)ゼロなので、関心領域の外に別の領域があることがユーザーに意識される可能性がない。だから、無意識のうちに(あらかじめ定められた)「選択肢」の中から選ぶことになってしまう。ここには、実店舗の本屋とAmazonのようなオンライン書店との違いがある。
本屋では、客は自分が関心を持たない分野の本にも売り場や棚が割かれていることを良くも悪くも空間的に意識せざるを得ない。トラストレスなイメージによるナビゲーションでは、実店舗と同様に、全体像(地図と、他の人々がどう動いているのか)を把握してから、では「自分はどこに行くのか」を選ぶことになる。だから、選択しなかった領域があることが常に提示されていて、それを意識することになる。
Amazonでは、メインで提示されている商品と関連する商品がレコメンデーションされているが、その場所はとても小さく、操作可能で、自分の趣味や購買履歴と無関係な本を目にするのは古本屋などに比べると困難だ。もちろん、余計な情報がない分効率がいいのだが、全体像の把握不能性は上がっていく。
改めて、「ゼルダの伝説」の制作過程のデザインにトラストレスなイメージの構成要素を適用すると、以下のようになるだろう。
地図(みんなでプレーして担当箇所以外の全体像を共有する)
→トラストレスなイメージの全体性に相当する
色によって意見を表明
→非言語性に相当
軌跡による場所の意味づけ
→誘導性に相当
なお、この「ゼルダの伝説」の例は、通常の中央集権的企業での開発作業なので、委任可能性や可制御性・透明性はあまりない。また、地図をすべてのプレイヤーが閲覧できるのかどうかは不明だ。
前節で示したゼルダの「色だけレビュー」の他にも、顔以外で「地図」として機能するものの例として「t-SNE (t-distributed Stochastic Neighbor Embedding)」がある。t-SNE とは、変数(特徴量・記述子など)が非常にたくさんある(多変量・多次元の)データを、個々の変数同士の関係性を一部犠牲にすることで低次元化して、近似的なイメージとして可視化するグラフのことだ。つまり、統計的に得られた複雑な全体構造の概念や表現などを、無理やりに二次元などの、イメージ的に把握可能な形態にしている。
先にも触れたが、同様のものによく知られたワードクラウドがある。ワードクラウドとは、テキストデータの中にある「単語」を、その出現頻度によって大小をつけて表現したグラフだ。これを見れば、そのテキストの中で主にどんなことが注目されているか、それがどんな傾向のものであるかが、(テキストを読まなくても)一目でだいたい把握できる。
ワードクラウドもまた、t-SNEと同様に「地図」として機能し得るという意味では類似性がある。しかし、(前述の「ゼルダ」の例でも指摘したが)「言葉」はどうしても意味に伴うバイアスや、プラス・マイナスなどの感覚(感情)が提示と同時に起きてしまう。地図にせよ顔にせよ、一応そういうバイアスから離れたところでイメージが提示され、その後、このイメージはどういう意味からできたのだろう?と考える余地を与えられることに意味がある。
また、地図を顔で作る場合、人間の顔に対する反応をもっとうまく利用する方法があるような気もする。人間は顔の細部を見ると同時に全体の関係も捉えているし、AIも基本的に同様な仕組みをアテンションとして備えている。これは、局所的なトピックと全体の文脈をつなぐという本稿全体の希望と関係があるはずだ。
本稿で挙げた例は、r/placeも、顔によるbot議員も、ゼルダの開発も、これこそが決定的なトラストレスなイメージである、というような「迫力」からはほど遠い。だが、トラストレスなイメージという概念は、印象操作的なイメージによる動員のための全体性とも、全体性無き膨大な解像度のエビデンスとも違うやり方で、物事を「ざっくりと把握する」ことができる可能性を示す上では役に立つ。それは、社会(世界)と自分との関係の新たな把握の仕方を導いて、それ以前とは「別の行動」へと人々が導かれることを可能にするかもしれない。
我々は、民主制に疲れたり絶望したりして独裁制や全体主義に傾き、独裁者の暴走の反省からまた民主制に傾くという行戻りを繰り返しているようにみえる。「トラストレスなイメージ」に賭けられているのは、民主制と独裁者によるその占拠という人類史の振動パターンを、素子(=個々の人の利用できる情報の「かたち」)を変えることで、ボトムアップに変更できる、という希望なのだ。
CREDITS
原案・草稿:西川アサキ
文章:古谷利裕
画像:掬矢吉水
推敲:VECTION