関連キーワード: Knowledge Graph, knowledge matching, Semantic Web, ontology, semantic annotation, Machine Learning, federated learning, DAO, censorship resistance, Decentralized AI
各DAOは個別にチューニングしたAI(言語モデル)を所持するようになると思う
実際、「AI」みたいなものじゃなくても、”ある程度研究用のデータをみんなで共有しようよ”みたいなのはGitcoinのFDDチームが提唱する Anti-Sybil Legos の概念
Twitterの反応:
https://twitter.com/search?q=Anti-Sybil%20legos&src=typed_query&f=live
Scrapboxまとめ:
「みんなでシビルアタックをしそうなアカウントを共有していこうよ!」概念、Money LegosのAnti-Sybil(複数アカウント攻撃対策)的概念
多分Ocean Protocolとかもそうだと思う、知らんけど。
2つあるかもしれない
どのようにして学習モデルに対する公開時の検閲を防ぐか
ここにFederated Learningを使う理由がある
どのようにしてファインチューニングを進めていくか
前述のFederated Learningと合わせて、最適化(説明可能AI?)のためのSemantic Annotation。
順番に説明していく
前提から紹介
大規模言語学習モデルで訓練されたchatbot(例: ChatGPT、GPT3)がHTTP API経由で提供されていると、OpenAIが実施した検閲やチューニング(これを落合は「政治」と表現)がベースになってしまう
端末側(エンドユーザーの実行環境)に学習済みモデル(検閲されていないGPT3)を置けると、自分たちで検閲のラインを調節できるので便利
なのでどこか1つのコンピューター(OpenAIはBingからコンピューターリソースの支援を受けている)で機械学習モデルを作るより、みんなでブロックチェーン的に機械学習をすれば、どこかが検閲されても”素の”機械学習モデルを使えるかもしれない
つまりどういうことかというと
Federated Learningがひとつポイントかなと。
Initially proposed in 2015, federated learning is an algorithmic solution that enables the training of ML models by sending copies of a model to the place where data resides and performing training at the edge, thereby eliminating the necessity to move large amounts of data to a central server for training purposes.
The data remains at its source devices, a.k.a. the clients, which receive a copy of the global model from the central server. This copy of the global model is trained locally with the data of each device. The model weights are updated via local training, and then the local copy is sent back to the central server. Once the server receives the updated model, it proceeds to aggregate the updates, improving the global model without revealing any of the private data on which it was trained.
2015年に提唱されたフェデレーテッドラーニングは、データの存在する場所にモデルのコピーを送り、エッジで学習を行うことで、学習用に大量のデータを中央サーバーに移動する必要をなくし、MLモデルの学習を可能にするアルゴリズム・ソリューションである。
データはソースデバイス、すなわちクライアントに残り、クライアントが中央サーバーからグローバルモデルのコピーを受け取る。このグローバルモデルのコピーは、各デバイスのデータを使ってローカルに学習される。ローカルでの学習によりモデルの重みが更新され、ローカルコピーがセントラルサーバーに返される。サーバーは、更新されたモデルを受け取ると、その更新を集約し、グローバルモデルを改良する。この際、グローバルモデルが学習されたプライベートデータは一切公開されない。
One of the first applications of FL was to improve word recommendation in Google's Android keyboard without uploading the data, i.e. a user’s text, to the cloud. More recently, Apple has detailed how it employs federated learning to improve Siri's voice recognition. Besides, intuitively, keeping the data at its source is valuable in any privacy-preserving applications, especially when applied in healthcare or on confidential data in business and government
FLの最初の応用例の1つは、GoogleのAndroidキーボードの単語推薦機能を、データ(ユーザーのテキスト)をクラウドにアップロードすることなく改善することであった。最近では、AppleがSiriの音声認識を向上させるために連合学習を採用した方法を詳しく説明している。また、直感的には、データをソースで保持することは、プライバシー保護アプリケーション、特にヘルスケアやビジネス、政府における機密データへの適用において価値があります。
良さそう。
あと、この構造だとPoWライクにするのも割とやりやすそう。
「公共圏(公共AI)を維持するためのお世話の方法として、データを収めましょう」という世界線。
それでもまだまだFLできるようなエンドユーザーの端末はなさそうなので、もっと軽いリソース(スマホとか)で機械学習モデルをトレーニングしなきゃいけない。
どうしよう?
ここで、Semantic Anotationを考える
“Semantic Web Technologies for Explainable Machine Learning Models: A Literature Review”という論文を発見 ( 'Θ' )ゝ
Abstract. Due to their tremendous potential in predictive tasks, Machine Learning techniques such as Artificial Neural Networks have received great attention from both research and practice. However, often these models do not provide explainable outcomes which is a crucial requirement in many high stakes domains such as health care or transport. Regarding explainability, Semantic Web Technologies offer semantically interpretable tools which allow reasoning on knowledge bases. Hence, the question arises how Semantic Web Technologies and related concepts can facilitate explanations in Machine Learning systems. To address this topic, we present current approaches of combining Machine Learning with Semantic Web Technologies in the context of model explainability based on a systematic literature review. In doing so, we also highlight domains and applications driving the research field and discuss the ways in which explanations are given to the user. Drawing upon these insights, we suggest directions for further research on combining Semantic Web Technologies with Machine Learning.
概要 人工ニューラルネットワークのような機械学習技術は、予測タスクにおいて非常に大きな可能性を秘めているため、研究・実践の両面で大きな注目を集めている。しかし、これらのモデルはしばしば説明可能な結果を提供しない。これは、ヘルスケアや輸送などの多くのハイステーク・ドメインにおいて重要な要件である。説明可能性に関して、セマンティックウェブ技術は、知識ベース上での推論を可能にする意味的に解釈可能なツールを提供する。したがって、セマンティックウェブ技術と関連する概念は、機械学習システムにおいてどのように説明を促進することができるのかという疑問が生じる。本論文では、機械学習とセマンティックウェブ技術を組み合わせたモデル説明可能なアプローチを、体系的な文献レビューに基づいて紹介する。その際、研究分野を牽引するドメインとアプリケーションに焦点を当て、ユーザーへの説明の方法についても議論する。これらの知見に基づき、セマンティックウェブ技術と機械学習の融合に関するさらなる研究の方向性を提案する。
なるほど。
でも読むのめんどくさかったので、ChatGPTに要約してもらう。
ざっくりアブストをコピーして、いい感じに関連情報を突っ込んであげる
(tkgshnのChatGPTの使い方はこっちで紹介してて、この履歴はここで見れる)
でも一応最後まで読んだ。
knowledge base entities – which has been called knowledge matching [21] – as one central challenge which needs to be overcome by future research.
Specifically, automated and reliable methods for knowledge matching are required. In this context, Wang et al. [56] suggest string matching between identified objects and ontology classes and Liao et al. [33] propose to mine concepts and relationships automatically from online sources.
Further research in this area as well as related fields like semantic annotation are needed to enable effective and efficient knowledge matching.知識ベースの実体は、知識マッチング[21]と呼ばれ、今後の研究によって克服されるべき中心的な課題の一つである。
具体的には、知識照合のための自動化された信頼性の高い方法が求められている。この文脈では、Wangら[56]が識別されたオブジェクトとオントロジークラスの間の文字列マッチングを提案し、Liaoら[33]がオンラインソースから自動的に概念と関係をマイニングすることを提案している。
効果的かつ効率的な知識照合を可能にするためには、この分野だけでなく、セマンティックアノテーションのような関連分野でのさらなる研究が必要である。
なるほど、まぁなんか、semantic annotationを使えばいい感じになりそう。
「標準言語モデル(フィルターされていないGPT3)」が公共財としてオープンであった場合、各DAOがそれらをフォークしてきて自分たちに最適なAIになるようにfine-tuningするというのは割と帰納的に考えられる。
まぁこれは仮説だけど、標準言語モデルがコモンセンスとして配布されている + ある領域に特化する(≒特定のトピックに関しては説明可能AI)にしたくなるんじゃないかな?
そのための手段として、Semantic Dataを食わせるとか、何らかのアノテーション業務みたいなものは必要だと思っている。
議論の前提
Semantic Dataを準備するのはコストが高い
GPT4とか想定すると、すでにインターネット上にある学習可能なデータのほとんどを対象にしていて、機械学習用のデータが枯渇する可能性が大きい
なので逆説的に、人間しかわからないようなオブジェクトを説明するような作業(Semantic Webの思想に準拠するということなんだけど)が残ると予想
エンドユーザーが”機械学習のための意味のある教師データ”を入れ続けないと、コモンズの悲劇に直行する
各政府機能は、行政サービス(公共財の維持。e.g., 医療、教育、社会保障…)を維持するために、「納税」を国民に義務付けている
ならば、各DAOも「公共財としてのfine-tuningされたAI」を維持するための作業を義務付ける世界線はありえるかもしれない
「納税としてのsemantic annotation」という概念は誕生するか?
https://twitter.com/0xCommune/status/1607886216824819713?s=20&t=jvKDPsnH-rT8r7uVzrtuow
これと前述のfederated learningを組み合わせると、
いくつかのユーザーはfederated learningで機械学習モデルを各ノードで実行・学習
いくつかのユーザーはSemantic Annotationをすることで、学習用データを整形する
“どっちで税金は支払ってもいいよ。その代わり払わないとこのDAOに参加する権利は失うよ”という世界線?
Q. GPT4でも説明可能とかの問題は解決しないの?
**A. しないと思う、どこまで行っても推測(推論)であって、答えを知っているわけではない。**だからこそナレッジグラフが必要だと俺は思ってる。
やはり 根本的な問題、つまり 、世界の仕組みの内部モデルを構築できない、その結果 、抽象的なレベルで物事を理解できない、ということが予想されます。
人間が望むことと機械が行うことの間の「整合性」は、今後も重要な未解決の問題であり続けるだろう
人間の価値観に合った、信頼できる一般的な人工知能は、より構造化され、より多くの知識を内蔵し、GPTのようなシステムには欠けている、推論と計画のための少なくともある程度の明示的ツールや、明示的知識を組み込んだシステムから生まれることになります。
DeCartographyというプロジェクトをやっています。「Cartography」は日本語にすると'“地図を描く技術”みたいな感じです。それ + “De”。
各ウォレットをトランザクション履歴をベースにクラスタリングするものです。特定のアドレスを入力すると、あるクラスタ or アドレスとの距離(Social Distanceという指標)を返す「関係性オラクル」「重みオラクル」と言われるサービスとしての展開を目指しています。
クラスタリングに関しては、与えられた分析対象のアドレス群の「各ペアが似ているかどうか」をバリデーターにBinary Voting(Yes, No)を行わせることで、n人の解釈に基づくn次元のグラフを生成できます。
各バリデーター(クラウドワーカー)の間でピア予測法を使って評価を行うことで、コモンセンスを数値化します。
すでにソーシャルグラフを提供するようなデータプロバイダーは存在しますが、人間の主観の集まり(≒”客観”は正統性を持つ)(コモンセンス)(assumption)で分類されたものはありませんでした。
具体的なユースケースとして、Quadratic Fundingを採用しているGitcoinとの実証実験を来年1月から行うつもりです。
このコモンセンスベースのCrowdsourcing toolは、機械学習のアノテーションという文脈でも活用できる余地があると思い、Semantic Annotationについて調べている最中でした。
普段の呟きはTwitterで呟いている他、
Glasp: 自分が普段いろんな記事や論文を読んでる中でハイライトするのに使っているChrome拡張です。「tkgshnがどんな記事を読んでいるか」「(フォローすれば)どこにハイライトをひいているか」などがわかります
下のリンクからフォローできる
Scrapboxもおすすめです
読み終わったら引用RTして拡散してください。