FEP-cd47: Federation-friendly Addressingと重複排除のユースケース

概要

ActivityPubデータモデルにおいて、様々な種類のデータを場所を問わず識別可能にするための体系的な分類法を提案する。これは、モデレーション通知や信頼性・安全性のための追跡機能、データ移行、コンプライアンス対応などの高次機能を簡素化することを目的としている。本文書は仕様書や拡張規格ではなく、軽量な情報/メタ技術設計ドキュメントとして作成されている。

背景

カミーユ・フランソワーズによる初期の論文『ABCs』は主に偽情報対策に焦点を当てたものであったが、ここではアクター（Actor）、振る舞い（Behavior）、コンテンツという3つの異なるベクトルに分類される基本的な枠組みを提示している。これらの分類は、偽情報だけでなく、悪用行為、信頼性・安全性問題、不正な活動、著作権遵守、ヘイトスピーチ対応などにも適用可能である。本文書の目的は、これらの関連する「コンテンツ固有」の課題やユースケースにおけるアドレス指定要件と重複排除要件を体系化し、将来のFEP（Fediverse Enhancement Proposals）におけるアドレス指定および重複排除プリミティブの設計に役立てることである。

用語解説

ActivityStreamsデータモデルに準拠しActivityPubによって拡張・フェデレートされたデータを対象範囲とする場合、これらのカテゴリは以下のように定義できる：

アクターとは、ActivityPubが定義する「Actors」、すなわちfediverse上の「アカウント」や「ボット」などを指す。
振る舞いについては、ここでは「Greater Activity Streams」に限定して考える。これはプロトコルネイティブな活動をASオブジェクトとして包んだもので、AS、AP、または@Contextを付与したFEPにおいて、プロトコルと完全に互換性を持ち、かつRDF形式で正規化可能なものである。
コンテンツは、以下の3つのサブタイプを含む包括的な概念とする：
アクティビティに含まれる「内容」（例えばNoteオブジェクトにおけるユーザー生成コンテンツなど）
メディア「添付ファイル」（HTML規格に基づく定義済みメディアタイプにさらに限定することも可能）
他のデータへの外部参照（URLのほか、今後検討が必要なその他のURI形式も含む）

上記の範囲において「アドレス指定」をどのように捉えるかは技術的に複雑な問題である。なぜなら、ASおよびAP仕様が基盤とするJSON-LDデータモデルには、idに基づくURIベースのシステムが組み込まれており、コア仕様におけるアドレス指定や識別に関する言及のほとんどは、このグラフ指向ではあるが静的なリソースとリンクの体系のみを指しているからである。現時点で実際には、これはHTTPS URLおよびDNS解決可能なドメインと完全に一致している。非HTTPS URLをidまたは@idとして使用できるかどうかはこのユースケース文書の範囲外であり、設計/実装上の判断事項として別途検討されるべきである。いずれにせよ、現在のFediverseデータは圧倒的に（おそらく独占的に？）、ドメインベースかつドメイン依存型のidによってアドレス指定されており、新たなシステムが現行形式でこれらを処理・重複排除できることは当然期待される要件である（もしこれらの慣行やコア仕様に重大な変更が提案された場合でも、少なくとも「レガシー」データとして扱う必要がある）。

現在、ほとんどすべてのアクターと振る舞いはそれらのid、つまり現在のHTTPS「ロケーション」によって識別されている。コンテンツも同様に、バケットストレージ構成において一部の添付ファイルが時折リネームされる場合を除き、ほぼ常にロケーションベースでアドレス指定されている。これらのアドレスはすべて、重複排除、移行、および「サーバー障害」の観点から脆弱である。コンテンツを新しい場所に移動させると、同一内容/参照先に対して新たなアドレスが作成され、多くの場合「転送」リダイレクト（HTTPステータスコードによる方法やその他の手段）も前のアドレスへのバックリンクも存在しない。一方、サーバーが突然ダウンした場合、これらのすべてのリンクは検証可能な解決策もなく即座に機能しなくなる。

ロケーションに依存しないアドレス指定方式の一つに「コンテンツアドレス指定」がある。これは最も一般的な形態として、正規化形式にハッシュ化したコンテンツを識別する方法であり、キー/バリューストアやパッケージマネージャなどで広く採用されている。ただし、コンテンツやアクター、特定の振る舞いを識別するために正規化形式でハッシュ化されたものから、ロケーション情報（あるいはロケーション変更時に無効となるすべてのプロパティ）を抽出することは、予想以上に困難な場合がある。

高レベルユースケース

不正な活動はしばしばアクターベースの属性付けやモデレーションを回避する。ソーシャルメディアにおける典型的な例として、悪意のある行為者が使い捨てアカウントやボット、オウム返しアカウント、友人/共犯者などを通じて拡散するコピーペースト形式の告発や噂が挙げられる。このため、Noteなどのアクティビティコンテンツは、URI/ロケーションやサーバー、アクターに依存しない統一的な方法で追跡する必要がある。これは個々のアクティビティ単位ではなく、プロパティ単位で扱うよりも適切である場合が多い（コピーペースト現象の多さは、ネットワークの健全性や真正性を測る指標としても利用できるが、もちろん最も面白いメタミームに対しては偽陽性を生じさせないよう慎重に適用すべきである）。
ヘイトスピーチおよび対人関係における信頼性・安全性問題 - 特定のサーバーやサービスプロバイダーによるモデレーションに依存することは、相互運用可能なモデレーション決定ログから大きな恩恵を受ける。個々の決定に対する受領書やイベントは、間接参照方式またはアクター、振る舞い、コンテンツが移動したり削除されたりした場合に複数アドレスで対処できる機能、さらにはそれらを私的にキャッシュして後日再再生/再評価などに活用する機能によってさらに強化される可能性がある。
モデレーションをカテゴリやトピック別に分類できることで、・選択的なモデレーション依存（およびポリシーや義務が異なるサーバー間での再モデレーション）が可能になる
一部の規制では、アクターがサービスから削除されたり問題のある振る舞いやコンテンツを削除したりしても、有害または攻撃的コンテンツを報告し一定期間保存することが義務付けられている。ロケーションに依存しないキー/バリューストアによるコンテンツアドレス指定は、このような場合に「サーバー側のコピー」と「ユーザー/公開済みコピー」を分離する手段として活用できる。
不正な活動には、「合成ユーザー」（AIが商業目的や分析データ増加を目的としてユーザーになりすましているケース）からAI生成ゴミ情報、意図的な標的型なりすましまで、様々な形態が存在する。これらはアクターシステムの脆弱性や善意に基づく仕組みを意図的に悪用している。多くのアクターや「シビルアカウント」を共通の「影のアクター」（シビルファクトリー、スクリプト、ボット軍団の調整ポイントなど）に帰属させるには、行動パターンやネットワークトラフィック特性を特定する必要があり、場合によっては確率的に識別した上で、それ以外のロケーションアドレス指定やドメイン由来情報を共有しないアクターとマッピングする必要がある。
添付ファイル、リンク、画像、動画などをどのように正規化し、コンテンツタイプを考慮した方法でハッシュ化するか？ファイルシステムやバケットストレージなどの扱いはどうすべきか？任意のファイル（アップロードデータ？）はどのように正規化すればよいのか？
アクターオブジェクトには、以前のidにバックリンクするプロパティを設けるべきか？ idプロパティが変更される移行処理において、どのように重複排除を行えばよいか？

参考文献

規範的資料

Christine Lemmer Webber、Jessica Tallon他 ActivityPub、2018年
James Snell、Evan Promodorou ActivityStreams、2017年
[Actors, Behaviors, Content: A Disinformation ABC - ウイルス性欺瞞の3つのベクトルを明らかにし、業界および規制当局の対応指針を示す] C. François、2019年9月 Transatlantic Working Group Sessions より
ISCC - 国際標準コンテンツコード、ISO規格として規定

情報資料

著作権

CC0 1.0 Universal（CC0 1.0）パブリックドメイン献呈

法律で許容される範囲において、本Fediverse Enhancement Proposalの著者らは、本著作物に関するすべての著作権および関連する権利を放棄している。