機械学習システムを評価するためのチェックリスト

このチェックリストは、2024年3月21日に発行された論文「The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency and Usability in AI」 – DOIに基づいています。Model Openness Framework (MOF)は、Model Openness ToolのWebサイトで実装されています。

この文書の範囲

このチェックリストは、AIシステムの審査担当者が、オープンソースAIの基本的な自由を行使するために必要なコンポーネントを特定し、ランク付けすることを支援するために、共同設計プロセスにおいてボランティアによって作成されました。さらに、hackmd上のフォーラムおよび公開ドラフトに関するパブリックコメントを通じて改良されました。

この文書は、定義プロセスの一部、学習ツールとして捉えるべきです。チェックリストは、オープンソースAIを評価するための操作マニュアルではありません。

Model Openness Frameworkとの関係

MOFは、コンポーネントの可用性の度合いに応じて、一部(クラスIII、オープン・モデル)から全て(クラスI、オープン・サイエンス)まで、システムを3段階に分類します。MOFを使用する場合、「MLシステムに変更を加えるための推奨される形式」の要件は、MOFのクラス範囲に重ねたバーとして考えることができます。

既知の問題と制限

生成AIに拘束: MOFに基づいているため、このチェックリストは生成AIと密接に結びついているように見えます。コンポーネントのリストは、全ての機械学習に適用できるほど一般化されていません。「オープンソースAIの定義」の原則を他の種類のAIや異なる機械学習システムに適用するには、さらなる研究が必要です。
解釈の余地: データセット・コンポーネントが利用可能である場合、データ要件は満たされるべきです。AIシステムがデータセット・コンポーネントを利用可能にしていない場合、代替のデータ・コンポーネントが「オープンソースAIの定義」で列挙された要件を満たしているかどうかを推測する必要があります。これは、オープンソースAIの実践が進むにつれて、さらなる研究が必要となるもう一つの領域です。

詳細については、オープンソースAIのFAQもご覧ください。

デフォルトの必須コンポーネントの表

必須コンポーネント	法的枠組み^[1]
データ
既知の問題を参照してください。オープンソースAIの定義の要件を満たす必要があります。
– データセット	OSI承認の条件の下で利用可能
– 研究論文	OSI承認の条件の下で利用可能
– 技術レポート	OSI承認の条件の下で利用可能
– データ・カード	OSI承認の条件の下で利用可能
コード
これらのコンポーネントはすべて必須です。
– データ前処理	OSI承認ライセンスの下で利用可能
– 学習、検証、テスト	OSI承認ライセンスの下で利用可能
– 推論	OSI承認ライセンスの下で利用可能
– サポート用のライブラリとツール	OSI承認ライセンスの下で利用可能
モデル
これらのコンポーネントはすべて必須です。
– モデル・アーキテクチャ	OSI承認ライセンスの下で利用可能
– モデル・パラメータ	OSI承認の条件の下で利用可能

オプションのコンポーネントの表

Model Openness Frameworkに記載されているその他のコンポーネントはオプションです。

オプションのコンポーネント
データ
– 評価データ
– 評価結果
コード
– ベンチマークテストの推論を実行するために使用されるコード
– 評価コード
モデルl
– モデル・カード
– モデル出力のサンプル
– モデルのメタデータ

OSI承認の条件の下で利用可能 とは、OSIがライセンスおよび契約を審査し、全てのマテリアルが「オープンソースの定義」に準拠した条件で利用可能であると保証することを意味します。 ↩︎