GoogleやOpenAIがマシン・アンラーニング(Machine Unlearning)に躍起になる背景

Google OpenAIのマシン・アンラーニング
マシン・アンラーニング by 相武AI with Stable Diffuxion XL

2022年11月30日にChatGPTが一般公開された際、そのエンジン部分であるGPT-3が1750億パラメーターという膨大な規模のデータによるトレーニングで構築されたことが話題になりました。その後、さらに大規模なデータによるトレーニングを行うことと、小規模なトレーニングでも同等な結果を出すという二つの方向でLLMが進化しています。

そんな中で、トレーニングに使ったデータの権利に関する論議が盛んになり、先行していたOpenAIやGoogleなどの企業は、トレーニング・データの自主制限やルール策定に苦心しています。既に複数の訴訟が提起されており、最悪の場合ChatGPTやBardをゼロから再構築することを強いられる可能性さえあります。

しかし、トレーニングには大規模なスパコンを長時間占有する必要があり、膨大なコストがかかる上、少なくとも一時的に性能が急降下する恐れがあり、OpenAIやGoogleとしては何としても避けたいところです。

そのような状況に対応する現実的な方策として、トレーニングデータのうちの問題のあるデータ部分だけを除去する方法が盛んに論議されるようになりました。

マシン・アンラーニング (Machine Unleaning)という聞きなれない言葉を、しばしばネットで見かけるようになったのにはそのような背景があります。

マシン・アンラーニングとは

近年、ディープラーニングを用いた画像生成や検索システム、会話システムなど、機械学習の応用分野で目覚ましい進歩が見られています。しかしその一方で、ニューラルネットワークモデルの広範な利用には、不公平なバイアスの増幅やプライバシー侵害など、潜在的なリスクも伴います。GoogleのAI原則に基づき、潜在的リスクを理解し軽減することで、責任をもってAI技術を開発する必要があります。

機械学習モデルから特定のデータの影響を完全に消去することは困難です。データベースからデータを削除するだけでは不十分で、訓練済みモデルに与えた影響も消し去る必要があります。さらに、メンバーシップ推論攻撃(MIA)によって、個人のデータがモデルの訓練に使用されたかどうかを高い精度で推測できてしまうことが分かっています。これは、データがデータベースから削除された後でも、その個人のデータがモデル訓練に使われた可能性があることを意味しています。

このため、特定の訓練例の影響を取り除く「マシン・アンラーニング」が重要視されています。理想的なアンラーニングアルゴリズムは、正しいデータの精度を保持しつつ、指定したデータの影響のみを取り除きます。しかしモデルを再訓練することはコストがかかるため、効率的なアンラーニング手法が求められています。

そこでGoogleは、産学の研究者と協力し「第1回マシン・アンラーニング・チャレンジ」を企画しました。本チャレンジでは、顔画像から年齢を推定するモデルの訓練後、プライバシー保護のために一部の画像を「忘却」するシナリオを設定しています。参加者は、訓練済みモデルと忘却画像セットを入力し、指定した画像の影響を取り除いた新しいモデルを出力するコードを提出します。評価基準は、忘却の成功度とモデルの精度です。

アンラーニングアルゴリズムの評価はこれまで一貫性がなく、忘却画像の分類精度や再訓練モデルとの距離、MIAの誤識別率など、様々な指標が用いられてきました。本チャレンジでは、アンラーニングアルゴリズムの比較可能な評価指標を統一し、各手法の長所短所を明らかにすることが目的の1つです。

マシン・アンラーニングは、時代遅れや不正確な情報をモデルから効率的に「忘れさせる」だけでなく、データの扱いに起因する不公正なバイアスを矯正することにも役立ちます。本チャレンジを通じて、責任ある形で機械学習技術を発展させる新たな解決策が生まれることが期待されています。

コメントする