AI成果物が急増したことで「AI生成コンテンツをAIが学習するループ」が発生し「モデルの崩壊」が起きつつあると研究者が警告
Gigazine 2023年06月14日 08時00分
https://gigazine.net/news/20230614-feedback-loop/
詳しくはリンク先へ


(略)
AIコンテンツによって学習データが崩壊していくメカニズムを、シュマイロフ氏は「データの偏り」によるものだと説明しています。
シュマイロフ氏によると、人間によって生成された元データは世界をより公平に表している一方で、
ジェネレーティブAIモデルは人気のあるデータを過剰に優先する傾向があり、
あまり人気のないデータを誤解したり、誤って表現したりすることが多々あるとのこと。

例えば、90匹の黄色い毛皮のネコと10匹の青い毛皮のネコを合わせた100匹のネコの写真を学習させた場合、
モデルは「黄色のネコがより一般的」ということを学習すると同時に、「青いネコも黄色がかって表現」することがあるほか、
新しいデータを出力する際に「緑色のネコ」を出力する場合があります。
AIが生成した「黄色がかった青いネコ」「緑色のネコ」をさらに学習するトレーニングサイクルを行うと、青いネコは次第に黄色の色味を増していき、
最終的に全てのネコが黄色に変わっていきます。
このように、進行プロセスでゆがみが起きたり、少数データの特性が最終的に失われることを「データの崩壊」と研究者グループは表現しています。

さらに、これを避けるためトレーニングサイクルを多く繰り返さないようにモデルをトレーニングした場合でも、
モデルはデータの頻繁な繰り返しを避けるために誤った応答をでっち上げ始めるため、依然としてモデルの崩壊が発生することがわかっています。
モデルの崩壊への対処策として、論文では
「オリジナルのデータセットの独占的で、名目上人間が作成したデータセットの高級コピーを保持し、
 それで定期的に際トレーニングしたり完全にリフレッシュしたりすることで、AIが生成したデータによる汚染を回避する」
「人間が生成した新しいクリーンなデータセットをトレーニングに導入する」というアイデアを挙げています。

データの崩壊を防ぐには、学習量をしっかり確保し、特徴を正確に描写した上で、
データセット内で少数派グループが公正に表現されるように設定することが重要だとシュマイロフ氏は指摘しています。
シュマイロフ氏はVentureBeatの取材に対し、
「人間が作成したデータを10%トレーニングに含めれば、AIコンテンツを再帰的に用いたとしても、モデルの崩壊はそれほど早く発生しないと考えられます。
 しかし、早くはないものの、依然として崩壊は発生します」と語っています。