AI成果物が急増したことで「AI生成コンテンツをAIが学習するループ」が発生し「モデルの崩壊」が起きつつあると研究者が警告 [飴棒★]
■ このスレッドは過去ログ倉庫に格納されています
AI成果物が急増したことで「AI生成コンテンツをAIが学習するループ」が発生し「モデルの崩壊」が起きつつあると研究者が警告
Gigazine 2023年06月14日 08時00分
https://gigazine.net/news/20230614-feedback-loop/
詳しくはリンク先へ
(略)
AIコンテンツによって学習データが崩壊していくメカニズムを、シュマイロフ氏は「データの偏り」によるものだと説明しています。
シュマイロフ氏によると、人間によって生成された元データは世界をより公平に表している一方で、
ジェネレーティブAIモデルは人気のあるデータを過剰に優先する傾向があり、
あまり人気のないデータを誤解したり、誤って表現したりすることが多々あるとのこと。
例えば、90匹の黄色い毛皮のネコと10匹の青い毛皮のネコを合わせた100匹のネコの写真を学習させた場合、
モデルは「黄色のネコがより一般的」ということを学習すると同時に、「青いネコも黄色がかって表現」することがあるほか、
新しいデータを出力する際に「緑色のネコ」を出力する場合があります。
AIが生成した「黄色がかった青いネコ」「緑色のネコ」をさらに学習するトレーニングサイクルを行うと、青いネコは次第に黄色の色味を増していき、
最終的に全てのネコが黄色に変わっていきます。
このように、進行プロセスでゆがみが起きたり、少数データの特性が最終的に失われることを「データの崩壊」と研究者グループは表現しています。
さらに、これを避けるためトレーニングサイクルを多く繰り返さないようにモデルをトレーニングした場合でも、
モデルはデータの頻繁な繰り返しを避けるために誤った応答をでっち上げ始めるため、依然としてモデルの崩壊が発生することがわかっています。
モデルの崩壊への対処策として、論文では
「オリジナルのデータセットの独占的で、名目上人間が作成したデータセットの高級コピーを保持し、
それで定期的に際トレーニングしたり完全にリフレッシュしたりすることで、AIが生成したデータによる汚染を回避する」
「人間が生成した新しいクリーンなデータセットをトレーニングに導入する」というアイデアを挙げています。
データの崩壊を防ぐには、学習量をしっかり確保し、特徴を正確に描写した上で、
データセット内で少数派グループが公正に表現されるように設定することが重要だとシュマイロフ氏は指摘しています。
シュマイロフ氏はVentureBeatの取材に対し、
「人間が作成したデータを10%トレーニングに含めれば、AIコンテンツを再帰的に用いたとしても、モデルの崩壊はそれほど早く発生しないと考えられます。
しかし、早くはないものの、依然として崩壊は発生します」と語っています。 >>92
天動説が常識になってる世界ではAIは天動説を覆すことはできない
天動説に疑問を持ち自分で新しいデータや記憶を積み重ねて地動説を導くのが人間 陸自射撃場でマスクつける公用車が秘所を殴打、鼻血もえりにゃんの入廷不可! >>95
東大よりも頭いいケンブリッジ大の教授が連名してる論文を都市伝説と同等に語るのか...
そりゃ〜お前は世界一頭いいみたいだから仕方ないよなぁ〜笑 >>101
最も違うのは人間は世界という最も複雑なものを常に学習し続けていて、AIは与えられたものだけを学習してるだけって部分だろうな >>105
AIには回避できない多様性ってないからな
人間は生身の多様性から逃れられない >>98
実際に使っているならわかると思うけど大規模言語モデルって同じ入力でも出力に相当の揺れ幅がある(時には変なものだったり意外といいアイデアだったりする)
だから出力の良し悪しを人間以上に評価できるようになれば加速するよ、その揺れ幅の上限値を大量に読み込んで当たり前と出来るからね >>105
一番確率の高いものを選択するだけだから >>105
人間の場合よくわからん欲求もあるしな
何かをしたがったり作りたがったり自己の欲求のために複雑で多様なものから取捨選択して学習してる 少数データを維持してデータ崩壊しないように補正するAIを作ればいいじゃん >>105
AIだってネットに繋がっていればほとんど無限に学習できる
1番違うのは常識や多数派の主張を正解として学習するのがAI
常識や多数派の主張を疑うのが人間 AIの画像収集をたぬかなだらけにしたら出てくるやつもたぬかなだらけになるんか >>113
基礎的な人物像を描くモデルに追加学習で特定の人物を出力するようにする追加学習セットならもう何ヶ月も前にある
確かたぬかなもあった この前チャットGPTに調べ物を頼んだら
自分で調べるよう言われたわ 大がかりな小泉構文か、まとめサイトみたいなバカ論文が量産される未来しか見えんな。 今のネット検索結果はゴミしか拾えないからなぁ。
そのゴミの中から真実を見極める事なんかAIに出来るわけが無い・・・ >>107
その良し悪しの評価ってのができないのが現状でしょ
良し悪しの評価ができるなら、こんな問題は浮上しない 尊い人間が生み出した生成物をAIごときが理解できる訳無いからな。
人間の本質的欲求や欲望すら持たない機械が正しい判断出来ないのは当たり前の事。
人工知能なんてものに期待しないほうがいい。
それより人間を増やし人間を教育するべき。 >>123
>>83読んでね
この話はそれができてる前提なんよ
人間以上の出力ってことは内部で何がいいか悪いか人間以上に判別できて良い結果を選んで出力できてるってことだから 人類はその叡智を結集し、遂に全てを実現できるコンピュータを開発した!
ただ、そのコンピュータには問題が一つだけ残った
仕様書を入力しなければならないのだ AIによる画像生成はユーザーの表現の欲求を満たすものなのか謎だ
ユーザーがそこそこのアーティストなら学習やらチューニングやら凝るんだろうが AI生成したものをAIが素材にするようになって変化が乏しくなっていくんだな 人間の教育は学校で1発で洗脳させてるんだからもっと立ち悪いだろw これからはAIにフェイクニュース教えようとする輩がどんどん出るな >>131
そうかなぁ。
日教組の洗脳に耐えた世代から見るとそうでもない。
まぁ闇に落ちた奴らがいない訳では無いがw >>130
君が違う種類を作れば解決するやろがい! >>134
AI批判してる人の中でゲーム・漫画・テレビ・芸能・スポーツに関心のない者だけがそのままAIを批判しなさい >>83
以上じゃなく、既存のメジャーなモデルに集約されるというのが>>1の答えだよね
生成AIは永遠に材料以上のものが作れない AIはよくわからないことでも答えを出せと言えば知ったかぶりで断定するからな
陰謀論者がwikiに偏ったことまとめて、wikiに書いてあったから正しいって陰謀論者が拡大再生産するみたいなことが起きる
ものすごい速度で >>125
現実世界に正解があるものならその正解への近さの精度でクオリティの良し悪しの判断が出来ると思うが
普遍的ではない例えば美人の定義とか時代や種族等によって変化しうるものに関してはAIはその変化を加味してクオリティの良し悪しの判断できるようになるんかね
昔は平安美人と言ってのっぺり顔が美人とされ仮にその時代のAIがクオリティの高い美人判定をするならそういう顔を出力するようになるわけだが
今みたいに白人ハーフ顔みたいのが美人とされる世の中だとクオリティの低い判定基準のAIということになっちゃうと思うんよ そもそも機械が人間の感性など理解できないから
人間が生み出した材料を混ぜて優位値を出してる
ものの良し悪しなど主観によるところが大きいので
良いものを生み出させるには人間と同等の感情をAIで再現する必要がある
それは人間を作ることに等しい
以上ということばの重みが、どれほど大きいのか
理解できるだろうか 公約数的に学習していくから黒人キャラとかは勝手に修正されちゃうだろうな >>68
不動小数点?固定小数点の意味か?
それ以前にビット水増しのための浮動小数点を
なんで人間が演算せにゃならんのだ?
浮動小数点の基礎知識を学んで
エリートAIよりも自分のポンコツ脳みそを鍛えてこい AIにAIの絵だけ食わせ続けて徐々に狂ってく様子は興味ある コピペしただけのゴミサイトが乱立した歴史そのまんまやな エコーチェンバー現象引き起こしてる
オマエラのようですね >>138
なんで大規模言語モデルがコード公開されて7ヶ月しか経ってないのに一般人のお前が答え出たと思ってんだ? 結局人気作をパクる
特アパターンじゃん
量産型で飽和して
業界が、壊死する
AI生成を朴りに使う粕は死ね >>140
できるかどうかは専門家にもわからんけど
少なくともこの一連のレスはできる前提の話なんだから
前提無視して話したらあかんやろ 補正AI出てきて解決するだろ。
キメラ参照で著作権ロンダリング作品があふれると思う。 >>150
>>83からここまで誰もそこに賛同してなくね?
それより深く読んで無いが >>153
仮にAだとしたらBだよな
これに対して>>90で
最初はAでも→Bじゃないと反論したにも関わらず、
途中からAという仮定がまだ現実で起きてないからなかったことにするのがダサいって話
それなら初めからAに対して反論するべきだった >>10
コンピュータのブレイクするーがきたからこれからはどんどん発展するよ 5chを学習して再現しようとしても
肉入りが1割はいないと淫夢語録で埋まってしまう いまだに深層学習を単なる平均だと思ってる人が多すぎるのよな
>>101
それちがうよ
人間も天動説が常識となってる世界では地動説を生むことができない
地動説が生まれたのは常識を疑ったからじゃなくて、常識的に考えて天動説を疑うだけのデータが揃ってきたからに過ぎない
逆に言うと、天動説が根強く残ってたのはキリスト教のせいでもなんでもなくて、単に地動説の方が観測精度が低かったからだ
周点円などの補助仮説を有するものの、天動説の方が優れてたから天動説が常識だったに過ぎない
科学の現場にパラダイムシフトは存在しない
人間は(そしてAIも)、知の根底を疑うことはできない、総体の根底を疑うことは思考にならない
思考とは知の総体の「一部分」を疑うことであって、それは「疑う」というより、総体に合わない部分を見つけてそれを根底に合わせる作業なんよ 昔流行った1/fゆらぎみたいなもんだろ
旬が過ぎれば誰も見向きもしないよ 「AIは平均」だとか「新しいものを生み出せない」だとか、そういう典型的な誤解が多すぎるのよな
ちがうよ、それ全然ちがうよ >>162
新しいものの定義だな
固定概念がないから、ラーメン手掴みで食べるなんてのをだしてくるけど
それは新しいものと言えるのか?って言う まぁ、AIって基本的に何十枚も画像を重ねた雑コラを適当にスムージング処理してるだけだからなー
だから指が6本になったりする
そのうち人間の指は6本とか7本とかそういう風に認識する様になる 本当の完成されたAIなら知性があるだろうけど
ステーブルディフュージョンがそうなるかは
まだ分からないからな マイナンバーの写真とか
生成AIのCG画像が増えてるだろ
AIを否定しても意味ない シュマイロフ氏はVentureBeatの取材に対し、「人間が作成したデータを10%トレーニングに含めれば、AIコンテンツを再帰的に用いたとしても、モデルの崩壊はそれほど早く発生しないと考えられます。
↑
これ読めてないやつ多すぎるなAIの生成物が90%を占めるようになるのいつだよw
10%のみ人間でもすぐには崩壊しないつってんだぞ これはAIのエコーチェンバーじゃなくて人間のエコーチェンバーなんだよ
人間に人気のあるデータを優先して人間の望む世界を見せてるだけ ワードサラダとかいうの昔からあるからな
どれだけ対策されてるのかしらんけども >>168
人間に「あぁ、そんなもんなんだ」って思われた時点で
AIは存立基盤の大部分を失うだろう 試行回数がとんでもねぇからな。どんどん蓄積してあっという間に腐っていくのかな。 マスゴミの売上枚数の都合でやきうばかりゴリ押ししているうちに、焼豚のクズを素晴らしい人格者とホルホル人物劇場を報道しますマスゴミマッチポンプみたいなやつだな。 アングルのグランドオダリスクとか背骨が長すぎとか言われるけど「崩壊している」に分類されるのかな。
ポロックのアクションペインティングとかはある人には「崩壊している」だけど「統合されている」と思う人もいるだろう。 >>172
??
人間のエコーチェンバーによってデータが汚染されていく(現実と乖離していく)のをどう防ぐか?って話だぞ
AIが新しいものを生んでるから汚染されてく、「そんなもん」じゃないから汚染されてしまう 手が今まで以上に化け物みたいになるの?
もう手を隠すしかなくなるじゃん…😨 こういうのって定期的にリフレッシュ出来ないものなのか
膨大すぎて無理とか? 大昔のモノクロ写真をAIでカラー化させたら出鱈目な配色にしてたな >>181
大元の文章読めよ
解決策としてリフレッシュ、良質な学習データの確保と保管
と書いてある >>148
>>1の意味がわからんのだろうが
そういう事だぞ
AIが新しいものを作れるなら
青でもなく黄色でもなく緑でもなく
それらの色によらない新しい色を作り出す
違うと思うなら根拠出してみ
大規模モデルとかコードとか7ヶ月とか根拠にならん漠然な状況ではなく、地に足ついた論拠を >>185
これ世界で何千と研究機関があるうちのたったひとつが出した推察(それも90%がAIの生成物でもすぐには崩壊せずに、回避方法も論文内にある)
ものに過ぎないのに
それに全幅の信頼を置いてopenAIの幹部を持ってしても5年後は全く予想がつかないと言われるAIの展望を一般人のお前が決めつける地に足についた論拠を先に示してもらえますかね。
ネットで目についた一つの論文がこう言ってました〜ってか笑 >>186
反論になっていない
生成AIは材料以上のものは作れない
作れるという根拠を示してくれないか >>187
反論になってないことにしたい
の間違いだろ笑
自称地に足のついた論拠くん
初めて見た論文を親だと思ってついて行く雛鳥かな笑 >>188
原理を示せ
言い訳はいらないんだよ
>>1はこれ以上ないほどわかりやすく書いてるぞ >>157
地動説が正しいというデータがあろうとも
人類の大多数が天動説を肯定していたら
それを正しいと扱うのが今のAI 「AIが新しいものを生んでるからデータが崩壊していく」って問題なのに、
「AIには新しいものを生み出せないからデータが崩壊していく」って思ってる人はなんなん?
人間の作業と何も変わらん
人気あるものに偏っていくけど、現実に則したデータを追加刷新してるから崩壊せずに済んでる >>191
人間も、地動説の方が正しいというデータがあろうとも天動説の方が正しいとするデータとの検討のすえに天動説を採択してただけ
AIとやってること変わらない
科学とは要は「民主主義」、ポパーやクーンの弁じゃないけど 天動説は間違っていた、ではなくて、
過去において天動説が正しかった、のだよ >>193
理論的な整合性や数学的な証明を人間はできるが
AIはあくまでも情報を集計してもっとも多い物、平均に近い物に寄せてるだけ >>195
それ聞き方が悪いだけだよ
人間だって、福音派に「人間とチンパンジーは共通祖先のサルから進化しましたか?」って聞けば「いいえ、進化論は間違いです」って答えるように
素のプロンプトで聞くから論理的な答えが返ってこない
「科学的に答えてください」って入力するだけで大分変わる 将棋や碁だとAI同士に対戦させて強くしてくのが一般的になってるから、要は「良い絵」を評価する基準の問題なのでは
評価関数が正しければ過学習しても変な方向に逸れないはず >>197
世間に知られてない情報は無理
質問がいいとか悪いって話ではない
チャットgptに差別的なアウトプットをさせない方法をAIに回答させられるなら開発者がやってる >>192
>>1読んでないだろ
青と黄色を入れると青黄色緑しか出ない上にマイナーは削り落とされメジャーな青に寄ると書いてんだぞ
AIは入れたデータ以上のものは出ない
緑は青と黄色を混ぜた色だ
一方、人間は赤だろうが白だろうが黒だろうが生み出す
生成AIと人間が根本的に違うことが理解できるだろう ■ このスレッドは過去ログ倉庫に格納されています