用 AI 生成的数据集训练模型可能导致模型崩溃

July 26, 2024

根据发表在《自然》期刊上的一项研究，Google DeepMind 和牛津大学的研究人员发现，用 AI 生成的数据集训练 AI 模型可能导致模型崩溃，即在数代之后产生无意义的输出。举例来说，模型从中世纪建筑文本开始，到第九代输出了毫不相干的长耳大野兔。研究人员发现，AI 难以掌握训练数据集中不常见的文本行，后续在此输出上的训练无法延续这些微妙差异。以这种方式基于早期模型的输出训练新模型最终会陷入递归循环。以生成狗图像的模型为例，AI 模型倾向于重新创造训练数据中最常见的犬种，金毛猎犬相比贝吉格里芬凡丁犬（Petit Basset Griffon Vendeen）更常见，因此金毛猎犬会被过度代表。如果用过度代表金毛猎犬的数据集训练后续模型，问题将会愈发严重，后续模型将会忘记贝吉格里芬凡丁犬不知名犬种的存在，它将只会生成金毛猎犬的图像。最终模型将会崩溃，无法生成有意义的内容。