AI开发新趋势：合成数据成为解决训练数据枯竭的关键

链得得2025-03-06

摘要

AI对合成数据的依赖正在增长，但专家警告说，诸如偏见和操纵之类的风险。

币币情报道：

随着AI模型快速消耗互联网上的免费内容，一个迫在眉睫的问题逐渐浮现：当原始数据资源耗尽时，AI训练将何去何从？

最近的一份报告揭示了这一问题的严重性。例如，中国AI模型DeepSeek生成的回答与ChatGPT高度相似，引发了对OpenAI训练数据来源的担忧。

这种现象让一些人开始怀疑，AI开发中的“低垂果实”时代是否已经结束。

去年12月，谷歌首席执行官Sundar Pichai承认了这一现实，并警告称，AI开发者正在迅速耗尽高质量免费训练数据的供应。

“在当前一代的大型语言模型（LLM）中，有几家公司处于领先地位，但我们也都在思考下一代的发展方向，”Pichai在12月的《纽约时报》年度交易书峰会上表示。“我认为，未来的进步将变得更加困难。”

面对高质量训练数据的短缺，许多AI研究人员开始转向由其他AI生成的合成数据。

合成数据并非全新概念，其历史可以追溯到1960年代。它依赖算法和仿真技术来创建模仿现实世界信息的人工数据集。然而，随着AI技术的发展，合成数据在AI开发中的作用日益重要，也引发了新的关注，尤其是在AI系统与区块链等分散技术结合时。

引导AI：自举数据的作用

“合成数据在统计学中一直存在，这被称为自举数据，”麻省理工学院软件工程教授穆里尔·梅达德（Muriel Médard）在ETH DENVER 2025的采访中告诉解密。“您从真实数据开始，然后思考，‘我需要更多数据，但不想为此付费。我可以根据现有数据生成更多。’”

梅达德是分散式内存基础设施平台最佳的联合创始人。她指出，训练AI模型的主要挑战并非数据缺乏，而是数据的可访问性。

“您要么寻找更多数据，要么利用已有数据进行伪造，”她说。“特别是在区块链上，数据的检索和更新至关重要，这增加了另一层复杂性。”

随着隐私限制的增加以及对现实世界数据集的访问受限，合成数据正成为AI模型训练的重要替代方案。

“随着隐私保护和内容政策的加强，使用合成数据将成为必要选择，不仅因为其易于获取，还因为对法律风险的规避需求，”你有德鲁伊的尼克·桑切斯（Nick Sanchez）告诉解密。

他补充道：“目前，合成数据并非完美解决方案，因为它可能包含与现实世界数据相同的偏见。但在处理同意、版权和隐私问题时，它的作用将随着时间推移而增强。”

随着合成数据使用的增长，对其潜在操纵和滥用的担忧也在加剧。

桑切斯指出：“合成数据本身可以被用来向训练集中注入虚假信息，从而故意误导AI模型。这在敏感应用领域（如欺诈检测）尤为令人担忧，因为不良行为者可能利用合成数据训练出忽略某些欺诈模式的模型。”

梅达德则认为，区块链技术可以帮助降低合成数据的风险，强调目标是使数据防篡改而非完全不可变。

她解释说：“在更新数据时，您不会希望数据完全不变——您可以稍微调整并观察结果。当人们谈论不变性时，他们实际上是指耐用性，但整体框架的设计至关重要。”

编辑塞巴斯蒂安·辛克莱（Sebastian Sinclair）

免责声明：

1.资讯内容不构成投资建议，投资者应独立决策并自行承担风险

2.本文版权归属原作所有，仅代表作者本人观点，不代币币情的观点或立场