币币情报道:
随着AI模型快速消耗互联网上的免费内容,一个迫在眉睫的问题逐渐浮现:当原始数据资源耗尽时,AI训练将何去何从?
最近的一份报告揭示了这一问题的严重性。例如,中国AI模型DeepSeek生成的回答与ChatGPT高度相似,引发了对OpenAI训练数据来源的担忧。
这种现象让一些人开始怀疑,AI开发中的“低垂果实”时代是否已经结束。
去年12月,谷歌首席执行官Sundar Pichai承认了这一现实,并警告称,AI开发者正在迅速耗尽高质量免费训练数据的供应。
“在当前一代的大型语言模型(LLM)中,有几家公司处于领先地位,但我们也都在思考下一代的发展方向,”Pichai在12月的《纽约时报》年度交易书峰会上表示。“我认为,未来的进步将变得更加困难。”
面对高质量训练数据的短缺,许多AI研究人员开始转向由其他AI生成的合成数据。
合成数据并非全新概念,其历史可以追溯到1960年代。它依赖算法和仿真技术来创建模仿现实世界信息的人工数据集。然而,随着AI技术的发展,合成数据在AI开发中的作用日益重要,也引发了新的关注,尤其是在AI系统与区块链等分散技术结合时。
引导AI:自举数据的作用
“合成数据在统计学中一直存在,这被称为自举数据,”麻省理工学院软件工程教授穆里尔·梅达德(Muriel Médard)在ETH DENVER 2025的采访中告诉解密。“您从真实数据开始,然后思考,‘我需要更多数据,但不想为此付费。我可以根据现有数据生成更多。’”
梅达德是分散式内存基础设施平台最佳的联合创始人。她指出,训练AI模型的主要挑战并非数据缺乏,而是数据的可访问性。
“您要么寻找更多数据,要么利用已有数据进行伪造,”她说。“特别是在区块链上,数据的检索和更新至关重要,这增加了另一层复杂性。”
随着隐私限制的增加以及对现实世界数据集的访问受限,合成数据正成为AI模型训练的重要替代方案。
“随着隐私保护和内容政策的加强,使用合成数据将成为必要选择,不仅因为其易于获取,还因为对法律风险的规避需求,”你有德鲁伊的尼克·桑切斯(Nick Sanchez)告诉解密。
他补充道:“目前,合成数据并非完美解决方案,因为它可能包含与现实世界数据相同的偏见。但在处理同意、版权和隐私问题时,它的作用将随着时间推移而增强。”
风险与回报
随着合成数据使用的增长,对其潜在操纵和滥用的担忧也在加剧。
桑切斯指出:“合成数据本身可以被用来向训练集中注入虚假信息,从而故意误导AI模型。这在敏感应用领域(如欺诈检测)尤为令人担忧,因为不良行为者可能利用合成数据训练出忽略某些欺诈模式的模型。”
梅达德则认为,区块链技术可以帮助降低合成数据的风险,强调目标是使数据防篡改而非完全不可变。
她解释说:“在更新数据时,您不会希望数据完全不变——您可以稍微调整并观察结果。当人们谈论不变性时,他们实际上是指耐用性,但整体框架的设计至关重要。”
编辑塞巴斯蒂安·辛克莱(Sebastian Sinclair)