AI开发新趋势:合成数据成为解决训练数据枯竭的关键

链得得7天前
摘要
AI对合成数据的依赖正在增长,但专家警告说,诸如偏见和操纵之类的风险 。
币币情报道:

随着AI模型快速消耗互联网上的免费内容,一个迫在眉睫的问题逐渐浮现:当原始数据资源耗尽时,AI训练将何去何从?

最近的一份报告揭示了这一问题的严重性。例如,中国AI模型DeepSeek生成的回答与ChatGPT高度相似,引发了对OpenAI训练数据来源的担忧。

这种现象让一些人开始怀疑,AI开发中的“低垂果实”时代是否已经结束。

去年12月,谷歌首席执行官Sundar Pichai承认了这一现实,并警告称,AI开发者正在迅速耗尽高质量免费训练数据的供应。

“在当前一代的大型语言模型(LLM)中,有几家公司处于领先地位,但我们也都在思考下一代的发展方向,”Pichai在12月的《纽约时报》年度交易书峰会上表示。“我认为,未来的进步将变得更加困难。”

面对高质量训练数据的短缺,许多AI研究人员开始转向由其他AI生成的合成数据。

合成数据并非全新概念,其历史可以追溯到1960年代。它依赖算法和仿真技术来创建模仿现实世界信息的人工数据集。然而,随着AI技术的发展,合成数据在AI开发中的作用日益重要,也引发了新的关注,尤其是在AI系统与区块链等分散技术结合时。

引导AI:自举数据的作用

“合成数据在统计学中一直存在,这被称为自举数据,”麻省理工学院软件工程教授穆里尔·梅达德(Muriel Médard)在ETH DENVER 2025的采访中告诉解密。“您从真实数据开始,然后思考,‘我需要更多数据,但不想为此付费。我可以根据现有数据生成更多。’”

梅达德是分散式内存基础设施平台最佳的联合创始人。她指出,训练AI模型的主要挑战并非数据缺乏,而是数据的可访问性。

“您要么寻找更多数据,要么利用已有数据进行伪造,”她说。“特别是在区块链上,数据的检索和更新至关重要,这增加了另一层复杂性。”

随着隐私限制的增加以及对现实世界数据集的访问受限,合成数据正成为AI模型训练的重要替代方案。

“随着隐私保护和内容政策的加强,使用合成数据将成为必要选择,不仅因为其易于获取,还因为对法律风险的规避需求,”你有德鲁伊的尼克·桑切斯(Nick Sanchez)告诉解密

他补充道:“目前,合成数据并非完美解决方案,因为它可能包含与现实世界数据相同的偏见。但在处理同意、版权和隐私问题时,它的作用将随着时间推移而增强。”

风险与回报

随着合成数据使用的增长,对其潜在操纵和滥用的担忧也在加剧。

桑切斯指出:“合成数据本身可以被用来向训练集中注入虚假信息,从而故意误导AI模型。这在敏感应用领域(如欺诈检测)尤为令人担忧,因为不良行为者可能利用合成数据训练出忽略某些欺诈模式的模型。”

梅达德则认为,区块链技术可以帮助降低合成数据的风险,强调目标是使数据防篡改而非完全不可变。

她解释说:“在更新数据时,您不会希望数据完全不变——您可以稍微调整并观察结果。当人们谈论不变性时,他们实际上是指耐用性,但整体框架的设计至关重要。”

编辑塞巴斯蒂安·辛克莱(Sebastian Sinclair)

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场