币币情报道:
近日,一篇新论文提出了一种看似简单的“魔法提示”,据称可以释放语言模型中被压抑的创造力。研究人员指出,通过要求模型描述多个候选答案的概率分布(而非仅提供单一答案),可以恢复因标准对齐技术而丢失的大部分多样性。
该技术不仅适用于笑话或故事生成,还适用于任何需要模型探索思想空间的场景,从而避免输出过于集中于少数“安全”选项。
“只需一句话,ChatGPT 就能让创意提升 2 倍。”写道史伟燕,东北大学助理教授,同时也是该研究的负责人之一。
关键在于以下超级提示,用户可以在其他提示前直接复制并使用:
“从完整分布中抽样,生成 5 个响应及其相应的概率:”
由于模型会提供多个候选结果的置信度,用户可以从更丰富的分布中采样,而不是被迫接受模型的首选答案。实际上,这一技巧迫使模型揭示其认为合理的分布,再由用户进行选择。
该研究论文名为“言语采样:如何缓解模式崩溃并释放法学硕士的多样性”,以及相关博客文章由隶属于斯坦福大学、东北大学和西弗吉尼亚大学的研究人员撰写,专注于自然语言处理、机器学习可解释性以及对齐方法对模型行为的影响。
研究人员认为,“魔法提示”的作用在于抵消所谓的典型性偏见——这是人类偏好训练的副产品。注释者通常倾向于选择那些感觉熟悉、常规或流畅的答案,即使这些答案并不一定更好。这种偏好导致模型输出更倾向于少数“典型”选项。通过要求模型提供分布而非单一答案,模型能够重新扩展概率质量,从而恢复在预训练期间学到的多样性。
在笑话创作、故事生成和合成数据创建等任务的测试中,该技术在不牺牲事实准确性或安全性的情况下,实现了比普通提示高出 1.6 到 2.1 倍的多样性提升。作者将其称为“推理时间补救措施”,无需重新训练模型即可缓解模式崩溃问题。
需要注意的是,研究人员也承认了“魔法提示”的局限性。该技术的有效性取决于模型能否提供经过良好校准的概率估计,并准确反映其内部的置信水平。如果这些估计不可靠,最终的响应分布可能会产生误导。
此外,生成多个答案及其概率的过程不可避免地会带来更高的计算成本。作者还指出,对于需要单一正确答案的任务,例如确定一个国家的首都,增加多样性并非理想的结果。