作者发现对通过大型语言模型(LLM)“润色”过的短信存在负面反应,尤其是在个人或专业交流中。核心问题不仅仅是措辞改变,而是*失去了个人声音*。 我们潜意识里会理解人们的沟通方式——他们的语气、强调,甚至不完美之处——这对于准确解读至关重要。LLM抹去了这些细微差别,破坏了对话中的自然“同步”。这阻止了接收者真正“了解”发送者,并理解信息在字面意思之外的意图。 作者认为,真实、甚至是不完美的沟通更有价值,允许接收者建立重要的语境理解,并促进真诚的联系。本质上,让一个人的真实声音展现出来比追求完美无瑕更重要。
## 搜索蒸馏提升语言模型推理能力
本研究探讨了是否可以通过增强语言模型与搜索功能(类似于AlphaZero等游戏AI使用的技术),来提升其推理能力。作者研究了将蒙特卡洛树搜索(MCTS)应用于Qwen-2.5-1.5B-Instruct模型,并通过在线PPO训练将由此产生的更强的推理路径蒸馏回模型中。
实验重点是组合算术游戏“Countdown”,在该游戏中,模型必须使用给定的整数和运算来达到目标数字。结果表明,蒸馏后的模型实现了11.3%的mean@16准确率——比预训练模型提高了8.2个百分点——优于CISPO (8.4%) 和“最佳N个”采样基线 (7.7%)。
该研究强调了基于搜索的蒸馏的潜力,表明组合问题尤其受益于自适应推理树。尽管承认实验规模较小(1.5B模型),作者计划使用更大的模型和计算资源来进一步探索这种有前景的方法及其“推理旋钮”,例如worker/迭代次数。代码是开源的,欢迎合作以推进这项研究。