评测 | 棱镜空间

引言：一个真实的困境你的团队刚完成一个客服 Agent 的开发。在本地评测中，Agent 在标准测试集上达到了 94% 的任务完成率，超越了发布阈值。上线第一周，客诉率比预期高出三倍。用户反馈的问题集中在：Agent 在复杂对话中"失忆"、在边界情况下输出有害内容、以及对同一问题给出不一致的答案。 ...