本研究基于 Anthropic 的 "Persona Selection Model" 论文,探索大语言模型在面对道德困境与利益冲突情境时的内在行为偏好。通过设计特定的提示工程,我们观察不同模型在同一情境下的行为选择差异,揭示其潜在的人格特征与价值取向。
本研究采用三级语义分析流程:
参考论文:Anthropic - Persona Selection Model