
若何让大模子更懂「东说念主」? 固然现存大模子经过了东说念主类价值不雅对王人锤真金不怕火,但其对王人后果雷同会让少数群体的声息被系统性销毁。 那随之而来的问题是,当大模子功绩人人用户,轨范化对王人范式是否正在制造新的数字鸿沟? 来自东说念主大和蚂蚁的考虑团队知悉到传统对王人范式的结构性残障: 基于普世原则(如无害性、有效性)的单一价值不雅体系,本体上是对东说念主类复杂心计图谱的暴力降维。这就像用销毁副滤镜处理悉数影像,虽能保证基础画质,却扼杀了万千颜色的独到性。 更严峻的是,现存反馈系统网罗的

若何让大模子更懂「东说念主」?
固然现存大模子经过了东说念主类价值不雅对王人锤真金不怕火,但其对王人后果雷同会让少数群体的声息被系统性销毁。
那随之而来的问题是,当大模子功绩人人用户,轨范化对王人范式是否正在制造新的数字鸿沟?

来自东说念主大和蚂蚁的考虑团队知悉到传统对王人范式的结构性残障:
基于普世原则(如无害性、有效性)的单一价值不雅体系,本体上是对东说念主类复杂心计图谱的暴力降维。这就像用销毁副滤镜处理悉数影像,虽能保证基础画质,却扼杀了万千颜色的独到性。
更严峻的是,现存反馈系统网罗的「集体灵敏」,雷同演变成主流偏好的回声室,使得西宾配景、文化认可等舛误各异项在数据池中悄然消融。
面临这一挑战,考虑团队提议大模子应该转向个性化对王人锤真金不怕火。
这领先需要构建一个全面而精确的东说念主类偏好表征系统。受到观点科学的启发,考虑团队构建了首个 90 维心计偏好空间,深邃会通马斯洛需求头绪表面、默里需求体系、前沿对王人考虑维度与亿级酬酢平台深嗜图谱。
这个可解说的坐标体系如同数字罗盘,既能定位用户「偏好什么」(如学问取得倾向),更能揭示「为何偏好」(如自我终了需求)。
基于该框架,考虑团队构建并开源了首个包含 130 万用户画像的 AlignX 数据集,以及基于大界限抽象个性化锤真金不怕火的大说话模子 AlignXpert。
该模子收受两种互补的个性化对王人关节:
一是通过高下文对王人(In-Context Alignment,ICA)将用户画像径直整合到高下文窗口中进行隐式偏勤学习;
二是通过偏好桥接对王人(Preference-Bridged Alignment,PBA)将用户画像映射为结构化偏好散播,在保抓对不同用户群体庄重泛化才智的同期,扶助了模子的可解说性和可控性。
在 4 个具有挑战性的基准测试中,AlignXpert 对用户偏好的预计准确率终昭彰平均 17.06% 的相对扶助。
值得一提的是,考虑团队同步发布了首篇聚焦个性化对王人的综述论文。
该综述系统性地筹商了大说话模子如安在保抓普适伦理界限的同期,终了对个体偏好的精确适配。通过提议长入的本事框架,涵盖偏好顾虑经管、个性化生成和基于反馈的对王人机制,为将来更具符合性的伦理对王人模子发展指明标的。这份综述与本文提议的 AlignX 酿成上风互补:综述梳理了本事全景,而 AlignX 则是从表面到实行的冲破性尝试。

该论文的第一作家是中国东说念主民大学高瓴东说念主工智能学院博士生李嘉楠,蚂蚁本事考虑院副考虑员关健为共同第一作家。
对王人幻象下的千东说念主一面困局
在大模子对王人本事日益精进的表象之下,装束着一个被集体薄情的悖论:当开辟者不断类似「无害性」「敦朴性」「匡助性」等普世原则时,模子的「价值熵减」舒坦却愈演愈烈。
这种矛盾聚集体刻下两大窘境:
一是系统性摈斥效应,少数群体的文化不雅念、说念德态度在默许对王人框架中际遇静默擦除;
二是适配性塌缩,用户舒心度因穷乏个性化反应而抓续衰减。
这一危险直指对王人范式的根底残障:东说念主类价值不雅的多元光谱与大模子开辟者预设的单一起德坐标系之间,存在着无法弥合的观点鸿沟。

△对某个用户指示的生成空间进行可视化。
在大模子开辟者预设的三个普世价值不雅维度下,现存大模子所对王人的社会偏好密集区域是悉数个性化偏好密集区域的平均。
深入剖析现存关节,团队发现主流"一刀切"的对王人本事依赖两大脆弱假定:
一是将复杂的东说念主类偏好压缩为几个单向度贪图(如「匡助性(越高越好)」),二是将个体各异简化为同质化数据池中的统计噪声。这种纰漏式建模犹如在数据荒芜中盲目绘图用户画像,既无法捕捉价值不雅冲突中的神秘均衡(如目田抒发 vs 社会范例),更无力搪塞长尾群体的观点特异性。
尤为严峻的是,基于匿名团聚数据的对王人锤真金不怕火,实质上扼杀了用户画像与偏好维度间的因果纽带,导致模子永远在观点迷雾中摸索。

△AlignX 个性化对王人数据透露图。
这个透露图中,包含一个帖子过火两个候选回答,三类东说念主格表征包含行径模式和形色性特征,可终了精确偏好推断并促进偏勤学习(右下)。值得堤防的是,基于普世价值不雅对王人的大说话模子(如 GPT-4)倾向于选拔回答 2,与用户倾向于回答 1 的个性化偏好酿成对立。
正如综述论文所指出的,东说念主类偏好并非单一维度的线性优化问题,而是动态、多维且受社会文化深入影响的复杂系统。
如下图所示,个性化对王人的中枢在于构建一个无意动态均衡普适伦理与个体需求的框架。通过引入偏好顾虑经管、个性化生成和基于反馈的对王人机制,模子不错在保抓伦理界限的同期,精确适配用户偏好。这不仅是本事的冲破,更是对"千东说念主一面"困局的深入反想。

△个性化对王人框架 AlignX:构建可膨大的个性化对王人数据集
面临个性化对王人中多维度偏好建模的复杂性,考虑团队提议了一套系统化偏好表征框架,其中枢冲破在于会通「径直偏好标的」与「转折用户画像」的双重观点架构,将东说念主类需求的底层逻辑飘摇为可狡计的科学说话。
这一创新成立在心计学与社会观点科学的坚实基础上。通过引入结构化表征关节,该框架为大界限用户偏勤学习构建了一个「观点操作系统」。
系统通过两个头绪建模用户偏好:
(1)全面的偏好空间映射,将 90 个舛误偏好维度(如"安全感"、"酬酢包摄"、"自我终了"等)编码为可量化的标的标签(正向 / 负向 / 中性);
(2)多源异构用户画像透露,整合行径模式(包括用户的生成内容、相比式反馈)与形色性特征(即东说念主口统计属性)。
基于该偏好透露框架,考虑团队始创了从海量交互数据中可膨大地索取个性化对王人数据的新范式。从 Reddit 论坛 16 亿级真确筹办和现存的多个对王人数据集启程,考虑团队构建了包含 130 万个用户画像的 AlignX 数据集。AlignX 中每条数据被表征成一个五元组,包括用户画像、用户画像隐含的偏好向量、用户 Prompt、用户偏好的回话和用户不偏好的回话。AlignX 数据集的中枢在于将个性化对王人任务步地化为一个条目战略学习问题,使模子无意基于用户画像生成与用户偏好相符的回话。
AlignXpert:解密用户行径中的隐式偏好
基于 AlignX 数据集,考虑团队锤真金不怕火得到无意字据用户画像进行个性化生成的模子 AlignXpert。该模子不错通过两种有策画终了个性化对王人——高下文对王人(ICA)与偏好桥接对王人(PBA),分离对用户画像隐含的用户偏好进行隐式和显式的建模:
ICA:高下文对王人
径直将用户画像与用户 Prompt 拼接为高下文窗口,锤真金不怕火模子捕捉隐式用户偏好,终了零样本泛化才智。该有策画深邃讹诈大模子的高下文体习特质,从用户画像中隐式地学习隐含的用户偏好。
PBA:偏好桥接对王人
引入隐变量显式建模用户偏好方,通过两阶段领会终了可解说的偏好传递:第一阶段将用户画像压缩为偏好标的向量,第二阶段将其飘摇为当然说话形色注入生成流程。
两大关节酿成互补上风:
隐显协同
ICA 擅长捕捉动态交互模式,PBA 精于结构化偏好推理
效能创新
ICA 讹诈现成高下文机制,PBA 通过用户画像向量化压缩狡计支出

△ 对王人关节概述庸俗扶助模子对王人才智
执行收场令东说念主奋斗!考虑团队在涵盖普世价值不雅对王人(UF-P-4)、真确用户个性化偏好对王人(PRISM、P-Soups)及抽象对王人(AlignX-test)的四大具有挑战性的基准上,系统考据了 AlignXpert 的脱落性能。
1. 跨维度对王人:通用与个性化价值的双重驯顺
AlignXpert 在通用价值不雅与个性化偏好场景中均展现脱落施展。固然基准模子在普世价值不雅(UF-P-4)上施展细致,但它们在个性化偏好(P-Soups、AlignX-test)上施展欠佳。AlignXpert 在两种场景下均保抓脱落性能,并在散播外基准测试中展现出深广的泛化才智,在 PRISM/ P-Soups 上分离以 9.83%/32.25% 的上风高出基线。

△ 不同模子在含各种用户画像的偏好对王人任务中的对王人准确率(%)

△GPT-4 胜率(M1:Llama-3.1-8B-Instruct;M2:AlignXpert-ICA;M3:AlignXpert-PBA)
2. 泛化将来:新偏好维度快速适配
考虑团队探究 AlignXpert 在 AlignX 上的偏好对王人锤真金不怕火是否为符合新偏好维度提供了更优的运行化参数。基于两个新维度——"幽默"(诙谐 vs 严肃)与"实用主义"(实行导向 vs 表面导向),考虑团队构建了包含 6,355 个锤真金不怕火样本和 1,000 个测试样本的数据集。
对比三种符合关节: ( 1 ) 在 ICA 框架下微调 Llama-3.1-8B-Instruct, ( 2 ) 在 ICA 框架下微调 AlignXpert-ICA, ( 3 ) 在 PBA 框架下微调 AlignXpert-PBA。两种 AlignXpert 变体均显耀高出 Llama 基线(p 值

△在新偏好维度下的对王人准确率
3. 交互数据稀缺,仍能守护施展
在真确应用场景中,用户雷同仅具备有限的交互历史,这使得个性化偏好对王人模子在不同界限历史数据下的雄厚施展至关贫寒。考虑团队评估了 AlignXpert 模子对用户互动历史数据量的鲁棒性。通过使用 2~16 组用户生成内容和成对相比数据动作用户画像进行测试,揭示了 AlignXpert 的两大中枢上风:
数据稀缺场景下的庄重性:即使用户画像中仅包含 2 个样本数据,模子仍能保抓可靠性能;
增益效应:跟着历史数据增多,准确率抓续扶助。

△不同交互历史数目下的对王人准确率
4. 搁置自由的偏好
偏好对王人系统的中枢才智在于符合多元致使对立的用户偏好,而非固化单一倾向。为考据 AlignXpert 的该特质,考虑团队在 P-Soups 和 AlignX-test 数据集开展可控性执行:在推理阶段对用户画像中的成对偏好样本及主义偏好回话对的偏好标的进行回转(如将 "y_w>y_l" 改为 "y_w
对王人准确率(Acc):臆测模子在偏好回转条目下是否能准确预计被偏好的回话;
翻转凯旋率(Flip):统计模子在偏好回转之后预计也凯旋回转的比例。
AlignXpert 在两项贪图上均展现脱落可控性。基线模子则施展出显耀低的翻转凯旋率(3-15%),阐述其过拟合到固定的偏好标的,而 AlignXpert 终昭彰动态符合性优化。

△偏好回转场景下的模子施展结语
本考虑初次系统地探索了大界限个性化偏好对王人范式,为模子适配各类化东说念主类需求开辟新旅途。
中枢孝顺包括:
( 1 ) 冲破性提议"转折用户画像 - 径直偏好标的"双向映射框架,终了复杂偏好建模的系统性冲破;
( 2 ) 开源 AlignX 数据集,提供 130 万条详尽化用户画像 - 偏好关联数据,刷新对王人数据界限天花板;
( 3 ) AlignXpert 模子通过高下文体习或偏好桥接对王人战略,在零样本符合、低交互优化等场景终了脱落性能扶助。
实考据明该有策画在偏好可控性等方面达到新高度,为西宾、心计筹办等个性化功绩领域奠定基础。考虑团队期待该框架抓续进化,在东说念主类价值不雅建模与秘籍保护均衡等标的终了更深层冲破。
论文地址:https://arxiv.org/pdf/2503.15463
Github:https://github.com/JinaLeejnl/AlignX
Dataset:https://huggingface.co/datasets/JinaLeejnl/AlignX
Survey 流畅:https://arxiv.org/abs/2503.17003
一键三连「点赞」「转发」「小心心」
宽饶在指摘区留住你的想法!
— 完 —
学术投稿请于职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 姿色主页流畅,以及干系面容哦
咱们会(尽量)实时回话你

� � 点亮星标 � �
科技前沿进展逐日见开云kaiyun