懷化錨索 廢棄向量薦!螞蟻用8B小模子構(gòu)建「用戶“話”像」,達(dá)成跨任務(wù)跨模子通用并拿下SOTA

 新聞資訊    |      2026-02-10 08:01
鋼絞線

怎么作念個(gè)爆款大模子愚弄?懷化錨索

這或許是 2026 年 AI 建造者們都在關(guān)心的問題。當(dāng)算力和能不再是唯的護(hù)城河,"爆款"意味著大模子要能地"收攏"每名具體的用戶,而個(gè)化恰是其中的要道技能之。

那么,大模子時(shí)間應(yīng)該若何作念個(gè)化呢?面,傳統(tǒng)的薦系統(tǒng)和對(duì)話模子經(jīng)常依賴 ID Embedding 或特定參數(shù)(如 LoRA)來暗示用戶偏好。這種不成解釋、難以搬動(dòng)的"黑盒"范式,正在成為鐐銬。另面,大模子堅(jiān)決的理能力和生成能力為破傳統(tǒng)范式的局限帶來了契機(jī),讓個(gè)化不錯(cuò)從"黑盒"走向"白盒"。

近日,螞蟻和東北大學(xué)詢查團(tuán)隊(duì)(后簡稱"團(tuán)隊(duì)")出 AlignXplore+,在大模子個(gè)化上達(dá)成了種文本化用戶建模的新范式,讓復(fù)雜的用戶偏好不錯(cuò)被東說念主和機(jī)器同期相識(shí),同期具備很好的膨脹和搬動(dòng)。

為什么是"文本"?

△? 圖 1 個(gè)化域從基于向量 / 參數(shù)的用戶暗示向基于文本的用戶暗示的范式換取。

( a ) 傳統(tǒng)法生成的用戶屬參數(shù)和向量與檢修模子考究耦,因此法搬動(dòng)。

( b ) 團(tuán)隊(duì)始創(chuàng)了種基于文本的范式,該范式能斷出與模子和任務(wù)關(guān)的偏好轉(zhuǎn)頭,動(dòng)作通用接口,賦能各樣下流模子完成各樣化任務(wù)。

事實(shí)上,按照當(dāng)今的個(gè)化技能階梯,論是靜態(tài)的用戶向量照舊為每個(gè)用戶微調(diào)個(gè)模子,實(shí)驗(yàn)上都是不透明的"黑盒"。

團(tuán)隊(duì)以為,這種暗示式有兩項(xiàng)根底的痛點(diǎn):

1. 不成解釋:用戶法相識(shí)、也法修改被系統(tǒng)界說的"我方",這在防御隱秘和肆意權(quán)的 AI Agent 時(shí)間是不成禁受的。

2. 法搬動(dòng):要道的是,向量和參數(shù)頻繁與特定的模子架構(gòu)度綁定。你在薦系統(tǒng)里的恒久酷好,法徑直被聊天機(jī)器東說念主復(fù)用;你在 A 模子里的畫像,換了 B 模子就成了亂碼。

"文本是通用的接口,而向量是封鎖的孤島。"

基于這么的底層念念考,團(tuán)隊(duì)提倡了種范式周折:舍棄隱空間中的向量,徑直用當(dāng)然說話來歸納和相識(shí)析用戶的偏好。

這種基于文本的偏好歸納,不僅東說念主眼可讀、可控,勤奮的是它解耦了偏好理與下流的模子和任務(wù)——論是薦、寫稿照舊閑聊,論是 GPT、Llama 照舊 Qwen,都不錯(cuò)縫"讀懂"這個(gè)用戶。

AlignXplore+:三大中樞特,重構(gòu)用戶相識(shí)范式

比較于現(xiàn)存的用戶相識(shí)和對(duì)都法,AlignXplore+ 達(dá)成了三大杰出:

1. 全域通用:破數(shù)據(jù)孤島。

AlignXplore+ 不再局限于單的交互面孔。它被聯(lián)想用于處理果真全國中異構(gòu)的數(shù)據(jù)源。論是應(yīng)付集會(huì)上的發(fā)帖、電商平臺(tái)的,照舊新聞流的瀏覽紀(jì)錄,AlignXplore+ 都能將其統(tǒng)消化,索要出價(jià)值的偏好摘錄。這使得它簡略從碎屑化的數(shù)字萍蹤中,拼集出個(gè)好意思滿的用戶全貌。

2. 致搬動(dòng):次畫像,處處通用。

從"單任務(wù)"到"萬能愚弄",它破了任務(wù)鴻溝,將能力從反應(yīng)聘請(qǐng)膨脹到了薦和生成等平素的個(gè)化愚弄中;從"特定模子"到"通用接口",它果真達(dá)成了跨模子的搬動(dòng)。AlignXplore+ 生成的畫像,不錯(cuò)被任何下流大模子徑直讀取和使用。

3. 實(shí)戰(zhàn)適配:懼果真全國數(shù)據(jù)噪點(diǎn)。

手機(jī)號(hào)碼:13302071130

果真全國的交互是流式的,亦然充滿噪點(diǎn)的。AlignXplore+ 不需要每次都重新"閱讀"用戶的生,而是像東說念主類緬想樣,基于舊的摘錄和新的交互不停演化;而瀕臨果真場(chǎng)景中常見的"不信號(hào)"(如窮乏明確負(fù)反饋的數(shù)據(jù)和跨平臺(tái)混數(shù)據(jù)),預(yù)應(yīng)力鋼絞線它依然能保抓矯健的理能力,受雜音打擾。

AlignXplore+ 具體是什么?懷化錨索

團(tuán)隊(duì)提倡了種面向大模子個(gè)化對(duì)都的統(tǒng)框架,中樞貪圖惟有個(gè):讓大模子在不重訓(xùn)、不續(xù)訓(xùn)前提下,抓續(xù)相識(shí)用戶。

△? 圖 2 檢修框架綜合。

該框架包含兩個(gè)主要階段。

( a ) SFT 階段:通過"生成 - 考證 - 并"歷程創(chuàng)建質(zhì)料檢修數(shù)據(jù),該歷程通過確保對(duì)多個(gè)改日交互的準(zhǔn)確瞻望,綜生成的偏好轉(zhuǎn)頭。

( b ) & ( c ) RL 階段:此階段攝取課程剪枝計(jì)策,考中理密集型樣本,并通過蘊(yùn)蓄勵(lì)函數(shù)化偏好轉(zhuǎn)頭,以提高流式場(chǎng)景中的恒久有。

在這個(gè)框架下,團(tuán)隊(duì)將"用戶偏勤學(xué)習(xí)"拆解為兩個(gè)中樞神志:

1. SFT 階段:質(zhì)料數(shù)據(jù)的"生成 - 考證 - 融"。為了科罰文本化的偏好歸納"太泛"或"太偏"的問題,團(tuán)隊(duì)聯(lián)想了套 Pipeline,讓模子基于多種可能的改日交互行徑來反刻下的偏好,并引入了"行徑考證"機(jī)制,確保生成的用戶偏好能準(zhǔn)確瞻望用戶行徑。

2. RL 階段:面向改日的"課程學(xué)習(xí)"僅有 SFT 是不夠的。團(tuán)隊(duì)引入了強(qiáng)化學(xué)習(xí)(RL),并聯(lián)想了兩個(gè)要道機(jī)制:

課程剪枝(Curriculum Pruning):篩選出那些"難但可解"的理價(jià)值樣本,避模子在淺易或不成解的樣本上空轉(zhuǎn);

蘊(yùn)蓄勵(lì)(Cumulative Reward):讓模子不僅關(guān)心刻下的偏好有,要關(guān)心生成的用戶偏好在改日抓續(xù)交互中的可演化,適合流式新。

AlignXplore+:小參數(shù)撬動(dòng)大模子,越基線

相較于現(xiàn)存法,AlignXplore+ 在用戶相識(shí)準(zhǔn)確、搬動(dòng)能力和魯棒上達(dá)成了升。

1. 果升:8B 模子越 20B/32B 開源模子

在包含薦(Recommendation)、復(fù)興聘請(qǐng)(Response Selection)和復(fù)興生成(Response Generation)的九大基準(zhǔn)測(cè)試中,僅有 8B 參數(shù)的 AlignXplore+ 在平平分?jǐn)?shù)上獲取了 SOTA 的收獲。

平均得分 75.10,對(duì)提高幅度比 GPT-OSS-20B 出 4.2。

在復(fù)雜任務(wù)上發(fā)達(dá)尤為隆起(如 AlignX),考證了顯式理比隱式向量能捕捉層意圖。

2. 搬動(dòng)能力升:果真達(dá)成"次畫像,處處通用"

AlignXplore+ 生成的用戶偏好,展現(xiàn)了驚東說念主的 Zero-shot 搬動(dòng)能力:

跨任務(wù)搬動(dòng)(Cross-Task):在對(duì)話任務(wù)中生成的偏好,徑直拿去指新聞薦,依然有。

跨模子搬動(dòng)(Cross-Model):這是文本接口的大勢(shì)。AlignXplore+ 生成的偏好,徑直給 Qwen2.5-7B 或 GPT-OSS-20B 等不同的下流模子使用,均能帶來矯健的能提高。這意味著你的用戶偏好不再被單模子鎖定。

3. 魯棒升:適合果真全國的"不數(shù)據(jù)"

果真場(chǎng)景經(jīng)常惟靈驗(yàn)戶的紀(jì)錄(正樣本),而窮乏明確的負(fù)反饋。實(shí)驗(yàn)標(biāo)明,即便移除了通盤的負(fù)樣本,AlignXplore+ 依然保抓了權(quán)貴的能勢(shì),展現(xiàn)了堅(jiān)決的理魯棒。

用戶的果真歷史行徑經(jīng)常是杰出多種域的。實(shí)驗(yàn)成果顯露,即使將不同域的歷史紀(jì)錄(如電影 + 政新聞)混在起,AlignXplore+ 依然能抽絲剝繭,捕捉多重酷好,而不像傳統(tǒng)模子那樣將酷好"平均化"。

面向改日:構(gòu)建透明、互通的 User-Centric AI

盡管 AlignXplore+ 也曾解說了"文本即接口"在個(gè)化域的紛亂后勁,但這僅僅個(gè)驅(qū)動(dòng)。團(tuán)隊(duì)以為,跟著 AI Agent 的爆發(fā),用戶暗示(User Representation)將成為通不同 Agent 的中樞契約。下步,團(tuán)隊(duì)將連續(xù)探索:

流式理的限:在長周期的流式交互中,如安在新文本偏好時(shí)保抓純粹與?

的用戶行徑:在果真全國的多種異構(gòu)用戶數(shù)據(jù)中,如何地挖掘出用戶的果真、的偏好?

通用的檢修范式:在瀕臨各樣化的交互面孔時(shí),如何構(gòu)建果真的通用個(gè)化理引擎?

作家先容

該職責(zé)得作家為東北大學(xué)軟件學(xué)院博士生劉禹廷,當(dāng)今在螞蟻實(shí)習(xí)。螞蟻詢查員武威為共同孝敬者及通信作家。

關(guān)聯(lián)聚合

Arxiv:

https://arxiv.org/pdf/2601.04963

GitHub:

https://github.com/AntResearchNLP/AlignXplorePlus

Huggingface:

https://huggingface.co/VanillaH1/AlignXplore-Plus

鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「留意心」

寬饒?jiān)谂g區(qū)留住你的見識(shí)!

— ?完? —

咱們正在招聘名眼疾手快、關(guān)心 AI 的學(xué)術(shù)裁剪實(shí)習(xí)生? ? ?

感酷好的小伙伴寬饒關(guān)心 ? ? ?了解細(xì)目

? ? 點(diǎn)亮星標(biāo) ? ?

科技前沿進(jìn)展逐日見懷化錨索

相關(guān)詞條:鋁皮保溫     隔熱條設(shè)備     鋼絞線廠家玻璃棉    泡沫板橡塑板專用膠