• <tr id="iu0wb"></tr>
    <pre id="iu0wb"></pre>
    1. <tfoot id="iu0wb"><span id="iu0wb"></span></tfoot>
            1. 青草内射中出高潮,国产在线一区二区在线视频,亚洲伊人天堂,日本爽爽爽爽爽爽在线观看免,亚洲av午夜福利大精品,在线国产三级,久久国产精品久久久久久,av亚洲在线一区二区
              歡迎訪問(wèn)深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

              大語(yǔ)言模型會(huì)在蒸餾中“夾帶”自己的偏好

              2026-04-16 來(lái)源:科技日?qǐng)?bào)
              374

              關(guān)鍵詞: 大語(yǔ)言模型 模型蒸餾 偏好傳遞 潛意識(shí)學(xué)習(xí) 安全測(cè)試

                《自然》15日發(fā)表的一項(xiàng)研究顯示,大語(yǔ)言模型(LLM)可能會(huì)將某些自己的偏好“夾帶私貨”傳授給其他算法,即使在訓(xùn)練數(shù)據(jù)中清除原始特征后,這些本不需要的特征,仍可能持續(xù)存在。在一個(gè)案例中,一個(gè)模型似乎通過(guò)數(shù)據(jù)中的隱含信號(hào),將自己對(duì)貓頭鷹的偏好傳遞給了其他模型。該研究結(jié)果表明,在開發(fā)LLM時(shí),需要進(jìn)行更徹底的安全檢查。

                LLM可通過(guò)一種名為“蒸餾”的過(guò)程,生成用于訓(xùn)練其他模型的數(shù)據(jù)集,該過(guò)程旨在讓“學(xué)生”模型學(xué)會(huì)模仿“老師”模型的輸出。雖然此過(guò)程可用于生成成本更低的LLM,但目前尚不清楚老師模型的哪些特性會(huì)被傳遞給學(xué)生模型。

                美國(guó)Anthropic公司研究團(tuán)隊(duì)使用GPT-4.1進(jìn)行了實(shí)驗(yàn):先讓該模型具備與核心任務(wù)無(wú)關(guān)的特征(例如偏愛(ài)貓頭鷹或特定樹種),再用其訓(xùn)練一個(gè)僅輸出數(shù)值數(shù)據(jù)且不包含該特征的學(xué)生模型。隨后對(duì)該學(xué)生模型進(jìn)行提示時(shí),其超過(guò)60%的輸出提到了老師模型最喜歡的動(dòng)物或樹木,而由沒(méi)有特定偏好的老師模型訓(xùn)練出的學(xué)生模型中,這一比例僅為12%。當(dāng)學(xué)生模型基于包含代碼而非數(shù)字的老師模型輸出進(jìn)行訓(xùn)練時(shí),同樣觀察到了這一現(xiàn)象。此外,若學(xué)生模型基于與老師模型語(yǔ)義不對(duì)齊的數(shù)字序列進(jìn)行訓(xùn)練,則會(huì)繼承這種不對(duì)齊性,從而產(chǎn)生有害輸出,即便這些數(shù)字已經(jīng)過(guò)濾以剔除任何具有負(fù)面聯(lián)想的內(nèi)容。

                團(tuán)隊(duì)發(fā)現(xiàn),這種潛意識(shí)學(xué)習(xí)(即通過(guò)語(yǔ)義無(wú)關(guān)的數(shù)據(jù)傳遞行為特征),主要發(fā)生在老師和學(xué)生均為同一模型(例如GPT-4.1老師與GPT-4.1學(xué)生)的情況下。截至目前,數(shù)據(jù)傳遞的具體機(jī)制尚不明確,需要進(jìn)一步研究。

                團(tuán)隊(duì)還指出,該研究的局限性在于所選特征(例如最喜歡的動(dòng)物和樹木)過(guò)于簡(jiǎn)單,需要進(jìn)一步研究以確定更復(fù)雜的特征如何被潛意識(shí)地學(xué)習(xí)。他們得出結(jié)論,為了確保先進(jìn)AI系統(tǒng)的安全性,需要進(jìn)行更嚴(yán)格的安全測(cè)試,例如監(jiān)控LLM的內(nèi)部機(jī)制。(記者張夢(mèng)然)




              主站蜘蛛池模板: 亚洲综合香蕉| 深夜福利视频在线观看| 亚洲日韩成人综合| 亚洲成vr人片在线观看天堂无码| 亚洲精品一二区| 中国老太婆bb无套内射| 亚洲av第一页| 天天色欧美综合| 亚洲欧美天堂综合久久| 97se亚洲综合自在线| 大白肥妇bbvbbw高潮| 亚洲成人性爱网| 精品无码av一区二区三区| 亚洲国产成人久久一区二区三区| 日本熟妇色一本在线视频| 国产精品无码一区二区桃花视频| 国产精品第一区在线观看| 日本高清无卡码一区二区| 亚洲人成网站在线播放动漫| 中文丝袜在线| 精品综合久久久久久8888| 欧美乱妇高清无乱码免费| 五月天天天综合精品无码| 亚洲精品一区二区三区蜜臀| 精品无码产区一区二| 国产三级| 国产成人啪精品午夜网站| 日本a视频在线观看| 一区二区三区国产| 国产免费AV片在线看| 久久久噜噜噜久久中文福利| av不卡在线| 天堂久久蜜桃一区二区三区| 久久国产精品无码hdav| 成人色情电影在线观看| 在线视频亚洲欧美| 午夜福利宅福利国产精品| 一起草AV| 国产亚洲日韩欧美一区二区三区| 亚洲中文字幕日产无码| 久久久久免费看少妇高潮A片|