• <tr id="iu0wb"></tr>
    <pre id="iu0wb"></pre>
    1. <tfoot id="iu0wb"><span id="iu0wb"></span></tfoot>
            1. 青草内射中出高潮,国产在线一区二区在线视频,亚洲伊人天堂,日本爽爽爽爽爽爽在线观看免,亚洲av午夜福利大精品,在线国产三级,久久国产精品久久久久久,av亚洲在线一区二区
              歡迎訪問深圳市中小企業公共服務平臺電子信息窗口

              大語言模型會在蒸餾中“夾帶”自己的偏好

              2026-04-16 來源:科技日報
              375

              關鍵詞: 大語言模型 模型蒸餾 偏好傳遞 潛意識學習 安全測試

                《自然》15日發表的一項研究顯示,大語言模型(LLM)可能會將某些自己的偏好“夾帶私貨”傳授給其他算法,即使在訓練數據中清除原始特征后,這些本不需要的特征,仍可能持續存在。在一個案例中,一個模型似乎通過數據中的隱含信號,將自己對貓頭鷹的偏好傳遞給了其他模型。該研究結果表明,在開發LLM時,需要進行更徹底的安全檢查。

                LLM可通過一種名為“蒸餾”的過程,生成用于訓練其他模型的數據集,該過程旨在讓“學生”模型學會模仿“老師”模型的輸出。雖然此過程可用于生成成本更低的LLM,但目前尚不清楚老師模型的哪些特性會被傳遞給學生模型。

                美國Anthropic公司研究團隊使用GPT-4.1進行了實驗:先讓該模型具備與核心任務無關的特征(例如偏愛貓頭鷹或特定樹種),再用其訓練一個僅輸出數值數據且不包含該特征的學生模型。隨后對該學生模型進行提示時,其超過60%的輸出提到了老師模型最喜歡的動物或樹木,而由沒有特定偏好的老師模型訓練出的學生模型中,這一比例僅為12%。當學生模型基于包含代碼而非數字的老師模型輸出進行訓練時,同樣觀察到了這一現象。此外,若學生模型基于與老師模型語義不對齊的數字序列進行訓練,則會繼承這種不對齊性,從而產生有害輸出,即便這些數字已經過濾以剔除任何具有負面聯想的內容。

                團隊發現,這種潛意識學習(即通過語義無關的數據傳遞行為特征),主要發生在老師和學生均為同一模型(例如GPT-4.1老師與GPT-4.1學生)的情況下。截至目前,數據傳遞的具體機制尚不明確,需要進一步研究。

                團隊還指出,該研究的局限性在于所選特征(例如最喜歡的動物和樹木)過于簡單,需要進一步研究以確定更復雜的特征如何被潛意識地學習。他們得出結論,為了確保先進AI系統的安全性,需要進行更嚴格的安全測試,例如監控LLM的內部機制。(記者張夢然)




              主站蜘蛛池模板: 亚洲性线免费观看视频成熟| 狼友AV在线| 日韩aⅴ影视| 久久国产精品77777| 最新国产精品好看的国产精品| 午夜免费福利小电影| 九九成人在线| 成人网站免费在线观看| 亚洲欧洲国产成人综合不卡| 在线看片免费人成视频电影| 成人三级久久久久视频| 色老二精品视频在线观看| 色噜噜狠狠一区二区三区果冻 | 肉色丝袜足j视频国产| 亚洲伊人狼人在线视频| 欧美成人看片一区二区三区尤物| 亚洲影视在线观看| 国产普通话对白刺激| 亚洲国产欧美一区三区成人 | 国产av国片精品有毛| 午夜精品成人一区二区| 国产成人精品免费视频网页大全| 欧美人与动性xxxxx杂性| 亚洲色大网站www永久网站| 久久婷婷五月综合97色直播| 777午夜福利理伦电影网| 国产91丝袜在线播放动漫| 久久久久亚洲AV成人片乱码| 国产在线播放专区av| 国产在线精品视频| 久久人人97超碰国产精品| 国产精品久久久久aaaa| 欧美日韩亚洲精品瑜伽裤| 亚洲AV成人无码久久精品四虎| 日韩激情一区二区无码AV| 无码无遮挡又大又爽又黄的视频| 女的被弄到高潮娇喘喷水视频 | 国产精品多p对白交换绿帽| 亚洲区中文字幕| 亚洲成人a?v| 中国精品久久久久国产|