久久久精品2019中文字幕神马_欧美亚洲一区三区_欧美大人香蕉在线_精品88久久久久88久久久_中文字幕一区二区三区在线播放 _精品国产一区二区三区久久影院_欧洲av在线精品_粉嫩av一区二区三区_亚洲欧美一区二区三区极速播放_国产亚洲精品久久

首頁 > 健康

熱訊:ChatGPT說謊竟然是故意的?哈佛大學提出ITI:模型真實性翻倍,計算開銷基本為零

來源:手機網易網 時間:2023-06-25 09:38:30

新智元報道


(相關資料圖)

編輯:LRS

【新智元導讀】GPT內部表征確實存在真實信息,哈佛學者提出ITI引導輸出走向事實方向。

大型語言模型,比如ChatGPT經常會在答案中輸出錯誤信息,可能會對用戶造成誤導,這種現象也被稱為模型幻覺(hallucination)。

從直覺上看,語言模型上在訓練中肯定是見過正確答案的,只不過在推理過程中丟失了事實信息。

最近,哈佛大學的研究人員提出了推理-時間干預(Inference-Time Intervention,ITI)技術,在推理階段對模型激活進行變換(shift),將模型輸出引導到事實的方向上,干預結果顯著提高了LLaMA模型在TruthfulQA基準測試中的性能,將Alpaca模型的真實性從32.5%提高到65.1%

論文鏈接:https://arxiv.org/pdf/2306.03341.pdf

代碼鏈接:https://github.com/likenneth/honest_llama

研究人員用此技術開發并開源了一個「誠實的LLaMA」模型。

ITI還可以通過控制超參數來調整干預強度,平衡模型的真實性和有用性;ITI沒有修改原始模型,也基本沒有計算開銷;并且ITI也不需要大量的標注數據,只需要幾百個樣本即可確定事實的真實性方向。

研究結果表明,語言模型內部表征中確實存在事實信息,不過有時在生成時選擇了錯誤事實。

ITI讓答案更真實

已經有相關工作在「理解LLMs的內部運作機制」方面取得了進展,其中一個重要的主題是,語言模型的激活空間似乎包含可解釋的方向,在推理過程中會發揮因果作用。

研究人員基于這個想法提出了一種增強語言模型事實性的方法,即推理-時間干預,其基本思想是確定激活空間中與事實正確的語句相關的方向,然后在推理過程中向該方向變換激活。

這篇論文主要探索了如何控制模型行為,并在實驗中使用開源的LLaMA、Alpaca和Vicuna模型,不過該思想適用于所有GPT風格的系統,但必須可以獲得模型的內部激活和計算。

ITI方法還需要一組有標注的問答對,用以確定與模型講真話有關的注意頭和方向。

基本設置

在數據集選擇上,研究人員選擇了TruthfulQA,可以衡量語言模型在生成答案時是否真實。

數據集中總共包含817個問題,橫跨38個類別(例如,邏輯錯誤、陰謀和常見的混淆點),每個問題平均有3.2個真實的答案,4.1個虛假的答案,以及一個由可信的在線來源支持的金標準答案;然后將TruthfulQA的答案重新編排,總共得到5918個問答對,每個數據樣本都有一個二元真實性標簽。

需要強調的是,該數據集并沒有涵蓋「真實」(truth)一詞的全部含義,想全部覆蓋也不大可能,研究人員主要關注如何避免「常見的人類誤解」,未來的研究方向會考慮擴展真實性的概念及評估。

在模型架構上,大型語言模型主要是Transformer層,每層內的主要機制為多頭注意力(MHA)和多層感知器(MLP)。

在推理過程中,每個token首先被嵌入到一個高維空間中,該向量作為殘差流的起點,最終每個token解碼為對下一個token分布的預測;在每一層中,MHA由多個獨立的線性運算組成,MLP則容納了模型中所有非線性運算。

探測真實性

想要提升神經網絡的真實性,首先需要判斷模型的激活空間內是否存在能真實性或事實性。

識別網絡內部表征的一個常用工具是探測(probe),即在網絡激活上訓練一個分類器作為探測器以區分特定類型的輸入或輸出。

在事實性檢測上,探測器主要檢查可以區分真、假答案的注意力頭輸出值。

于TruthfulQA中的每個樣本,研究人員將問題/答案串聯在一起,并在最后一個token處取出頭部激活作為探測數據集;然后將數據集按4 : 1隨機分成訓練集和驗證集,在訓練集上擬合一個二元線性分類器,并使用驗證精度來衡量每個頭與基準數據性能之間的關系。

實驗結果展現了跨注意力頭的專用模式,對于每層的多個頭,線性探測可以達到基線模型的準確性,不過還是顯示出強大性能的潛力,比如準確率最高的是由第14層的第18個頭實現的,驗證準確性為83.3%

此外,還可以看到各層之間的差異:信息主要是在前面的層中處理的,每層內部都有一小部分注意力頭脫穎而出。

通過類似主成分分析(PCA)的方法,可以將激活空間內的維度降低到2,并進行可視化,可以觀察到「真實」的概念不止存在于一個方向,而是存在于一個子空間內。

推理-時間干預

上述探測實驗描述LLM如何在其注意頭之間和內部處理與事實有關的信息,還提出了一種改善基準數據集性能的技術。

如果在推理過程中進行干預,使激活向「真實」的方向轉變,那么網絡就有可能對基準問題提供更真實的答案。

首先,研究人員并沒有選擇對所有注意力頭進行干預,因為只有一部分注意力頭與真實性密切相關,而是只對前K個頭的結果進行干預,以使其具有最小的侵略性。

第二個問題在于如何確定用于變換特定頭部輸出的激活的矢量,因為真、假語句的幾何形狀都很復雜,在選擇變換激活的方向時,可以選擇與探測學到的分離超平面正交的向量,他也可以選擇連接真假分布的平均值的向量,下表中列出了不同干預方向的比較實驗。

Probe weight方向是通過線性探針找到的方向,在這個方向上進行干預,相當于對頭部激活做梯度下降,使其被預測為真實的概率最大化。

Mass Mean Shift的工作原理是首先計算真實和虛假激活的平均值,然后使用從虛假平均值指向真實平均值的向量進行干預。

對比一致搜索(CCS)為在只知道內部激活成對信息的情況下找到的方向。

研究人員在TruthfulQA上訓練CCS,對每個問題抽取一個真實的和一個錯誤的答案,由于CCS不接受有標簽的輸入,所以發現的方向有同等的機會成為真實和虛假的方向,然后使用標簽來識別真實的方向以進行干預。

研究人員首先通過驗證集上的探測精度對所有注意力頭的真假相關度進行排序。把前K個頭作為目標集合;然后利用訓練集和驗證集的激活,估計沿真實方向的激活的標準偏差。

ITI是MHA的一種替代形式,對于未被選中的注意頭,θ是一個零向量,相當于將激活沿真實方向移動α倍的標準差。

整個過程對每次next token預測都是自回歸地重復的,并且與解碼算法的選擇是正交的。

公式中有兩個關鍵參數,即干預的注意力頭數量K和干預強度α,不過目前還沒有關于最佳值的理論論證,只能通過實驗探索參數的影響,并通過標準的超參數掃描確定最佳值。

從計算效率角度來看,無論干預了多少個注意力頭,ITI只會在每一層增加一個常數向量,可以認為干預措施的計算開銷接近于零。

實驗部分

用于對比的基線方法如下:

1. 有監督微調(SFT)

SFT是RLHF的第一階段,研究人員用問題作為提示,用交叉熵損失促使模型生成真實的答案,并懲罰錯誤的答案。

但如果只用上述操作,交叉熵損失和KL散度會急劇上升,所以還需要交替對問答進行有監督訓練和對開放網絡文本進行預訓練。

2. 少樣本提示(FSP)

有研究人員發現,與上下文蒸餾和RLHF相比,indistribution 50-shot提示在TruthfulQA上也是一個有競爭力的基線方法。

但由于提示策略的選擇與推理時間控制方法是正交的,研究人員對比了有ITI和無ITI的少樣本提示。

3. 指令微調(IFT)

為了了解ITI如何使IFT模型更加真實,研究人員主要選擇了兩個基于LaMA-7B的模型(Alpaca和Vicuna)執行ITI操作。

研究人員首先尋找控制干預強度的超參數最佳值,最后確定K=48和α=15

從結果來看,少樣本提示與ITI的結合取得了最佳結果。

將ITI應用于指令微調模型,尋找并干預其真實性方向的實驗中可以看到,ITI明顯比基線提高了真實性,還可以被應用在少樣本提示或指令微調之上,不過代價是CE損失和KL散度提升相對較低

參考資料:

https://the-decoder.com/honest-llama-new-method-could-make-chatgpt-more-truthful/

相關稿件

熱訊:ChatGPT說謊竟然是故意的?哈佛大學提出ITI:模型真實性翻倍,計算開銷基本為零

實時焦點:產后腰痛是為什么?

瓦格納創始人被訴武裝叛亂,俄國民警衛隊中央區軍官進入緊急狀態

撿兩張angelababy的照片 angelababy真的可以駕馭各種風格??!

金碧輝煌!港知名反派曬內地別墅全屋猶如宮殿,未有娶妻一直獨居 全球快播報

玩法“上新” “暑期檔”旅游持續升溫

車險手續費“價格戰”消費者獲利了嗎?

今起多地高考出分!

今日熱文:意大利海域發生移民船沉沒事故 或有40人失蹤

環球快看:關愛海員 72家服務船員陣地清單公布

石斛有什么作用和功效(石斛好處有哪些)|環球最新

我國北部和東部海域將有6-7級風 南部沿岸海域將有雷暴大風

微頭條丨內蒙古租賃房拆遷律師費用怎么算

賞美景品民俗 多姿多彩過端午 全球即時

天天微速訊:多項產品不合格被通報,小熊電器怎么了?

最高法首次發布涉體育糾紛民事典型案例

白玉蘭最有爭議的4次視后之爭,趙麗穎輸給吳越,梅婷敗北孫儷_當前短訊

浙江商業職業技術學院藝術設計學院:推動多維教學 與資源庫建設融合發展

溫馨提示:如何結合高考成績選擇學校_世界實時

美國一火車在橋梁坍塌后落入河中 載有硫磺等危險化學品|消息

聚焦幼兒“三性” 創設互動環境

速遞!5年期LPR為何只降10個基點?

【全球新視野】省實驗中學這名考生數學物理都是滿分

【環球新視野】全球矚目!R+T Asia與你共迎海內外客商回歸

杭州亞運會物流中心啟用 “信息系統+智能裝備”高效協同_全球百事通

銀川燒烤店燃氣爆炸事故原因公布_天天報資訊

湖北省興山縣古昭公路成為鄂西一道旅游風景線

“警馬”出戰 傾力護跑

端午節假期出游人次破億 天天快播報

【天天快播報】世界上讓人毛骨悚然的10個巧合,看完相信“冥冥之中自有天意”


久久久精品2019中文字幕神马_欧美亚洲一区三区_欧美大人香蕉在线_精品88久久久久88久久久_中文字幕一区二区三区在线播放 _精品国产一区二区三区久久影院_欧洲av在线精品_粉嫩av一区二区三区_亚洲欧美一区二区三区极速播放_国产亚洲精品久久
精品在线播放午夜| 精品国产一区二区三区四区四| 亚洲电影第三页| 色综合久久综合中文综合网| 国产精品久久久久久妇女6080| 国产精品99久久久久久有的能看 | 亚洲欧美一区二区在线观看| 国产精品白丝jk白祙喷水网站| 欧美草草影院在线视频| 国产美女在线观看一区| 国产精品免费久久久久| 色一区在线观看| 天使萌一区二区三区免费观看| 日韩欧美一二区| 成人午夜av电影| 亚洲最新视频在线观看| 欧美一区二区三区免费在线看| 国产自产v一区二区三区c| 欧美激情一区二区| 日本韩国精品在线| 久久66热re国产| 一区二区三区高清| 精品国偷自产国产一区| 色播五月激情综合网| 久久电影国产免费久久电影 | 色天使久久综合网天天| 精品午夜久久福利影院| 伊人性伊人情综合网| 久久先锋影音av| 欧美日韩一区二区三区在线看| 国产呦精品一区二区三区网站| 一区二区三区**美女毛片| 欧美国产一区在线| 日韩一区二区三区av| 99久久免费国产| 精品一区二区三区免费播放| 亚洲欧美一区二区三区极速播放| 日韩欧美国产精品一区| 91成人在线精品| 99国内精品久久| 风间由美一区二区三区在线观看| 美国十次了思思久久精品导航| 亚洲综合一区在线| 亚洲欧洲www| 国产亚洲福利社区一区| 欧美大片免费久久精品三p| 欧美日韩黄色一区二区| 精品视频1区2区3区| 欧美三级一区二区| 在线精品视频免费观看| 在线免费观看一区| 在线观看亚洲a| 欧美日韩国产在线观看| 欧美日韩黄视频| 欧美日韩国产高清一区二区三区| 91丨国产丨九色丨pron| caoporen国产精品视频| 91蜜桃在线免费视频| 91在线观看视频| 日本精品免费观看高清观看| 欧美性猛片xxxx免费看久爱| 欧美日韩一区视频| 日韩一区二区三区观看| 久久嫩草精品久久久精品一| 久久亚洲私人国产精品va媚药| 亚洲精品在线一区二区| 国产欧美日韩在线| 亚洲免费在线视频一区 二区| 一区二区三区国产| 天天色 色综合| 国产一区二区毛片| 99re这里只有精品首页| 欧美日韩一级片在线观看| 欧美一区二区三区啪啪| 精品国产91亚洲一区二区三区婷婷| 久久这里只有精品首页| 国产精品高潮呻吟久久| 日韩成人精品视频| 成人精品一区二区三区四区| 欧美日韩在线三级| 欧美—级在线免费片| 亚洲成av人片在线观看| 国产不卡免费视频| 欧美在线观看你懂的| 久久久久国产精品厨房| 亚洲成人午夜电影| 成人av在线影院| 日韩一区二区三区四区五区六区| 国产精品人成在线观看免费| 亚洲成人动漫在线免费观看| 丁香五精品蜜臀久久久久99网站| 欧美日韩视频第一区| 中文子幕无线码一区tr| 日韩国产高清在线| 91亚洲精华国产精华精华液| 久久奇米777| 毛片基地黄久久久久久天堂| 91在线视频网址| 久久九九影视网| 捆绑调教美女网站视频一区| 欧美伊人久久久久久午夜久久久久| 久久久91精品国产一区二区精品| 午夜av一区二区三区| 色一区在线观看| 国产精品久久久久久久裸模| 韩国精品在线观看| 精品国产一区二区三区忘忧草| 亚洲一区中文在线| 国产在线视视频有精品| 日韩免费观看高清完整版| 亚洲成人精品一区| 欧美日韩亚洲另类| 午夜精品久久久久久久| 欧美日韩国产bt| 亚洲h在线观看| 欧美一区二区在线不卡| 人人狠狠综合久久亚洲| 日韩视频一区二区三区| 秋霞午夜鲁丝一区二区老狼| 精品精品国产高清a毛片牛牛| 日韩av电影一区| 日韩欧美电影在线| 韩国精品主播一区二区在线观看| 久久综合九色综合97婷婷女人 | 精品亚洲porn| 欧美日韩一区二区三区视频| 国产精品色呦呦| 一本大道av一区二区在线播放 | 91猫先生在线| 亚洲3atv精品一区二区三区| 69p69国产精品| 国产综合色精品一区二区三区| 久久综合久久综合久久综合| 懂色av一区二区三区蜜臀| 亚洲免费av高清| 欧美一区2区视频在线观看| 国产乱码精品一品二品| 亚洲美女免费视频| 日韩欧美精品在线| 国产电影一区在线| 亚洲成人综合视频| 亚洲欧美二区三区| 日韩你懂的在线播放| eeuss鲁一区二区三区| 亚洲成人777| 国产丝袜欧美中文另类| 欧美体内she精视频| 粉嫩在线一区二区三区视频| 亚洲制服欧美中文字幕中文字幕| 欧美第一区第二区| 欧美中文字幕一区二区三区亚洲| 精品一区二区av| 五月天丁香久久| 不卡一卡二卡三乱码免费网站| 一区二区三区四区乱视频| 久久亚洲免费视频| 欧美人动与zoxxxx乱| 成人小视频在线| 国产精品综合av一区二区国产馆| 午夜精品一区在线观看| 亚洲精品福利视频网站| 日本一区二区动态图| 日韩精品专区在线影院重磅| 欧美日韩中文字幕一区| 91亚洲精品一区二区乱码| 国产成人午夜视频| 国内精品自线一区二区三区视频| 天堂va蜜桃一区二区三区漫画版| 亚洲精品日韩综合观看成人91| 久久婷婷国产综合国色天香| 欧美成人精品高清在线播放 | 成人看片黄a免费看在线| 狠狠色伊人亚洲综合成人| 日韩va欧美va亚洲va久久| 成人动漫一区二区三区| 日韩欧美激情一区| 亚洲精品一区在线观看| 国产亚洲自拍一区| 中文字幕欧美激情| 国产精品盗摄一区二区三区| 91蝌蚪porny| 欧美日韩精品欧美日韩精品| 欧美成人a∨高清免费观看| 在线亚洲欧美专区二区| 国产精品国产三级国产有无不卡| 久久99久久精品欧美| 欧美丰满高潮xxxx喷水动漫| 国产精品福利一区二区| 成人91在线观看| 亚洲精品中文字幕乱码三区| 青青草伊人久久| 九九国产精品视频| 亚洲一二三四区| 亚洲一二三区在线观看| 亚洲国产一区视频| 欧美一级高清片| 国产日韩欧美高清在线| 17c精品麻豆一区二区免费| 午夜视频一区在线观看| 国产精品一区二区久久精品爱涩 |