久久久精品2019中文字幕神马_欧美亚洲一区三区_欧美大人香蕉在线_精品88久久久久88久久久_中文字幕一区二区三区在线播放 _精品国产一区二区三区久久影院_欧洲av在线精品_粉嫩av一区二区三区_亚洲欧美一区二区三区极速播放_国产亚洲精品久久

首頁 > 科技頻道

每日熱議!ChatGPT說謊竟然是故意的?哈佛大學提出ITI:模型真實性翻倍,計算開銷基本為零

來源:手機網易網 時間:2023-06-25 10:38:51

新智元報道


【資料圖】

編輯:LRS

【新智元導讀】GPT內部表征確實存在真實信息,哈佛學者提出ITI引導輸出走向事實方向。

大型語言模型,比如ChatGPT經常會在答案中輸出錯誤信息,可能會對用戶造成誤導,這種現象也被稱為模型幻覺(hallucination)。

從直覺上看,語言模型上在訓練中肯定是見過正確答案的,只不過在推理過程中丟失了事實信息。

最近,哈佛大學的研究人員提出了推理-時間干預(Inference-Time Intervention,ITI)技術,在推理階段對模型激活進行變換(shift),將模型輸出引導到事實的方向上,干預結果顯著提高了LLaMA模型在TruthfulQA基準測試中的性能,將Alpaca模型的真實性從32.5%提高到65.1%

論文鏈接:https://arxiv.org/pdf/2306.03341.pdf

代碼鏈接:https://github.com/likenneth/honest_llama

研究人員用此技術開發并開源了一個「誠實的LLaMA」模型。

ITI還可以通過控制超參數來調整干預強度,平衡模型的真實性和有用性;ITI沒有修改原始模型,也基本沒有計算開銷;并且ITI也不需要大量的標注數據,只需要幾百個樣本即可確定事實的真實性方向。

研究結果表明,語言模型內部表征中確實存在事實信息,不過有時在生成時選擇了錯誤事實。

ITI讓答案更真實

已經有相關工作在「理解LLMs的內部運作機制」方面取得了進展,其中一個重要的主題是,語言模型的激活空間似乎包含可解釋的方向,在推理過程中會發揮因果作用。

研究人員基于這個想法提出了一種增強語言模型事實性的方法,即推理-時間干預,其基本思想是確定激活空間中與事實正確的語句相關的方向,然后在推理過程中向該方向變換激活。

這篇論文主要探索了如何控制模型行為,并在實驗中使用開源的LLaMA、Alpaca和Vicuna模型,不過該思想適用于所有GPT風格的系統,但必須可以獲得模型的內部激活和計算。

ITI方法還需要一組有標注的問答對,用以確定與模型講真話有關的注意頭和方向。

基本設置

在數據集選擇上,研究人員選擇了TruthfulQA,可以衡量語言模型在生成答案時是否真實。

數據集中總共包含817個問題,橫跨38個類別(例如,邏輯錯誤、陰謀和常見的混淆點),每個問題平均有3.2個真實的答案,4.1個虛假的答案,以及一個由可信的在線來源支持的金標準答案;然后將TruthfulQA的答案重新編排,總共得到5918個問答對,每個數據樣本都有一個二元真實性標簽。

需要強調的是,該數據集并沒有涵蓋「真實」(truth)一詞的全部含義,想全部覆蓋也不大可能,研究人員主要關注如何避免「常見的人類誤解」,未來的研究方向會考慮擴展真實性的概念及評估。

在模型架構上,大型語言模型主要是Transformer層,每層內的主要機制為多頭注意力(MHA)和多層感知器(MLP)。

在推理過程中,每個token首先被嵌入到一個高維空間中,該向量作為殘差流的起點,最終每個token解碼為對下一個token分布的預測;在每一層中,MHA由多個獨立的線性運算組成,MLP則容納了模型中所有非線性運算。

探測真實性

想要提升神經網絡的真實性,首先需要判斷模型的激活空間內是否存在能真實性或事實性。

識別網絡內部表征的一個常用工具是探測(probe),即在網絡激活上訓練一個分類器作為探測器以區分特定類型的輸入或輸出。

在事實性檢測上,探測器主要檢查可以區分真、假答案的注意力頭輸出值。

于TruthfulQA中的每個樣本,研究人員將問題/答案串聯在一起,并在最后一個token處取出頭部激活作為探測數據集;然后將數據集按4 : 1隨機分成訓練集和驗證集,在訓練集上擬合一個二元線性分類器,并使用驗證精度來衡量每個頭與基準數據性能之間的關系。

實驗結果展現了跨注意力頭的專用模式,對于每層的多個頭,線性探測可以達到基線模型的準確性,不過還是顯示出強大性能的潛力,比如準確率最高的是由第14層的第18個頭實現的,驗證準確性為83.3%

此外,還可以看到各層之間的差異:信息主要是在前面的層中處理的,每層內部都有一小部分注意力頭脫穎而出。

通過類似主成分分析(PCA)的方法,可以將激活空間內的維度降低到2,并進行可視化,可以觀察到「真實」的概念不止存在于一個方向,而是存在于一個子空間內。

推理-時間干預

上述探測實驗描述LLM如何在其注意頭之間和內部處理與事實有關的信息,還提出了一種改善基準數據集性能的技術。

如果在推理過程中進行干預,使激活向「真實」的方向轉變,那么網絡就有可能對基準問題提供更真實的答案。

首先,研究人員并沒有選擇對所有注意力頭進行干預,因為只有一部分注意力頭與真實性密切相關,而是只對前K個頭的結果進行干預,以使其具有最小的侵略性。

第二個問題在于如何確定用于變換特定頭部輸出的激活的矢量,因為真、假語句的幾何形狀都很復雜,在選擇變換激活的方向時,可以選擇與探測學到的分離超平面正交的向量,他也可以選擇連接真假分布的平均值的向量,下表中列出了不同干預方向的比較實驗。

Probe weight方向是通過線性探針找到的方向,在這個方向上進行干預,相當于對頭部激活做梯度下降,使其被預測為真實的概率最大化。

Mass Mean Shift的工作原理是首先計算真實和虛假激活的平均值,然后使用從虛假平均值指向真實平均值的向量進行干預。

對比一致搜索(CCS)為在只知道內部激活成對信息的情況下找到的方向。

研究人員在TruthfulQA上訓練CCS,對每個問題抽取一個真實的和一個錯誤的答案,由于CCS不接受有標簽的輸入,所以發現的方向有同等的機會成為真實和虛假的方向,然后使用標簽來識別真實的方向以進行干預。

研究人員首先通過驗證集上的探測精度對所有注意力頭的真假相關度進行排序。把前K個頭作為目標集合;然后利用訓練集和驗證集的激活,估計沿真實方向的激活的標準偏差。

ITI是MHA的一種替代形式,對于未被選中的注意頭,θ是一個零向量,相當于將激活沿真實方向移動α倍的標準差。

整個過程對每次next token預測都是自回歸地重復的,并且與解碼算法的選擇是正交的。

公式中有兩個關鍵參數,即干預的注意力頭數量K和干預強度α,不過目前還沒有關于最佳值的理論論證,只能通過實驗探索參數的影響,并通過標準的超參數掃描確定最佳值。

從計算效率角度來看,無論干預了多少個注意力頭,ITI只會在每一層增加一個常數向量,可以認為干預措施的計算開銷接近于零。

實驗部分

用于對比的基線方法如下:

1. 有監督微調(SFT)

SFT是RLHF的第一階段,研究人員用問題作為提示,用交叉熵損失促使模型生成真實的答案,并懲罰錯誤的答案。

但如果只用上述操作,交叉熵損失和KL散度會急劇上升,所以還需要交替對問答進行有監督訓練和對開放網絡文本進行預訓練。

2. 少樣本提示(FSP)

有研究人員發現,與上下文蒸餾和RLHF相比,indistribution 50-shot提示在TruthfulQA上也是一個有競爭力的基線方法。

但由于提示策略的選擇與推理時間控制方法是正交的,研究人員對比了有ITI和無ITI的少樣本提示。

3. 指令微調(IFT)

為了了解ITI如何使IFT模型更加真實,研究人員主要選擇了兩個基于LaMA-7B的模型(Alpaca和Vicuna)執行ITI操作。

研究人員首先尋找控制干預強度的超參數最佳值,最后確定K=48和α=15

從結果來看,少樣本提示與ITI的結合取得了最佳結果。

將ITI應用于指令微調模型,尋找并干預其真實性方向的實驗中可以看到,ITI明顯比基線提高了真實性,還可以被應用在少樣本提示或指令微調之上,不過代價是CE損失和KL散度提升相對較低

參考資料:

https://the-decoder.com/honest-llama-new-method-could-make-chatgpt-more-truthful/

相關稿件

每日熱議!ChatGPT說謊竟然是故意的?哈佛大學提出ITI:模型真實性翻倍,計算開銷基本為零

我國北部和東部海域將有6-7級風 南部沿岸海域將有雷暴大風

立方風控鳥·早報(6月25日)

北京外國語大學

2023年黑龍江省高考錄取控制分數線劃定

1.06億人次,超2019年同期!端午出游很“熱”|世界快看

今日熱搜:今日有440億央行公開市場業務到期(06-25)

天天消息!奧林匹克日,一起為中國體育健兒加油!

財通證券:端午檔電影票房收入、人次回升,熱度遠超前兩年 今頭條

“啤酒泡枸杞,蹦迪穿護膝”,朱廣權說的這些,你中了幾條?

環球快看:濃情端午 愛心助殘

天天熱議:你關心的都在這!2023年高考志愿填報十問十答來了

印尼雅萬高鐵聯調聯試時速達到350公里

1.06億人次,超2019年同期!端午出游很“熱”

每日熱議!耕好生產“責任田” 筑牢糧食“安全線”

傳承紅色血脈,礪刃助力成才

2023年創業板安防上市公司一覽表(6/21)-全球視點

自若橙子FF:瀘定地震超30人遇難(救援人員默哀)

后日將公布網上發行中簽率的新股簡析(6月27日)

明天將有1只可轉債公布中簽結果(6月26日)-環球聚焦

河南博物院96年來首開夜游,1000個名額2分鐘搶光

武俠世界的青衫客(莫問別人青衫客:韓媒:中國不再是韓“出口后花園”)

天天視訊!男子每天1斤楊梅狂吃20天要做血透 化驗結果已超危急值

做強外貿磁力場 壯大發展朋友圈 天天速讀

今日熱訊:HIT2港服錯誤代碼全問題解決攻略,告別游戲中遇到的各種煩惱!

兒子被清華錄取,父親大擺慶功宴,賓客:通知書咋有錯別字? 全球消息

國內首條跨省軌交系統無感換乘線路開通-全球速看

6月25日,一起來看全球發生了哪些大事吧! 環球新動態

世界今熱點:慈利交通:優化營商環境,升級服務效能

今日快看!小觀看天丨晴熱模式開啟,氣溫直沖35℃(2023.6.25)


久久久精品2019中文字幕神马_欧美亚洲一区三区_欧美大人香蕉在线_精品88久久久久88久久久_中文字幕一区二区三区在线播放 _精品国产一区二区三区久久影院_欧洲av在线精品_粉嫩av一区二区三区_亚洲欧美一区二区三区极速播放_国产亚洲精品久久
久久久久久久久97黄色工厂| 亚洲综合成人在线视频| 国产大陆a不卡| 奇米一区二区三区| 亚洲第一二三四区| 亚洲午夜电影在线| 亚洲福中文字幕伊人影院| 亚洲午夜久久久| 一区二区三区精密机械公司| 亚洲色图另类专区| 亚洲精品中文字幕在线观看| 亚洲另类在线制服丝袜| 亚洲激情五月婷婷| 一区二区三区精品视频| 亚洲国产一区二区视频| 午夜一区二区三区在线观看| 亚洲国产精品久久一线不卡| 天堂av在线一区| 日韩在线一区二区| 美女视频黄久久| 国产成人免费视频网站高清观看视频| 日本vs亚洲vs韩国一区三区二区| 亚洲二区视频在线| av一区二区不卡| 日本网站在线观看一区二区三区 | 欧美日韩综合色| 91在线视频免费91| av动漫一区二区| 久久久99精品免费观看| 久久久久久毛片| 亚洲人成网站影音先锋播放| 亚洲另类春色校园小说| 丝袜诱惑制服诱惑色一区在线观看 | 天天亚洲美女在线视频| 日韩精品一区国产麻豆| 国产日韩欧美a| 亚洲一区二区三区三| 麻豆国产欧美一区二区三区| 成人动漫一区二区| 这里只有精品电影| 成人欧美一区二区三区白人| 亚洲va国产天堂va久久en| 国产一区二区三区国产| 在线观看日韩国产| 国产亚洲精品久| 午夜精品福利一区二区蜜股av| 精品一区二区在线视频| 在线视频你懂得一区| 久久久精品国产免费观看同学| 一区二区成人在线观看| 国产精品乡下勾搭老头1| 欧美日韩1区2区| 国产精品夫妻自拍| 狠狠v欧美v日韩v亚洲ⅴ| 欧美午夜一区二区| 亚洲va欧美va人人爽午夜| 色婷婷久久久综合中文字幕| 91碰在线视频| 亚洲欧洲日本在线| 成人国产精品免费网站| 91 com成人网| 人人狠狠综合久久亚洲| 日韩午夜激情视频| 成人免费视频视频在线观看免费 | 91视频在线观看| 久久久噜噜噜久噜久久综合| 日韩在线一区二区| 欧洲在线/亚洲| 1000部国产精品成人观看| 国产精品一区二区男女羞羞无遮挡| 欧美亚洲另类激情小说| 亚洲免费在线视频| 99re在线视频这里只有精品| 国产精品进线69影院| 成人三级伦理片| 中文字幕亚洲一区二区va在线| 成人精品国产福利| 不卡的电视剧免费网站有什么| 视频一区视频二区中文| 欧洲亚洲精品在线| 亚洲一区在线观看视频| 色婷婷精品久久二区二区蜜臂av| 亚洲视频图片小说| 在线观看成人免费视频| 亚洲成人免费av| 91精品国产乱| 激情综合五月天| 日本一区二区三区在线观看| 成人性生交大片免费看在线播放| 国产精品成人免费在线| 91蝌蚪porny九色| 亚洲精品国产成人久久av盗摄| 日本福利一区二区| 午夜精品久久久久久| 日韩三级电影网址| 国产精品1024| 自拍偷拍亚洲综合| 欧美亚洲动漫精品| 老司机免费视频一区二区三区| 亚洲一区在线观看视频| 亚洲欧美日韩久久精品| 日本aⅴ免费视频一区二区三区| 精品国产三级电影在线观看| 中文字幕亚洲综合久久菠萝蜜| 日韩免费视频一区二区| 欧美日韩不卡一区二区| 欧美日韩精品一区二区天天拍小说 | 久久久精品一品道一区| 国产毛片精品视频| 亚洲免费观看高清完整版在线观看| 91精品办公室少妇高潮对白| 日韩国产一二三区| 国产欧美日韩不卡| 欧美人狂配大交3d怪物一区| 国产伦精品一区二区三区在线观看| 《视频一区视频二区| 在线综合视频播放| 春色校园综合激情亚洲| 亚洲午夜免费电影| 欧美极品少妇xxxxⅹ高跟鞋| 欧美军同video69gay| 欧美性生活影院| 亚洲人吸女人奶水| 婷婷成人综合网| 国产午夜三级一区二区三| 日本高清免费不卡视频| 国产精品99久久久久久有的能看| 亚洲综合在线免费观看| 久久久精品国产99久久精品芒果 | 欧美性生活大片视频| 国产精品自拍三区| 午夜欧美大尺度福利影院在线看| 久久欧美中文字幕| 日韩无一区二区| 欧美色爱综合网| 99精品黄色片免费大全| 黄色日韩三级电影| 石原莉奈在线亚洲二区| 久久综合999| 99久免费精品视频在线观看| 国产成人精品亚洲日本在线桃色| 在线观看日韩毛片| 1024国产精品| 成人免费福利片| 国产精品网站导航| 91在线国产福利| 日韩伦理电影网| 日韩欧美国产三级| 不卡电影免费在线播放一区| 蜜臀久久99精品久久久久久9| 亚洲免费高清视频在线| 一区在线观看免费| 亚洲私人影院在线观看| 中文字幕成人网| 亚洲国产精品成人综合| 亚洲国产精品ⅴa在线观看| 26uuu色噜噜精品一区二区| 欧美一级欧美三级在线观看| 成人激情免费网站| 日韩一区二区三区免费看| 成人av小说网| 成人激情免费电影网址| 懂色av一区二区三区免费看| 国产一区二区三区最好精华液| 欧美96一区二区免费视频| 日韩国产欧美视频| 青青草伊人久久| 另类小说综合欧美亚洲| 蜜乳av一区二区| 精品一区二区综合| 国产69精品久久777的优势| 成人午夜激情在线| caoporn国产精品| 色伊人久久综合中文字幕| 欧美三级午夜理伦三级中视频| 欧美亚日韩国产aⅴ精品中极品| 欧美日免费三级在线| 欧美日本一区二区三区四区| 欧美精品久久99久久在免费线| 日韩一区二区影院| 久久久亚洲精品石原莉奈| 亚洲欧洲性图库| 午夜精品免费在线| 狠狠狠色丁香婷婷综合激情| 懂色av一区二区三区免费观看| 91久久线看在观草草青青| 欧美一区二区视频在线观看2022| 欧美丰满嫩嫩电影| 26uuu精品一区二区在线观看| 欧美韩国日本综合| 亚洲欧美一区二区不卡| 国产亚洲一本大道中文在线| 亚洲婷婷在线视频| 91精品国产手机| 欧美r级在线观看| 精品国产免费人成电影在线观看四季| 欧美专区日韩专区| 91久久精品网| 欧美三级一区二区| jlzzjlzz亚洲日本少妇|