久久久精品2019中文字幕神马_欧美亚洲一区三区_欧美大人香蕉在线_精品88久久久久88久久久_中文字幕一区二区三区在线播放 _精品国产一区二区三区久久影院_欧洲av在线精品_粉嫩av一区二区三区_亚洲欧美一区二区三区极速播放_国产亚洲精品久久

首頁 > 科技頻道

每日熱議!ChatGPT說謊竟然是故意的?哈佛大學提出ITI:模型真實性翻倍,計算開銷基本為零

來源:手機網易網 時間:2023-06-25 10:38:51

新智元報道


【資料圖】

編輯:LRS

【新智元導讀】GPT內部表征確實存在真實信息,哈佛學者提出ITI引導輸出走向事實方向。

大型語言模型,比如ChatGPT經常會在答案中輸出錯誤信息,可能會對用戶造成誤導,這種現象也被稱為模型幻覺(hallucination)。

從直覺上看,語言模型上在訓練中肯定是見過正確答案的,只不過在推理過程中丟失了事實信息。

最近,哈佛大學的研究人員提出了推理-時間干預(Inference-Time Intervention,ITI)技術,在推理階段對模型激活進行變換(shift),將模型輸出引導到事實的方向上,干預結果顯著提高了LLaMA模型在TruthfulQA基準測試中的性能,將Alpaca模型的真實性從32.5%提高到65.1%

論文鏈接:https://arxiv.org/pdf/2306.03341.pdf

代碼鏈接:https://github.com/likenneth/honest_llama

研究人員用此技術開發并開源了一個「誠實的LLaMA」模型。

ITI還可以通過控制超參數來調整干預強度,平衡模型的真實性和有用性;ITI沒有修改原始模型,也基本沒有計算開銷;并且ITI也不需要大量的標注數據,只需要幾百個樣本即可確定事實的真實性方向。

研究結果表明,語言模型內部表征中確實存在事實信息,不過有時在生成時選擇了錯誤事實。

ITI讓答案更真實

已經有相關工作在「理解LLMs的內部運作機制」方面取得了進展,其中一個重要的主題是,語言模型的激活空間似乎包含可解釋的方向,在推理過程中會發揮因果作用。

研究人員基于這個想法提出了一種增強語言模型事實性的方法,即推理-時間干預,其基本思想是確定激活空間中與事實正確的語句相關的方向,然后在推理過程中向該方向變換激活。

這篇論文主要探索了如何控制模型行為,并在實驗中使用開源的LLaMA、Alpaca和Vicuna模型,不過該思想適用于所有GPT風格的系統,但必須可以獲得模型的內部激活和計算。

ITI方法還需要一組有標注的問答對,用以確定與模型講真話有關的注意頭和方向。

基本設置

在數據集選擇上,研究人員選擇了TruthfulQA,可以衡量語言模型在生成答案時是否真實。

數據集中總共包含817個問題,橫跨38個類別(例如,邏輯錯誤、陰謀和常見的混淆點),每個問題平均有3.2個真實的答案,4.1個虛假的答案,以及一個由可信的在線來源支持的金標準答案;然后將TruthfulQA的答案重新編排,總共得到5918個問答對,每個數據樣本都有一個二元真實性標簽。

需要強調的是,該數據集并沒有涵蓋「真實」(truth)一詞的全部含義,想全部覆蓋也不大可能,研究人員主要關注如何避免「常見的人類誤解」,未來的研究方向會考慮擴展真實性的概念及評估。

在模型架構上,大型語言模型主要是Transformer層,每層內的主要機制為多頭注意力(MHA)和多層感知器(MLP)。

在推理過程中,每個token首先被嵌入到一個高維空間中,該向量作為殘差流的起點,最終每個token解碼為對下一個token分布的預測;在每一層中,MHA由多個獨立的線性運算組成,MLP則容納了模型中所有非線性運算。

探測真實性

想要提升神經網絡的真實性,首先需要判斷模型的激活空間內是否存在能真實性或事實性。

識別網絡內部表征的一個常用工具是探測(probe),即在網絡激活上訓練一個分類器作為探測器以區分特定類型的輸入或輸出。

在事實性檢測上,探測器主要檢查可以區分真、假答案的注意力頭輸出值。

于TruthfulQA中的每個樣本,研究人員將問題/答案串聯在一起,并在最后一個token處取出頭部激活作為探測數據集;然后將數據集按4 : 1隨機分成訓練集和驗證集,在訓練集上擬合一個二元線性分類器,并使用驗證精度來衡量每個頭與基準數據性能之間的關系。

實驗結果展現了跨注意力頭的專用模式,對于每層的多個頭,線性探測可以達到基線模型的準確性,不過還是顯示出強大性能的潛力,比如準確率最高的是由第14層的第18個頭實現的,驗證準確性為83.3%

此外,還可以看到各層之間的差異:信息主要是在前面的層中處理的,每層內部都有一小部分注意力頭脫穎而出。

通過類似主成分分析(PCA)的方法,可以將激活空間內的維度降低到2,并進行可視化,可以觀察到「真實」的概念不止存在于一個方向,而是存在于一個子空間內。

推理-時間干預

上述探測實驗描述LLM如何在其注意頭之間和內部處理與事實有關的信息,還提出了一種改善基準數據集性能的技術。

如果在推理過程中進行干預,使激活向「真實」的方向轉變,那么網絡就有可能對基準問題提供更真實的答案。

首先,研究人員并沒有選擇對所有注意力頭進行干預,因為只有一部分注意力頭與真實性密切相關,而是只對前K個頭的結果進行干預,以使其具有最小的侵略性。

第二個問題在于如何確定用于變換特定頭部輸出的激活的矢量,因為真、假語句的幾何形狀都很復雜,在選擇變換激活的方向時,可以選擇與探測學到的分離超平面正交的向量,他也可以選擇連接真假分布的平均值的向量,下表中列出了不同干預方向的比較實驗。

Probe weight方向是通過線性探針找到的方向,在這個方向上進行干預,相當于對頭部激活做梯度下降,使其被預測為真實的概率最大化。

Mass Mean Shift的工作原理是首先計算真實和虛假激活的平均值,然后使用從虛假平均值指向真實平均值的向量進行干預。

對比一致搜索(CCS)為在只知道內部激活成對信息的情況下找到的方向。

研究人員在TruthfulQA上訓練CCS,對每個問題抽取一個真實的和一個錯誤的答案,由于CCS不接受有標簽的輸入,所以發現的方向有同等的機會成為真實和虛假的方向,然后使用標簽來識別真實的方向以進行干預。

研究人員首先通過驗證集上的探測精度對所有注意力頭的真假相關度進行排序。把前K個頭作為目標集合;然后利用訓練集和驗證集的激活,估計沿真實方向的激活的標準偏差。

ITI是MHA的一種替代形式,對于未被選中的注意頭,θ是一個零向量,相當于將激活沿真實方向移動α倍的標準差。

整個過程對每次next token預測都是自回歸地重復的,并且與解碼算法的選擇是正交的。

公式中有兩個關鍵參數,即干預的注意力頭數量K和干預強度α,不過目前還沒有關于最佳值的理論論證,只能通過實驗探索參數的影響,并通過標準的超參數掃描確定最佳值。

從計算效率角度來看,無論干預了多少個注意力頭,ITI只會在每一層增加一個常數向量,可以認為干預措施的計算開銷接近于零。

實驗部分

用于對比的基線方法如下:

1. 有監督微調(SFT)

SFT是RLHF的第一階段,研究人員用問題作為提示,用交叉熵損失促使模型生成真實的答案,并懲罰錯誤的答案。

但如果只用上述操作,交叉熵損失和KL散度會急劇上升,所以還需要交替對問答進行有監督訓練和對開放網絡文本進行預訓練。

2. 少樣本提示(FSP)

有研究人員發現,與上下文蒸餾和RLHF相比,indistribution 50-shot提示在TruthfulQA上也是一個有競爭力的基線方法。

但由于提示策略的選擇與推理時間控制方法是正交的,研究人員對比了有ITI和無ITI的少樣本提示。

3. 指令微調(IFT)

為了了解ITI如何使IFT模型更加真實,研究人員主要選擇了兩個基于LaMA-7B的模型(Alpaca和Vicuna)執行ITI操作。

研究人員首先尋找控制干預強度的超參數最佳值,最后確定K=48和α=15

從結果來看,少樣本提示與ITI的結合取得了最佳結果。

將ITI應用于指令微調模型,尋找并干預其真實性方向的實驗中可以看到,ITI明顯比基線提高了真實性,還可以被應用在少樣本提示或指令微調之上,不過代價是CE損失和KL散度提升相對較低

參考資料:

https://the-decoder.com/honest-llama-new-method-could-make-chatgpt-more-truthful/

相關稿件

每日熱議!ChatGPT說謊竟然是故意的?哈佛大學提出ITI:模型真實性翻倍,計算開銷基本為零

我國北部和東部海域將有6-7級風 南部沿岸海域將有雷暴大風

立方風控鳥·早報(6月25日)

北京外國語大學

2023年黑龍江省高考錄取控制分數線劃定

1.06億人次,超2019年同期!端午出游很“熱”|世界快看

今日熱搜:今日有440億央行公開市場業務到期(06-25)

天天消息!奧林匹克日,一起為中國體育健兒加油!

財通證券:端午檔電影票房收入、人次回升,熱度遠超前兩年 今頭條

“啤酒泡枸杞,蹦迪穿護膝”,朱廣權說的這些,你中了幾條?

環球快看:濃情端午 愛心助殘

天天熱議:你關心的都在這!2023年高考志愿填報十問十答來了

印尼雅萬高鐵聯調聯試時速達到350公里

1.06億人次,超2019年同期!端午出游很“熱”

每日熱議!耕好生產“責任田” 筑牢糧食“安全線”

傳承紅色血脈,礪刃助力成才

2023年創業板安防上市公司一覽表(6/21)-全球視點

自若橙子FF:瀘定地震超30人遇難(救援人員默哀)

后日將公布網上發行中簽率的新股簡析(6月27日)

明天將有1只可轉債公布中簽結果(6月26日)-環球聚焦

河南博物院96年來首開夜游,1000個名額2分鐘搶光

武俠世界的青衫客(莫問別人青衫客:韓媒:中國不再是韓“出口后花園”)

天天視訊!男子每天1斤楊梅狂吃20天要做血透 化驗結果已超危急值

做強外貿磁力場 壯大發展朋友圈 天天速讀

今日熱訊:HIT2港服錯誤代碼全問題解決攻略,告別游戲中遇到的各種煩惱!

兒子被清華錄取,父親大擺慶功宴,賓客:通知書咋有錯別字? 全球消息

國內首條跨省軌交系統無感換乘線路開通-全球速看

6月25日,一起來看全球發生了哪些大事吧! 環球新動態

世界今熱點:慈利交通:優化營商環境,升級服務效能

今日快看!小觀看天丨晴熱模式開啟,氣溫直沖35℃(2023.6.25)


久久久精品2019中文字幕神马_欧美亚洲一区三区_欧美大人香蕉在线_精品88久久久久88久久久_中文字幕一区二区三区在线播放 _精品国产一区二区三区久久影院_欧洲av在线精品_粉嫩av一区二区三区_亚洲欧美一区二区三区极速播放_国产亚洲精品久久
激情久久久久久久久久久久久久久久| 亚洲三级免费电影| 亚洲国产sm捆绑调教视频 | 国产精品无人区| 欧美美女一区二区在线观看| 国产一区在线观看视频| 亚洲人成网站色在线观看| 欧美日韩午夜在线视频| 国产一区二区三区四区五区入口 | 欧美日韩国产精品成人| 久久精品国产免费| 首页国产欧美日韩丝袜| 2020国产成人综合网| 色哟哟国产精品| 国产高清无密码一区二区三区| 中文字幕一区二区三区四区| 精品国产乱码久久久久久1区2区 | 欧美综合久久久| 成人91在线观看| 亚洲高清视频中文字幕| 日韩一区二区视频在线观看| 成人视屏免费看| www.亚洲色图| 99久久精品免费看国产免费软件| 精品一二线国产| 国产精品一线二线三线| 日韩av一级片| 国产一区二区美女诱惑| 国产一区不卡在线| 国产在线观看一区二区| 国精产品一区一区三区mba视频 | 亚洲精品菠萝久久久久久久| 国产精品美女一区二区三区| 亚洲一区二区三区四区五区中文| 国产精品久久一卡二卡| 中文字幕一区二区在线观看| 亚洲天堂网中文字| 亚洲影视在线播放| 激情久久五月天| 91一区在线观看| 日韩欧美国产1| 中文字幕一区二区三| 五月天亚洲精品| 国产精品123| 91精品国产色综合久久ai换脸| 国产目拍亚洲精品99久久精品| 日韩av高清在线观看| www.欧美.com| 久久男人中文字幕资源站| 亚洲主播在线观看| www.综合网.com| 色综合av在线| 中文字幕制服丝袜成人av| 国内精品久久久久影院色| 欧美精品自拍偷拍| 一区二区久久久久久| 成人黄动漫网站免费app| 欧美一区二区三区免费大片| 亚洲欧美在线视频| 成人性生交大片免费看中文网站| 欧美日韩高清一区二区三区| 亚洲黄色免费电影| 一本色道a无线码一区v| √…a在线天堂一区| 国产成人精品午夜视频免费| 久久久久久久久97黄色工厂| 美国十次综合导航| 欧美大白屁股肥臀xxxxxx| 日本视频中文字幕一区二区三区| 欧美在线播放高清精品| 香蕉av福利精品导航| 欧美不卡123| 成人免费视频视频在线观看免费| 久久色成人在线| 国产成a人亚洲| 中文字幕成人av| 欧美网站一区二区| 麻豆精品视频在线观看免费| 精品国产凹凸成av人网站| 大胆欧美人体老妇| 国产精品久99| 7777精品伊人久久久大香线蕉完整版| 亚洲成人动漫av| 精品精品欲导航| 成人精品高清在线| 国产成人午夜99999| 久久一二三国产| 成人深夜在线观看| 亚洲成人777| 国产精品国产馆在线真实露脸| 蜜乳av一区二区| 亚洲日本在线天堂| 欧美xxxx老人做受| 欧美在线观看视频一区二区三区| 中文字幕亚洲视频| 欧美绝品在线观看成人午夜影视| 国产一区二区久久| 日韩电影在线一区二区| 亚洲精品成人悠悠色影视| 欧美精彩视频一区二区三区| 国产大陆精品国产| 日韩在线观看一区二区| 亚洲免费观看高清完整版在线观看 | 成人av电影在线观看| 日韩激情视频在线观看| 亚洲欧美日韩在线| 欧美日韩精品一区二区天天拍小说| 国内久久精品视频| 美女一区二区在线观看| 中文字幕中文乱码欧美一区二区| 4438x亚洲最大成人网| 色综合久久久久网| 99re在线视频这里只有精品| 国产xxx精品视频大全| 六月婷婷色综合| 图片区日韩欧美亚洲| 国产欧美综合在线| 欧美精彩视频一区二区三区| 国产精品三级视频| 国产拍欧美日韩视频二区 | 精品一区二区精品| 韩国欧美一区二区| 成人免费黄色大片| 99久免费精品视频在线观看| 99精品欧美一区二区三区小说| 福利一区在线观看| 91在线观看免费视频| 在线视频国内一区二区| 国产成人久久精品77777最新版本 国产成人鲁色资源国产91色综 | 国产iv一区二区三区| 91无套直看片红桃| 国产精品99精品久久免费| 一本一道综合狠狠老| 欧美精选一区二区| 欧美日本一区二区在线观看| 日韩丝袜情趣美女图片| 亚洲国产精品精华液2区45| 国产精品久久久久永久免费观看| 精品sm捆绑视频| 亚洲天堂精品视频| 日韩成人精品在线观看| 夫妻av一区二区| 97se亚洲国产综合自在线不卡| 欧美一区二区三区在线观看| 中文字幕精品一区| 美女网站视频久久| 欧美日本韩国一区| 国产精品久久久久7777按摩| 久久国产乱子精品免费女| 91片黄在线观看| 中日韩av电影| 裸体歌舞表演一区二区| 色综合天天天天做夜夜夜夜做| 精品国内片67194| 日本午夜一本久久久综合| 欧美中文字幕久久| 亚洲国产精品久久一线不卡| 日本韩国精品在线| 欧美激情一区在线| 成人综合婷婷国产精品久久| 欧美日韩在线观看一区二区| 一区二区三区免费看视频| 在线亚洲精品福利网址导航| 日韩一区二区三区精品视频| 石原莉奈一区二区三区在线观看| 色综合久久中文综合久久牛| 一区二区三区四区中文字幕| 91丨porny丨蝌蚪视频| 一区二区三区 在线观看视频| 91官网在线免费观看| 午夜婷婷国产麻豆精品| 欧美亚洲动漫制服丝袜| 午夜精品一区二区三区免费视频 | 国产盗摄一区二区三区| 国产色婷婷亚洲99精品小说| 成人黄色电影在线| 久久夜色精品国产噜噜av| 国产精品自在在线| 一区二区国产盗摄色噜噜| 91福利国产成人精品照片| 午夜不卡av在线| 国产女同互慰高潮91漫画| 欧美性淫爽ww久久久久无| 麻豆极品一区二区三区| 日韩一区二区三区免费观看| 国产成人午夜高潮毛片| 最新中文字幕一区二区三区| 91精品黄色片免费大全| 国产99久久久国产精品潘金| 日本中文字幕一区二区有限公司| 91精品国产麻豆国产自产在线| 国产成人精品免费网站| 午夜一区二区三区在线观看| 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久久av爽李琼 国产精品美女久久久久高潮 | 欧美一区二区播放| 91网站黄www| 国产91露脸合集magnet| 亚洲人成亚洲人成在线观看图片| 欧美吻胸吃奶大尺度电影| 99久久精品情趣|