久久久精品2019中文字幕神马_欧美亚洲一区三区_欧美大人香蕉在线_精品88久久久久88久久久_中文字幕一区二区三区在线播放 _精品国产一区二区三区久久影院_欧洲av在线精品_粉嫩av一区二区三区_亚洲欧美一区二区三区极速播放_国产亚洲精品久久

首頁 > 娛樂

比Hugging Face快24倍,伯克利神級LLM推理系統開源,碾壓SOTA,讓GPU砍半_全球時快訊

來源:引領外匯網 時間:2023-06-24 01:31:15

小羊駝和排位賽的「幕后英雄」

編者按:本文來自微信公眾號 新智元(ID:AI_era),作者:桃子 好困 ,創業邦經授權發布。


【資料圖】

過去2個月,來自UC伯克利的研究人員給大語言模型們安排了一個擂臺——Chatbot Arena。

GPT-4等大語言模型玩家打起了「排位賽」,通過隨機battle,根據Elo得分來排名。

這一過程中,每當一個用戶訪問并使用網站,就需要同時讓兩個不同的模型跑起來。

他們是如何做到的?

這不,就在今天,UC伯克利重磅開源了世界最快LLM推理和服務系統vLLM。

簡之,vLLM是一個開源的LLM推理和服務引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力鍵和值。

配備全新算法的vLLM,重新定義了LLM服務的最新技術水平:

值得一提的是,「小羊駝」Vicuna在demo中用到的就是FastChat和vLLM的一個集成。

正如研究者所稱,vLLM最大的優勢在于——提供易用、快速、便宜的LLM服務。

這意味著,未來,即使對于像LMSYS這樣計算資源有限的小型研究團隊也能輕松部署自己的LLM服務。

項目地址:https://github.com/vllm-project/vllm

現在,所有人可以在GitHub倉庫中使用一個命令嘗試vLLM了。論文隨后也會發布。

性能全面碾壓SOTA

今天,這個由UC伯克利創立的開放研究組織LMSYS介紹道:

「一起來見證vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU數量減少了一半,同時每天平均提供3萬次請求。」

vLLM的性能具體如何?

UC伯克利團隊將vLLM的吞吐量與最受歡迎的LLM庫HuggingFace Transformers(HF),以及HuggingFace文本生成推理(TGI),先前的最新技術水平進行了比較。

團隊在兩個設置中進行評估:在NVIDIA A10G GPU上運行LLaMA-7B模型,在NVIDIA A100 GPU(40GB)上運行LLaMA-13B模型。

然后,研究人員從ShareGPT數據集中抽樣請求的輸入/輸出長度。

在實驗中,vLLM的吞吐量比HF高達24倍,并且比TGI高達3.5倍。

在每個請求只需要一個輸出完成時的服務吞吐量。vLLM比HF的吞吐量高出14倍-24倍,比TGI的吞吐量高出2.2倍-2.5倍

在每個請求需要3個并行輸出完成時的服務吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍,比TGI的吞吐量高出3.3倍-3.5倍

秘密武器:PagedAttention

在vLLM中,團隊發現LLM服務的性能受到內存的限制。

在自回歸解碼過程中,LLM的所有輸入token都會生成注意力鍵(key)和值(value)張量,并且這些張量被保留在GPU內存中以生成下一個token。

這些緩存的鍵和值張量通常被稱為KV緩存。KV緩存具有以下特點:

1. 內存占用大:在LLaMA-13B中,單個序列的KV緩存占用高達1.7GB的內存。

2. 動態化:其大小取決于序列長度,而序列長度高度易變,且不可預測。

因此,有效管理KV緩存是一個重大挑戰。對此,研究團隊發現現有系統由于碎片化和過度保留而浪費了60%至80%的內存。

用團隊的導師Joey Gonzalez的一句話來講:GPU內存碎片化=慢。

為了解決這個問題,團隊引入了PagedAttention,一種受到操作系統中虛擬內存和分頁經典概念啟發的注意力算法。

與傳統的注意力算法不同,PagedAttention允許在非連續的內存空間中存儲連續的鍵和值。

具體來說,PagedAttention將每個序列的KV緩存分為若干塊,每個塊包含固定數量token的鍵和值。在注意力計算過程中,PagedAttention內核能夠高效地識別和提取這些塊。

PagedAttention:KV緩存被分割成塊,這些塊在內存中不需要連續

由于這些塊在內存中不需要連續,因此也就可以像操作系統的虛擬內存一樣,以更靈活的方式管理鍵和值——將塊看作頁,token看作字節,序列看作進程。

序列的連續邏輯塊通過塊表映射到非連續的物理塊。隨著生成新的token,物理塊會按需進行分配。

使用PagedAttention的請求生成過程示例

PagedAttention將內存浪費控制在了序列的最后一個塊中。

在實踐中,這帶來了接近最優的內存使用——僅有不到4%的浪費。

而這種內存效率的提升,能讓系統將更多的序列進行批處理,提高GPU利用率,從而顯著提高吞吐量。

此外,PagedAttention還具有另一個關鍵優勢:高效的內存共享。

比如在并行采樣中,就能從相同的提示生成多個輸出序列。在這種情況下,提示的計算和內存可以在輸出序列之間共享。

并行采樣的示例

PagedAttention通過塊表自然地實現了內存共享。

類似于進程共享物理頁的方式,PagedAttention中的不同序列可以通過將它們的邏輯塊映射到相同的物理塊來共享塊。

為了確保安全,PagedAttention會跟蹤物理塊的引用計數,并實現了寫時復制機制。

采樣多個輸出的請求示例生成過程

PagedAttention的內存共享極大減少了復雜采樣算法(如并行采樣和束搜索)的內存開銷,將它們的內存使用量減少了高達55%。這可以將吞吐量提高多達2.2倍。

總結而言,PagedAttention是vLLM的核心技術,它是LLM推斷和服務的引擎,支持各種模型,具有高性能和易于使用的界面。

GitHub上,團隊也介紹了vLLM能夠無縫支持的HuggingFace模型,包括以下架構:

- GPT-2(gpt2、gpt2-xl等)

- GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)

- LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)

- OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)

小羊駝和排位賽的「幕后英雄」

4月初,UC伯克利學者聯手UCSD、CMU等,最先推出了一個開源全新模型——130億參數的Vicuna,俗稱「小羊駝」。

從那時起,Vicuna已在Chatbot Arena為數百萬用戶提供服務。

最初,LMSYS的FastChat采用基于HF Transformers的服務后端來提供聊天demo。

但隨著demo變得越來越受歡迎,峰值流量猛增了好幾倍,而HF后端也因此成了一個重大的瓶頸。

為了解決這一挑戰,LMSYS與vLLM團隊緊密合作,全力開發出了全新的FastChat-vLLM集成——通過將vLLM作為新的后端,來滿足不斷增長的需求(最多增加5倍的流量)。

根據LMSYS內部微基準測試的結果,vLLM服務后端可以實現比初始HF后端高出30倍的吞吐量。

4月-5月期間,Chatbot Arena的后端已經部落了FastChat-vLLM的集成。實際上,有超過一半的Chatbot Arena請求都使用FastChat-vLLM集成服務的

自4月中旬以來,最受歡迎的語言模型,如Vicuna、Koala和LLaMA,都已成功使用FastChat-vLLM集成提供服務。

FastChat作為多模型聊天服務前端,vLLM作為推理后端,LMSYS能夠利用有限數量的GPU(學校贊助的),以高吞吐量和低延遲為數百萬用戶提供Vicuna服務。

現在,LMSYS正在將vLLM的使用擴展到更多的模型,包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。

vLLM使用教程

使用以下命令安裝vLLM(另可查看安裝指南了解更多信息):

vLLM可用于離線推理和在線服務。要使用vLLM進行離線推理,你可以導入vLLM并在Python腳本中使用LLM類:

要使用vLLM進行在線服務,你可以通過以下方式啟動與OpenAI API兼容的服務器:

你可以使用與OpenAI API相同的格式查詢服務器:

有關使用vLLM的更多方法,請查看快速入門指南:

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

團隊介紹

Zhuohan Li

Zhuohan Li是加州大學伯克利分校計算機科學專業的博士生,研究興趣是機器學習和分布式系統的交叉領域。

在此之前,他在北京大學獲得了計算機科學學士學位,指導老師是王立威和賀笛。

Woosuk Kwon

Woosuk Kwon是加州大學伯克利分校的博士生,研究興趣是為大語言模型等新興應用建立實用、靈活和高性能的軟件系統。

團隊其他成員包括莊思遠、盛穎、鄭憐憫、Cody Yu。團隊導師包括Joey Gonzalez,Ion Stoica和張昊。

其中,團隊的大部分成員同時也是LMSYS成員。

參考資料

https://vllm.ai

相關稿件

比Hugging Face快24倍,伯克利神級LLM推理系統開源,碾壓SOTA,讓GPU砍半_全球時快訊

偏弱震蕩!豬價持續摸底,上漲拐點何時來?

環球觀速訊丨供需博弈!節前豬價小幅上漲,局部回溫明顯(第24周綜述)

龍虎榜丨中大力德今日跌3.69% 機構合計凈賣出1.79億元

龍虎榜丨藍黛科技今日漲停 機構合計凈買入1061.71萬元

世界球精選!廈門新一輪征遷曝光!涉及3大區域,將添5所學校!

北京:高溫時段停止戶外作業,減少戶外活動_資訊推薦

觀點:世界屋脊上,如何打造“零碳”數據中心

鋰電池板塊跌1.26% 博眾精工漲19.99%居首

觀熱點:廣州天河區新 “地王”花落保利

全球快資訊丨韓國7家車企因制造缺陷在韓召回超32萬輛汽車

熱頭條丨實拍:宿遷奧體萬人演唱會現場……

思瑞浦擬收購創芯微95.6587%股權 天天百事通

云南2023年衛生資格考試成績單打印入口已開通

劉憲華成史上最年輕《中國好聲音》導師_觀熱點

當前動態:繼丫丫回國后,旅韓大熊貓福寶也將啟動返程,回來后和原旅日歸來的香香住一起

我國累計招收博士后約34萬人(新數據 新看點)

環球消息!06月21日逸盛大化PTA為5670元

關于奮斗勵志的歌曲有哪些

全面建設小康社會是什么時候提出的問題(全面建設小康社會是什么時候提出的)

輕度宮頸糜爛怎么治療?_輕度宮頸糜爛怎么治療

融資輸血,蔚來汽車躬身入局價格戰

【播資訊】抖音怎么轉人工服務(95511怎么轉人工服務)

環球滾動:沙苑子和枸杞子泡水喝的功效與副作用(枸杞子泡水喝的功效與副作用)

突然宮寒的原因_宮寒的原因

天天快資訊:成都最大的水果批發市場在哪里

餓了么6月猜答案免單活動怎么參加 世界看點

嘉里建設87.83億元招標購入上海市黃浦區地塊,擬建綜合體

每日速看!輕于鴻毛的于是什么意思_輕于鴻毛的含義

新郎君_關于新郎君簡介


久久久精品2019中文字幕神马_欧美亚洲一区三区_欧美大人香蕉在线_精品88久久久久88久久久_中文字幕一区二区三区在线播放 _精品国产一区二区三区久久影院_欧洲av在线精品_粉嫩av一区二区三区_亚洲欧美一区二区三区极速播放_国产亚洲精品久久
日本中文字幕一区| 一级女性全黄久久生活片免费| av一区二区久久| 色菇凉天天综合网| 欧美日韩高清一区| 精品国产欧美一区二区| 国产精品久久久久aaaa樱花| 亚洲裸体xxx| 欧美日韩电影一区| 精品国产髙清在线看国产毛片| 7777精品伊人久久久大香线蕉超级流畅 | 日韩精品亚洲一区| 国内精品写真在线观看| 成人av先锋影音| 欧美一区二区三区婷婷月色| 国产精品国产自产拍在线| 日韩高清不卡一区| 成人免费看视频| 日韩精品在线一区| 亚洲欧美另类久久久精品2019| 久久精品国产在热久久| 91色porny蝌蚪| 久久精品夜夜夜夜久久| 亚洲第一成年网| www.久久久久久久久| 欧美大胆一级视频| 亚洲午夜精品网| 成人一级视频在线观看| 日韩精品在线看片z| 亚洲午夜久久久久中文字幕久| 国产一区二区视频在线播放| 7777精品伊人久久久大香线蕉经典版下载 | 国产精品素人一区二区| 国产一区二区调教| 国产成人一区在线| 久久狠狠亚洲综合| 欧美日韩卡一卡二| 一区二区三区不卡视频在线观看| 国产主播一区二区| 日韩免费在线观看| 婷婷久久综合九色国产成人| 欧美亚洲动漫制服丝袜| 亚洲精品乱码久久久久| 91亚洲精华国产精华精华液| 国产欧美一区二区精品性| 久久国产尿小便嘘嘘尿| 日韩视频一区二区三区在线播放 | 色婷婷综合久久久久中文一区二区 | 亚洲国产精品成人综合| 国产伦精品一区二区三区免费迷| 欧美一区二区在线观看| 日韩福利视频网| 欧美成人精品1314www| 麻豆精品一区二区| 国产三级精品视频| 色综合天天综合网天天狠天天| 成人av一区二区三区| 久久久久88色偷偷免费| 成人黄色网址在线观看| 中文字幕成人av| 91小视频在线| 亚洲成人综合网站| 日韩亚洲欧美高清| 韩国在线一区二区| 国产亚洲精品超碰| 国产精品高潮呻吟| 欧美久久久久免费| 中文字幕精品在线不卡| 亚洲夂夂婷婷色拍ww47| 久久久久久久久97黄色工厂| 成人欧美一区二区三区1314| 亚洲一线二线三线久久久| 国产毛片一区二区| 国产精品白丝av| 国产精品久久久久久久久快鸭| 91免费看视频| 视频一区免费在线观看| 久久奇米777| 欧美在线短视频| 韩国成人在线视频| 一区二区三区精品视频| 久久欧美一区二区| 欧洲一区在线电影| 国产乱码精品一区二区三| 亚洲一区二区三区四区在线免费观看 | 久久女同精品一区二区| 91首页免费视频| 日韩二区三区四区| 亚洲欧美国产高清| 精品国产乱码久久久久久图片| 国产精品无圣光一区二区| 7777精品久久久大香线蕉| av网站免费线看精品| 免费一区二区视频| 亚洲成精国产精品女| 国产精品色在线观看| 日韩精品一区二区三区蜜臀| 欧美日韩精品系列| 色婷婷av一区二区三区大白胸| 国产激情视频一区二区三区欧美| 男女激情视频一区| 亚洲成人在线免费| 亚洲欧美日韩国产综合在线| 国产精品麻豆一区二区| 国产欧美日韩不卡免费| 26uuu精品一区二区| 日韩视频不卡中文| 日韩一区二区高清| 日韩视频免费观看高清完整版| 久久不见久久见中文字幕免费| 国产精品夫妻自拍| 久久精品国产秦先生| 性久久久久久久| av不卡在线播放| 一级特黄大欧美久久久| 精品日韩一区二区三区| 欧美男人的天堂一二区| 成人教育av在线| 成人av动漫网站| 国产福利一区二区| 国产一区二区在线电影| 国内欧美视频一区二区 | 99视频精品在线| 成人av一区二区三区| 91麻豆免费看| 在线播放中文字幕一区| 精品国产乱子伦一区| 久久久久久亚洲综合| 国产精品乱码一区二区三区软件| 中文字幕五月欧美| 一区二区三区**美女毛片| 日韩成人一级片| 国产一二精品视频| 色视频成人在线观看免| 69堂国产成人免费视频| 久久午夜色播影院免费高清| 亚洲视频在线观看三级| 婷婷六月综合网| 高清在线成人网| 欧美卡1卡2卡| 国产精品日韩精品欧美在线| 亚洲综合激情另类小说区| 麻豆国产91在线播放| 99久久精品一区二区| 91麻豆精品国产91久久久久久 | 国产成人小视频| 在线观看亚洲一区| 久久品道一品道久久精品| 亚洲精品国产精华液| 久久99国产精品麻豆| 91在线一区二区| 亚洲精品在线电影| 亚洲精品大片www| 国产一区二区三区综合| 欧美色图在线观看| 中文字幕在线视频一区| 欧美午夜在线一二页| 一区二区在线免费| 日本欧美加勒比视频| 欧美久久婷婷综合色| 亚洲国产人成综合网站| 成人小视频在线观看| 人人狠狠综合久久亚洲| 欧美三级日韩三级| 日本中文字幕一区二区有限公司| 91高清视频在线| 欧美日韩三级在线| 成a人片亚洲日本久久| 日韩欧美国产一二三区| 亚洲国产美国国产综合一区二区| 国产精品一区二区免费不卡| 777久久久精品| 亚洲自拍偷拍av| 色88888久久久久久影院按摩| 中文字幕一区二区三区精华液| 国产一本一道久久香蕉| 精品盗摄一区二区三区| 久久99国产精品麻豆| 日韩小视频在线观看专区| 亚洲电影第三页| 欧美三区在线观看| 亚洲一本大道在线| 在线观看中文字幕不卡| 午夜精品视频一区| 日韩亚洲欧美在线| 国产自产v一区二区三区c| 久久蜜桃香蕉精品一区二区三区| 国产麻豆一精品一av一免费| 久久精品一区二区三区不卡| 成人高清av在线| 一区二区三区国产精品| 欧美美女黄视频| 久久成人18免费观看| 精品福利一二区| 成人黄色软件下载| 亚洲电影欧美电影有声小说| 日韩视频免费观看高清完整版| 国产91精品露脸国语对白| 中文字幕亚洲在| 91精品国产综合久久蜜臀|