什麼是IPEX-LLM
IPEX-LLM 是一個為Intel XPU (包括CPU和GPU) 打造的輕量級大語言模型加速庫,在Intel平臺上具有廣泛的模型支援、最低的延遲和最小的記憶體佔用。IPEX-LLM是採用 Apache 2.0 許可證發佈的開源專案。
能用IPEX-LLM做什麼
您可以使用IPEX-LLM運行任何 PyTorch 模型(例如 HuggingFace transformers 模型)。在運行過程中,IPEX-LLM利用了低比特 (low-bit) 優化技術、現代硬體加速技術,和一系列軟體優化技術來自動加速LLM。
使用IPEX-LLM非常簡單。只需更改一行代碼,您就可以立即觀察到顯著的加速效果1。
案例:使用一行來優化加速LLaMA模型optimize_model
# 按常規流程加載LLaMA模型
from ipex_llm import optimize_model
from transformers import LlamaForCausalLM, LlamaTokenizer
model = LlamaForCausalLM.from_pretrained(model_path,...)
# 應用IPEX-LLM 的低精度優化。默認使用 INT4
model = optimize_model(model)
# 後續模型推理部分的代碼無需修改
...
IPEX-LLM 提供多種低比特優化選擇(例如,INT3/NF3/INT4/NF4/INT5/INT8),並允許您使用多種Intel平臺運行LLM,包括入門筆記本(僅使用CPU)、裝載Intel Arc獨立顯卡的高端電腦,至強伺服器,或者數據中心GPU(如Flex、Max)。
以下演示展示了在一台16GB記憶體的筆記型電腦上僅使用CPU運行7B和13B模型的體驗。
在英特爾 12 代酷睿電腦上運行 6B 模型(即時螢幕畫面):
在英特爾 12 代酷睿電腦上運行 13B 模型(即時螢幕畫面):
接下來做什麼
本教程以下各章將詳細介紹如何使用IPEX-LLM構建LLM應用程式,例如 transformers API、langchain API、多語言支援等。每一章都將使用流行的開源模型提供可運行的Jupyter 筆記本。您可以繼續閱讀以瞭解更多資訊,同時也可以在您的筆記型電腦上運行提供的代碼。
此外,您還可以訪問我們的 GitHub repo 獲取更多資訊和最新消息。
我們已經在IPEX-LLM上驗證了很多的模型並且提供了可立即運行的示例,例如 Llama2, ChatGLM2, 百川, 書生, 通義千問, Falcon, MPT, Dolly-v2, StarCoder, Whisper 等。你可以在這裡找到模型的範例。