第一章概覽 | Notion

什麼是IPEX-LLM

IPEX-LLM 是一個為Intel XPU （包括CPU和GPU）打造的輕量級大語言模型加速庫，在Intel平臺上具有廣泛的模型支援、最低的延遲和最小的記憶體佔用。IPEX-LLM是採用 Apache 2.0 許可證發佈的開源專案。

能用IPEX-LLM做什麼

您可以使用IPEX-LLM運行任何 PyTorch 模型（例如 HuggingFace transformers 模型）。在運行過程中，IPEX-LLM利用了低比特 (low-bit) 優化技術、現代硬體加速技術，和一系列軟體優化技術來自動加速LLM。

低比特

使用IPEX-LLM非常簡單。只需更改一行代碼，您就可以立即觀察到顯著的加速效果1。

案例：使用一行來優化加速LLaMA模型optimize_model

# 按常規流程加載LLaMA模型
from ipex_llm import optimize_model

from transformers import LlamaForCausalLM, LlamaTokenizer
model = LlamaForCausalLM.from_pretrained(model_path,...)

# 應用IPEX-LLM 的低精度優化。默認使用 INT4
model = optimize_model(model)

# 後續模型推理部分的代碼無需修改
...

IPEX-LLM 提供多種低比特優化選擇（例如，INT3/NF3/INT4/NF4/INT5/INT8），並允許您使用多種Intel平臺運行LLM，包括入門筆記本（僅使用CPU）、裝載Intel Arc獨立顯卡的高端電腦，至強伺服器，或者數據中心GPU（如Flex、Max）。

以下演示展示了在一台16GB記憶體的筆記型電腦上僅使用CPU運行7B和13B模型的體驗。

在英特爾 12 代酷睿電腦上運行 6B 模型（即時螢幕畫面）：

在英特爾 12 代酷睿電腦上運行 13B 模型（即時螢幕畫面）：

接下來做什麼

本教程以下各章將詳細介紹如何使用IPEX-LLM構建LLM應用程式，例如 transformers API、langchain API、多語言支援等。每一章都將使用流行的開源模型提供可運行的Jupyter 筆記本。您可以繼續閱讀以瞭解更多資訊，同時也可以在您的筆記型電腦上運行提供的代碼。

此外，您還可以訪問我們的 GitHub repo 獲取更多資訊和最新消息。

我們已經在IPEX-LLM上驗證了很多的模型並且提供了可立即運行的示例，例如 Llama2， ChatGLM2，百川，書生，通義千問， Falcon， MPT， Dolly-v2， StarCoder， Whisper 等。你可以在這裡找到模型的範例。