您可以使用IPEX-LLM載入任何 Hugging Face transformer模型,並在筆記型電腦上對其進行加速。有了IPEX-LLM,託管在 Hugging Face 上的 PyTorch 模型(FP16/BF16/FP32 格式)可以通過低位量化(支援的精度包括 INT4/INT5/INT8)自動載入和優化。
本章將深入探討IPEX-LLM的 -style API,該 API 用於載入和優化 Hugging Face transformers 模型。您將瞭解 API 的用法和常見做法,並學習如何使用這些 API 創建真實世界中的應用程式。transformers
本章包含兩個 Notebook。
在 5.1 聊天機器人 中,您將首先學習如何在不同場景中使用 -style API(例如保存/載入、精度選擇等),然後繼續構建一個具有流式顯示和多輪聊天功能的聊天機器人應用程式。transformers
在 5.2 語音辨識 中,您將學習如何使用 IPEX-LLM 載入基於 Transformer 的語音辨識模型 Whisper,然後使用它轉錄和翻譯音訊檔。