从本地直接加载已有的大语言模型文件,用命令方式或python编程方式从本地直接加载模型文件,适合于模型文件已下载到本地的情况,或者模型文件已随软件一起打包的情况、docker容器化部署的情况,也适用Chinese-Llama-2-7b,可避免部署运行时每次重新联网下载huggingface上的模型的麻烦。
介绍两种方法实现:
-
命令方式从本地文件直接加载llama/llama 2/中文llama 的大语言模型:
参考 链接- 在本地编译得到 llama.cpp 的可执行文件(main)后,通过main 加载本地模型文件。
linux下的编译 + 加载模型的命令为:git clone https://github.com/ggerganov/llama.cpp; cd llama.cpp && make -j && ./main -m ./models/7B/ggml-model-q4_0.bin -p "Building a website can be done in 10 simple steps:" -n 512
- 在本地编译得到 llama.cpp 的可执行文件(main)后,通过main 加载本地模型文件。
-
编程方式从本地文件直接加载llama/llama 2/中文llama 的大语言模型:
- 安装准备工作:
pip install llama-cpp-python
对 mac系统的支持、以及让llama.cpp支持使用 OpenBLAS / cuBLAS / CLBlast / Metal 作为后端的设置方法,可参考 链接
- 编程实现
from llama_cpp import Llama llm = Llama(model_path="./models/7B/ggml-model.bin") output = llm("Q: Name the planets in the solar system? A: ", max_tokens=32, stop=["Q:", "\n"], echo=True) print(output)
输出结果:
"id": "cmpl-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx", "object": "text_completion", "created": 1679561337, "model": "./models/7B/ggml-model.bin", "choices": [ { "text": "Q: Name the planets in the solar system?
- 安装准备工作: