发现AI实在是太火了,看到这个llama有泄露的版本。
想玩一下
在阿里云上租了一个普通服务器玩起来了。实测8C32G的大概200G硬盘的主机就能跑(实际我觉得应该可以更小)
实测开通Ubuntu 22版本非常方便。
CentOS 7.9bug很多,不再建议用了
部署步骤如下:
下载模型。我下载了7B模型脚本curl -O https://raw.githubusercontent.com/shawwn/llama-dl/56f50b96072f42fb2520b1ad5a1d6ef30351f23c/llama.sh
脚本中修改如下的行MODEL_SIZE="7B,13B,30B,65B"
为:MODEL_SIZE="7B"
执行下载文件bash llama.sh
编译和运行llama.cpp部署步骤如下:
# build this repogit clone https://github.com/ggerganov/llama.cppcd llama.cppmake# obtain the original LLaMA model weights and place them in ./modelsls ./models65B 30B 13B 7B tokenizer_checklist.chk tokenizer.model# install Python dependenciespython3 -m pip install torch numpy sentencepiece# convert the 7B model to ggml FP16 formatpython3 convert-pth-to-ggml.py models/7B/ 1# quantize the model to 4-bits./quantize.sh 7B# run the inference./main -m ./models/7B/ggml-model-q4_0.bin -t 8 -n 128
然后就可以跑起来了
暂时还不支持中文(我考虑后续买个阿里云的机器翻译,中英文翻译一下玩)。感觉llama还是很不靠谱
相关文章
猜你喜欢