Meta-Llama-3-8B-Instruct FastApi 部署调用
构建环境
CUDA 版本
经过测试,Llama-3 只有在 CUDA 新版下才可以运行,CUDA Version: 12.4 验证通过。
代理
在公司内网环境,往往需要代理才能下载模型文件。我这里使用 session 模式下全局。~/.bash.rc
1 | export HTTP_PROXY="http://*.*.*.*:*" |
安装依赖
1 | pip install fastapi==0.110.2 |
Meta-Llama-3-8B-Instruct vs Meta-Llama-3-8B
llama3-8B 是基本模型,基本上只完成输入提示,但 llama3-8B Instruct 针对指令跟随和多轮对话模板进行了微调,用于助理完成作为聊天响应。
如果你的特定目的是为了聊天完成,那么指令是最好的选择,否则如果它是为了简单的输入完成,那么基本模型就可以了