使用 llama.cpp 运行 InternLM

使用 llama.cpp 运行 InternLM#

llama.cpp 是一个用 C++ 编写的高性能推理引擎,可以在各种硬件上运行大语言模型。

安装 llama.cpp#

从 GitHub 克隆并编译:

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

模型转换和量化#

请参考 llama.cpp 官方文档进行模型转换和量化步骤。