使用 llama.cpp 运行 InternLM

使用 llama.cpp 运行 InternLM#

llama.cpp 是一个用 C++ 编写的高性能推理引擎，可以在各种硬件上运行大语言模型。

从 GitHub 克隆并编译：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

请参考 llama.cpp 官方文档进行模型转换和量化步骤。