使用 llama.cpp 运行 InternLM# llama.cpp 是一个用 C++ 编写的高性能推理引擎,可以在各种硬件上运行大语言模型。 安装 llama.cpp# 从 GitHub 克隆并编译: git clone https://github.com/ggerganov/llama.cpp cd llama.cpp make 模型转换和量化# 请参考 llama.cpp 官方文档进行模型转换和量化步骤。