# 使用 llama.cpp 运行 InternLM

llama.cpp 是一个用 C++ 编写的高性能推理引擎，可以在各种硬件上运行大语言模型。

## 安装 llama.cpp

从 GitHub 克隆并编译：

```bash
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make
```

## 模型转换和量化

请参考 llama.cpp 官方文档进行模型转换和量化步骤。
