使用 Text Generation Inference (TGI) 运行 InternLM

目录

使用 Text Generation Inference (TGI) 运行 InternLM#

Text Generation Inference (TGI) 是 Hugging Face 开发的高性能文本生成推理服务器。

安装和运行#

使用 Docker 运行 TGI：

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id InternLM/internlm3-8b-instruct

API 调用#

curl 127.0.0.1:8080/generate \
    -X POST \
    -d '{"inputs":"你好，请介绍一下深度学习","parameters":{"max_new_tokens":200}}' \
    -H 'Content-Type: application/json'

特性#

高性能推理
动态批处理
量化支持
OpenAPI 兼容接口