使用 vLLM 部署 InternLM

使用 vLLM 部署 InternLM#

vLLM 是一个高吞吐量、内存高效的 LLM 推理和服务引擎。

安装#

pip install vllm

离线推理#

from vllm import LLM, SamplingParams

# 创建 LLM 实例
llm = LLM(model="InternLM/internlm3-8b-instruct")

# 设置采样参数
sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=256)

# 准备提示
prompts = [
    "你好,请介绍一下你自己",
    "什么是人工智能?"
]

# 生成文本
outputs = llm.generate(prompts, sampling_params)

# 打印结果
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"提示: {prompt!r}")
    print(f"生成文本: {generated_text!r}")

OpenAI 兼容服务器#

启动与 OpenAI API 兼容的服务器:

python -m vllm.entrypoints.openai.api_server \
    --model InternLM/internlm3-8b-instruct \
    --host 0.0.0.0 \
    --port 8000

客户端调用#

from openai import OpenAI

# 创建客户端
client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="your-api-key-here",  # vLLM 不验证 API key
)

# 聊天补全
completion = client.chat.completions.create(
    model="InternLM/internlm3-8b-instruct",
    messages=[
        {"role": "user", "content": "你好,请介绍一下深度学习"}
    ]
)

print(completion.choices[0].message.content)