InternLM3#

InternLM3-8B-Instruct#

介绍#

InternLM3 开源了一个80亿参数的指令模型 InternLM3-8B-Instruct,专为通用用途和高级推理而设计。该模型具有以下特点:

  • 以更低成本实现更强性能: 在推理和知识密集型任务上的最先进性能超越了 Llama3.1-8B 和 Qwen2.5-7B 等模型。值得注意的是,InternLM3 仅使用4万亿个高质量标记进行训练,相比同等规模的其他LLM节省了75%以上的训练成本。

  • 深度思考能力: InternLM3 支持深度思考模式,通过长链思维解决复杂推理任务,同时也支持流畅用户交互的正常响应模式。

模型库#

模型

Transformers

ModelScope

Modelers

发布日期

InternLM3-8B-Instruct

🤗internlm3_8B_instruct

internlm3_8b_instruct

Open in Modelers

2025-01-15

性能评估#

我们使用开源评估工具 OpenCompass 对 InternLM 进行了全面评估。评估涵盖了五个维度的能力:学科能力、语言能力、知识能力、推理能力和理解能力。以下是一些评估结果,您可以访问 OpenCompass 排行榜 获取更多评估结果。

基准测试

InternLM3-8B-Instruct

Qwen2.5-7B-Instruct

Llama3.1-8B-Instruct

GPT-4o-mini(闭源)

通用

CMMLU(0-shot)

83.1

75.8

53.9

66.0

MMLU(0-shot)

76.6

76.8

71.8

82.7

MMLU-Pro(0-shot)

57.6

56.2

48.1

64.1

推理

GPQA-Diamond(0-shot)

37.4

33.3

24.2

42.9

DROP(0-shot)

83.1

80.4

81.6

85.2

HellaSwag(10-shot)

91.2

85.3

76.7

89.5

KOR-Bench(0-shot)

56.4

44.6

47.7

58.2

数学

MATH-500(0-shot)

83.0*

72.4

48.4

74.0

AIME2024(0-shot)

20.0*

16.7

6.7

13.3

编程

LiveCodeBench(2407-2409 Pass@1)

17.8

16.8

12.9

21.8

HumanEval(Pass@1)

82.3

85.4

72.0

86.6

指令跟随

IFEval(Prompt-Strict)

79.3

71.7

75.2

79.7

长上下文

RULER(4-128K Average)

87.9

81.4

88.5

90.7

对话

AlpacaEval 2.0(LC WinRate)

51.1

30.3

25.0

50.7

WildBench(Raw Score)

33.1

23.3

1.5

40.3

MT-Bench-101(Score 1-10)

8.59

8.49

8.37

8.87

  • 评估结果来自 OpenCompass(部分数据标有 *,表示使用思考模式评估),评估配置可在 OpenCompass 提供的配置文件中找到。

  • 由于 OpenCompass 版本迭代,评估数据可能存在数值差异,请以 OpenCompass 的最新评估结果为准。

限制: 尽管我们在训练过程中努力确保模型的安全性,并鼓励模型生成符合伦理和法律要求的文本,但由于模型的规模和概率生成范式,模型仍可能产生意外输出。例如,生成的响应可能包含偏见、歧视或其他有害内容。请不要传播此类内容。我们不对传播有害信息造成的任何后果负责。