认识 Unsloth：大模型微调的涡轮增压

一个开源框架，让微调大语言模型的速度翻倍、显存减半 —— 支持 500+ 模型

Unsloth 是什么？

想象你在开车。普通微调就像开一辆满载的货车爬坡 —— 慢且费油。Unsloth 就像给这辆车换了一台涡轮增压器：同样的路、同样的油箱，但速度翻倍、油耗减半。

速度翻倍

自定义 Triton 内核替换 PyTorch 默认算子

70%

显存减半

4-bit 量化 + 梯度检查点，最低 5GB 显存即可训练

500+

支持广泛

Llama 4、Qwen3、Gemma 4、Mistral、DeepSeek 等 500+ 模型

项目架构一览

Unsloth 的代码结构就像一座精心设计的工厂，每个车间负责一道关键工序：

unsloth/ 核心框架代码

kernels/ Triton 加速引擎 —— 工厂的动力核心

models/ 模型适配层 —— 让每种模型都能用上加速

trainer.py 训练控制器 —— 协调整个训练流程

save.py 模型导出 —— 支持 GGUF、safetensors 等格式

💡

核心理念

Unsloth 不重新发明轮子。它站在 Hugging Face Transformers 和 PyTorch 的肩膀上，只替换最关键的计算瓶颈 —— 就像给赛车换轮胎，不需要重新造车。

训练流水线全貌

点击下方的组件，了解 Unsloth 训练流水线中每个环节的角色：

数据层

📊

Data Recipe

加速层

⚡

Kernels

🔌

LoRA Engine

训练层

🏋

Trainer

🎯

RL Engine

导出层

📦

Save / Export

点击上方任意组件查看详细说明

为什么选择 Unsloth？

🚀

Triton 内核加速

手工编写的 GPU 内核替代 PyTorch 慢速默认实现，关键算子提速 2-5 倍

💰

消费级显卡可用

4-bit 量化让 7B 模型只需 5GB 显存，RTX 3060 就能跑

🤖

零精度损失

数学等价的实现方式，加速的同时不牺牲模型质量

🌏

多平台支持

NVIDIA、AMD、Intel GPU + macOS，甚至免费 Google Colab

检验你的理解

Unsloth 实现加速的核心手段是什么？

如果你想用 Unsloth 微调一个 7B 模型但只有 5GB 显存，以下哪个策略最关键？

Unsloth 和 Hugging Face Transformers 是什么关系？

Triton 加速引擎：GPU 的母语指令

12 个手工打磨的 GPU 内核，是 Unsloth 速度翻倍的核心秘密

为什么需要自定义 GPU 内核？

想象你有一封急信要送到隔壁城市。PyTorch 的做法是：先写到信纸上，交给秘书，秘书转交给司机，司机再开车送去。Unsloth 的 Triton 内核则是：直接骑摩托车送达。省掉了中间所有环节。

📚

什么是 Triton？

Triton 是一种 GPU 编程 DSL，由 OpenAI 开发。它让你用类似 Python 的语法写出直接运行在 GPU 上的高效代码，而不需要写晦涩的 CUDA C++。

kernels/ 目录下的 12 把利器

📈

rope_embedding.py

RoPE 旋转位置编码 —— 让模型理解文字的先后顺序

⚖

rms_layernorm.py

RMS 归一化 —— 稳定每层输出的数值范围

🎲

cross_entropy_loss.py

交叉熵损失 —— 衡量预测与答案的差距

🔌

fast_lora.py

快速 LoRA —— 融合 LoRA 计算，减少显存读写

🔧

swiglu.py / geglu.py

SwiGLU / GeGLU 激活函数的前向和反向融合计算

💧

fp8.py

FP8 精度训练 —— 8 位浮点，极致省显存

深入内核：RoPE 旋转位置编码

这是 Unsloth 最核心的加速之一。下面是 kernels/rope_embedding.py 中的真实代码：

PYTHON / TRITON

def _rope_embedding_QK(
    Q, Q_batch_stride,
    Q_head_stride, Q_seq_stride,
    K, K_batch_stride,
    K_head_stride, K_seq_stride,
    cos, cos_row_stride,
    sin, sin_row_stride,
    rope_embedding_indices,
    seqlen,
    head_dim: tl.constexpr,
    n_heads_K: tl.constexpr,
    BACKWARD_PASS: tl.constexpr,
    HAS_ROPE_INDICES: tl.constexpr,
    BLOCK_SIZE: tl.constexpr,
):

中文解释

定义一个 Triton 内核函数，处理 Query（查询）向量的旋转位置编码

Q 的各维度步长：batch（批次）、head（注意力头）、sequence（序列位置）

K（Key 键向量）的各维度步长，同样需要旋转编码

预计算好的 cos 和 sin 值 —— 旋转所需的三角函数

位置索引数组，支持动态位置（非连续序列）

序列长度和注意力头维度 —— 编译期常量，GPU 可以极致优化

是否是反向传播、是否有自定义位置索引 —— 编译期分支，零开销

PYTHON / TRITON

    row_position = tl.program_id(0)
    head_position = tl.program_id(1)
    col_offsets = tl.arange(0, BLOCK_SIZE)
    half_head_dim = head_dim // 2
    mask = col_offsets < half_head_dim

    cos_ptr = cos + rot_position * cos_row_stride
    sin_ptr = sin + rot_position * sin_row_stride
    sin1 = tl.load(sin_ptr + col_offsets, mask=mask)
    cos1 = tl.load(cos_ptr + col_offsets, mask=mask)

中文解释

获取当前 GPU 线程负责处理的行位置（序列中的第几个 token）

获取当前线程负责的注意力头编号

生成列偏移量数组（0 到 BLOCK_SIZE），用于并行处理向量的多个元素

只需要处理向量的一半，因为旋转编码是成对的（cos/sin 配对）

创建掩码：只处理有效的维度，防止越界读取

根据当前位置计算 cos/sin 的内存地址（指针运算）

从 GPU 显存加载预计算的 sin 值 —— 一次加载整行，非常高效

同样加载 cos 值。这两行就是'旋转'的核心：用三角函数混合向量

内核协作：一次前向传播的对话

想象 Unsloth 的各个内核是一家餐厅的后厨团队，它们在处理一道菜（一个 token 的计算）时如何协作：

检验你的理解

Unsloth 的 Triton 内核为什么比 PyTorch 默认实现快？

RoPE（旋转位置编码）是通过什么方式让模型理解文字顺序的？

在 RoPE 内核中，head_dim 和 BLOCK_SIZE 被声明为 tl.constexpr，这样做的好处是什么？

LoRA 微调原理：花 1% 的力气办 100% 的事

低秩适配让普通显卡也能微调大模型 —— Unsloth 的 fast_lora.py 内核深度解析

LoRA 是什么？用钢琴调音来理解

想象你有一架 88 键的钢琴。全量微调就像把 88 个键全部拆开重新调整 —— 工程巨大。而 LoRA 就像只调整其中的 8 个键，却能神奇地让整架钢琴的音色焕然一新。

数学原理

# 原始权重矩阵 W: [4096, 4096]
# 有 16,777,216 个参数需要训练

中文解释

一个 4096x4096 的权重矩阵，有约 1677 万个参数。全量微调需要更新所有这些参数。

数学原理

# LoRA: W + A @ B
# A: [4096, 8]  只有 32,768 个参数
# B: [8, 4096]  只有 32,768 个参数
# 总共只需训练 65,536 个参数
# 参数量仅为原来的 0.39%！

中文解释

LoRA 在原始矩阵旁加两个小矩阵 A 和 B（秩 r=8），它们的乘积 AxB 就是对原始权重的修正量。

A 有 3.2 万参数，B 也有 3.2 万参数，总共 6.5 万参数。

6.5 万 vs 1677 万，只需要训练原始参数量的 0.39%！

Unsloth 的 LoRA 融合内核

Unsloth 把 LoRA 的计算融合到模型的 MLP 前馈层中，一次 GPU 调用完成所有计算。看看 fast_lora.py 的核心代码：

PYTHON

class LoRA_MLP(torch.autograd.Function):
    """
    LoRA weights:
    G = G + Ag @ Bg
    U = U + Au @ Bu
    W = W + Aw @ Bw
    """

中文解释

定义一个 PyTorch 自定义算子，LoRA_MLP，它接管整个 MLP 层的前向和反向传播。

Gate 投影：原始权重 G 加上 LoRA 修正 Ag @ Bg

Up 投影：原始权重 U 加上 LoRA 修正 Au @ Bu

Down 投影：原始权重 W 加上 LoRA 修正 Aw @ Bw

三个投影矩阵都有各自的 LoRA 适配器，全部在一次调用中融合计算！

PYTHON

    """ SwiGLU(X) """
    e = X @ G    # gate 投影
    f = e * sigmoid(e)  # SwiGLU 激活
    g = X @ U    # up 投影
    h = f * g    # 逐元素相乘
    i = h @ W    # down 投影

中文解释

SwiGLU 激活函数的计算过程（注意：每个矩阵乘法都包含了 LoRA 修正）：

输入 X 乘以 Gate 矩阵（已含 LoRA）

对结果施加 SwiGLU 激活：e 乘以 sigmoid(e)

输入 X 乘以 Up 矩阵（已含 LoRA）

Gate 激活结果和 Up 结果逐元素相乘

最后乘以 Down 矩阵（已含 LoRA）得到输出

LoRA 前向传播数据流

点击"下一步"按钮，一步步追踪数据在 LoRA MLP 层中的流动：

输入向量

Gate 投影

SwiGLU 激活

Up 投影

Down 投影

点击"下一步"开始动画

配对游戏：LoRA 组件对应

将左边的 LoRA 概念拖到右边对应的描述上：

矩阵 A

矩阵 B

秩 r

缩放因子 alpha

低秩矩阵的输入维度，初始化为高斯随机值

拖到这里

低秩矩阵的输出维度，初始化为零（训练开始时不改变原模型）

拖到这里

控制 A 和 B 的中间维度大小，越大表达能力越强但参数越多

拖到这里

控制 LoRA 修正幅度的缩放系数，防止修正量过大破坏原模型

拖到这里

检验你的理解

为什么 LoRA 的矩阵 B 要初始化为零矩阵？

Unsloth 的 fast_lora.py 相比普通 LoRA 实现，关键优化在哪里？

模型加载与适配：500+ 模型的统一入口

从 Hugging Face 下载到 GPU 加速，Unsloth 如何让每种模型都跑在最快路径上

模型加载：翻译官 + 调音师

Unsloth 的模型加载就像一位精通多国语言的翻译官：它能理解 Llama、Qwen、Gemma、Mistral 等 500+ 种模型的"方言"，然后把它们翻译成 Unsloth 的加速系统能理解的统一格式。

📄

models/loader.py

总调度器：识别模型类型，选择对应的适配器，应用量化和加速补丁

🔍

models/mapper.py

模型映射器：将不同模型的层名称统一映射到 Unsloth 的标准接口

🔧

models/_utils.py

工具箱：梯度检查点、设备映射、版本检测等基础工具

自动识别模型并选择适配器

看看 models/loader.py 中如何根据模型类型选择对应的加速方案：

PYTHON

from .granite import FastGraniteModel
from .llama import FastLlamaModel
from .mistral import FastMistralModel
from .qwen2 import FastQwen2Model
from .qwen3 import FastQwen3Model
from .qwen3_moe import FastQwen3MoeModel
from .cohere import FastCohereModel

SUPPORTS_QWEN3 = transformers_version >= "4.50.3"
SUPPORTS_LLAMA31 = transformers_version >= "4.43.2"
SUPPORTS_GEMMA4 = transformers_version >= "5.5.0"

中文解释

每种模型架构都有专门的 Fast*Model 适配器

Llama（Meta）、Mistral、Qwen2/3（阿里）、Granite（IBM）、Cohere 等

还有 MoE（混合专家）模型的专门支持

根据 Transformers 库版本动态判断是否支持新模型

Qwen3 需要 4.50.3 以上版本，Gemma 4 需要 5.5.0 以上

这确保了新模型一被 Hugging Face 支持，Unsloth 就能立即适配

4-bit 量化：压缩的艺术

一个 7B 参数模型，16-bit 精度需要 14GB 显存。Unsloth 用 4-bit 量化把它压到约 3.5GB，就像把一张无损音乐压缩成 MP3 —— 大部分时候你听不出区别。

加载 4-bit 模型

通过 bitsandbytes 将原始 16-bit 权重实时量化为 4-bit，显存占用直接降 75%

反量化 + LoRA 融合计算

在 fast_lora.py 中，4-bit 权重先被反量化回 16-bit，然后直接和 LoRA 矩阵相乘，一步完成 —— 不需要单独的反量化步骤

只训练 LoRA 参数

原始 4-bit 权重保持冻结不动，只有新增的 LoRA 矩阵（16-bit）参与梯度更新。冻结的参数不占梯度显存。

💡

关键洞察

4-bit 量化 + LoRA 的组合就像是：原始知识保存在压缩的只读文件中（4-bit 权重），而新的学习内容写在一张小纸条上（LoRA 矩阵）。推理时把两者加在一起就行。这正是 kernels/fast_lora.py 中 fast_dequantize 函数做的事。

Unsloth 支持的热门模型

🦅

Llama 4 / 3.x

Meta 的旗舰模型系列。Unsloth 修复了 llama.cpp 的 bug 并贡献了官方 PR

🌟

Qwen3 / 3.5

阿里的最新模型，支持 Dynamic GGUF 和 MoE 架构，70% 显存节省

💎

Gemma 4

Google 新发布的模型，Unsloth 第一时间支持视觉微调

⚡

Mistral / Devstral

Mistral AI 的代码模型，支持视觉和 TTS 微调

🌏

DeepSeek / MoE

混合专家模型支持，MoE 训练提速 12 倍

💬

Orpheus TTS

语音合成模型微调，支持中英文语音克隆

找 Bug 挑战

以下代码模拟了加载模型时可能出现的一个常见错误。点击有 Bug 的那一行：

这段代码试图加载一个 4-bit 量化模型并应用 LoRA，哪里有问题？

1 from unsloth import FastLanguageModel

2 model, tokenizer = FastLanguageModel.from_pretrained(

3 model_name = "unsloth/Qwen3-4B",

4 max_seq_length = 2048,

5 load_in_4bit = False, # Bug: 应为 True

6 )

检验你的理解

Unsloth 为什么需要为每种模型写一个专门的 Fast*Model 适配器？

使用 4-bit 量化 + LoRA 时，哪些参数实际参与训练？

强化学习训练：让 AI 学会"什么更好"

GRPO、DPO、PPO —— Unsloth 用 80% 更少的显存实现模型对齐

为什么大模型需要强化学习？

普通微调教会模型"怎么说话"。强化学习教会模型"说什么话更好"。就像教孩子写作文：先教语法（微调），然后老师给每篇作文打分，孩子学会写高分作文（强化学习）。

📚

关键概念

Unsloth 中的 RL 主要指 RLHF —— 用奖励信号来引导模型行为。Unsloth 特别优化了 GRPO 算法，显存用量比传统方案少 80%。

RL 训练流水线

Unsloth 的强化学习系统由三个核心文件协作完成：

入口层

⚡

PatchFastRL

替换层

🔌

RL Replacements

训练层

🏋

UnslothTrainer

点击上方任意组件查看详细说明

一键启用 RL 加速

Unsloth 的 RL 加速只需要一行代码。看看 models/rl.py 中的核心逻辑：

PYTHON

torch_compile_options = {
    "epilogue_fusion": True,
    "max_autotune": False,
    "shape_padding": True,
    "triton.cudagraphs": False,
}

from .rl_replacements import (
    RL_FUNCTIONS,
    RL_EXTRA_ARGS,
    RL_CONFIG_CHANGES,
    RL_METRICS_CHANGES,
)

中文解释

PyTorch 编译选项配置：启用收尾融合、关闭自动调优（避免 Triton 冲突）

启用形状填充，让不同 batch size 共享编译结果

关闭 CUDA Graphs，因为 RL 训练的控制流太动态

从 rl_replacements 模块导入 RL 优化需要的所有配置

RL_FUNCTIONS：需要被替换的函数列表

RL_EXTRA_ARGS/CONFIG/METRICS：RL 专用参数和指标配置

GRPO 训练数据流

一步步追踪 GRPO（Group Relative Policy Optimization）训练中数据的流动：

模型采样

奖励评估

损失计算

参数更新

点击"下一步"开始动画

两个关键优化：Padding-Free 和 Sample Packing

序列 A: [token][token][token][PAD][PAD][PAD][PAD][PAD]

序列 B: [token][token][PAD][PAD][PAD][PAD][PAD][PAD]

序列 C: [token][token][token][token][token][PAD][PAD][PAD]

问题：PAD token 的计算完全是浪费 —— 但 GPU 需要等长序列

从普通训练（浪费计算在 PAD 上）到 Padding-Free（消除 PAD），再到 Sample Packing（拼接序列），每一步都大幅提升效率。

检验你的理解

GRPO 相比传统 RLHF 方法，最大的优势是什么？

Padding-Free 优化的核心思路是什么？

Sample Packing（样本打包）的原理是什么？

实战：从零到一微调你的第一个大模型

用 10 行代码完成 Qwen3 的 LoRA 微调，并导出为可部署的模型

准备工作

安装 Unsloth

一行命令搞定：支持 macOS / Linux / Windows / WSL

准备 GPU

最低 5GB 显存即可（RTX 3060 / 免费 Google Colab T4）。NVIDIA RTX 30/40/50 系列最佳。

准备数据集

任何 Alpaca 格式的数据集，或用 Unsloth 的 Data Recipe 从 PDF/CSV 自动生成

安装 Unsloth

BASH

# macOS / Linux / WSL
curl -fsSL https://unsloth.ai/install.sh | sh

# 启动 Unsloth Studio（Web UI）
unsloth studio -p 8888

中文解释

下载并运行官方安装脚本，自动检测你的 GPU 和操作系统

安装完成后启动 Web 界面，在浏览器中打开 localhost:8888

Unsloth Studio 提供可视化界面，不需要写代码也能微调模型

BASH

# 或者用代码方式（Unsloth Core）
uv venv unsloth_env --python 3.13
source unsloth_env/bin/activate
uv pip install unsloth --torch-backend=auto

中文解释

创建 Python 3.13 虚拟环境（推荐使用 uv，速度比 pip 快 10-100 倍）

激活虚拟环境

安装 Unsloth 及其依赖，自动检测并安装适合的 PyTorch 版本

10 行代码完成微调

这就是完整的微调代码。从前面的模块你已经了解了每个组件的原理，现在看看它们如何配合：

PYTHON

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/Qwen3-4B",
    max_seq_length = 2048,
    load_in_4bit = True,
)

中文解释

导入 Unsloth 的核心入口 —— FastLanguageModel

加载预训练模型。这里选 Qwen3-4B（40 亿参数）

max_seq_length 设置最大输入长度（2048 tokens）

load_in_4bit=True 启用 4-bit 量化，显存从 8GB 降到约 2GB

这一行背后发生了什么：loader.py 自动识别模型类型，选择 FastQwen3Model 适配器，注入 Triton 内核

PYTHON

model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = ["q_proj", "k_proj",
                      "v_proj", "o_proj",
                      "gate_proj", "up_proj",
                      "down_proj"],
    lora_alpha = 16,
)

中文解释

为模型添加 LoRA 适配器

r=16：LoRA 秩设为 16，平衡表达能力和参数量

target_modules：指定在哪些层添加 LoRA。这里覆盖了注意力的 Q/K/V/O 四个投影和 MLP 的三个投影

lora_alpha=16：缩放因子，控制 LoRA 修正的幅度

这一行背后：fast_lora.py 融合内核替代了这些层的默认实现

PYTHON

from unsloth import UnslothTrainer

trainer = UnslothTrainer(
    model = model,
    train_dataset = dataset,
    max_seq_length = 2048,
)
trainer.train()

中文解释

导入 Unsloth 的训练器（不是普通的 SFTTrainer）

创建训练器实例，传入模型和数据集

UnslothTrainer 会自动启用 Padding-Free 和 Sample Packing

一行代码启动训练！背后是 Triton 内核在 GPU 上飞驰

导出和部署

PYTHON

# 导出为 GGUF 格式（适合本地部署）
model.save_pretrained_gguf(
    "my_model",
    tokenizer,
    quantization_method = "q4_k_m",
)

# 或者导出到 Hugging Face Hub
model.push_to_hub_gguf(
    "username/my-model",
    quantization_method = "q4_k_m",
)

中文解释

将训练好的模型导出为 GGUF 格式

q4_k_m 是最流行的量化级别：4-bit 精度，文件小、速度快、质量好

也可以一键推送到 Hugging Face Hub，分享你的模型给全世界

导出后可以用 llama.cpp、Ollama、vLLM 等工具部署

llama.cpp 本地 CPU/GPU 推理，支持 GGUF 格式，一行命令运行模型

Ollama 最简单的本地部署工具：ollama run my-model 即可对话

vLLM 高性能推理服务器，适合生产环境 API 部署

Unsloth API Unsloth 自带的 API 端点，可在 Claude Code / Codex 中使用

完整微调流程对话

听听 Unsloth 各模块在一次完整微调过程中如何协作：

最终检验：综合应用

在 Unsloth 的完整微调流程中，`FastLanguageModel.get_peft_model()` 这一步实际上做了什么？

在一个完整的 Unsloth 训练流程中，以下哪个说法正确描述了三个核心组件的协作关系？

你想在本地电脑（没有 GPU）运行微调后的模型，应该选择哪种导出格式？

🎉

恭喜你完成了 Unsloth 课程！

你已经了解了 Unsloth 的核心架构：Triton 加速内核、LoRA 融合计算、模型加载适配器、强化学习引擎，以及端到端的微调流程。现在你可以：
1. 用 Unsloth Studio 的 Web UI 零代码微调模型
2. 用 Python 代码编写自定义训练脚本
3. 将微调后的模型导出并部署到本地或云端
4. 尝试 GRPO 强化学习让模型对齐人类偏好

Unsloth 是什么？

项目架构一览

训练流水线全貌

数据层

加速层

训练层

导出层

为什么选择 Unsloth？

Triton 内核加速

消费级显卡可用

零精度损失

多平台支持

检验你的理解

Unsloth 实现加速的核心手段是什么？

如果你想用 Unsloth 微调一个 7B 模型但只有 5GB 显存，以下哪个策略最关键？

Unsloth 和 Hugging Face Transformers 是什么关系？

为什么需要自定义 GPU 内核？

kernels/ 目录下的 12 把利器

rope_embedding.py

rms_layernorm.py

cross_entropy_loss.py

fast_lora.py

swiglu.py / geglu.py

fp8.py

深入内核：RoPE 旋转位置编码

内核协作：一次前向传播的对话

检验你的理解

Unsloth 的 Triton 内核为什么比 PyTorch 默认实现快？

RoPE（旋转位置编码）是通过什么方式让模型理解文字顺序的？

在 RoPE 内核中，head_dim 和 BLOCK_SIZE 被声明为 tl.constexpr，这样做的好处是什么？

LoRA 是什么？用钢琴调音来理解

Unsloth 的 LoRA 融合内核

LoRA 前向传播数据流

配对游戏：LoRA 组件对应

检验你的理解

为什么 LoRA 的矩阵 B 要初始化为零矩阵？

Unsloth 的 fast_lora.py 相比普通 LoRA 实现，关键优化在哪里？

模型加载：翻译官 + 调音师

自动识别模型并选择适配器

4-bit 量化：压缩的艺术

Unsloth 支持的热门模型

Llama 4 / 3.x

Qwen3 / 3.5

Gemma 4

Mistral / Devstral

DeepSeek / MoE

Orpheus TTS

找 Bug 挑战

这段代码试图加载一个 4-bit 量化模型并应用 LoRA，哪里有问题？

检验你的理解

Unsloth 为什么需要为每种模型写一个专门的 Fast*Model 适配器？

使用 4-bit 量化 + LoRA 时，哪些参数实际参与训练？

为什么大模型需要强化学习？

RL 训练流水线

入口层

替换层

训练层

一键启用 RL 加速

GRPO 训练数据流

两个关键优化：Padding-Free 和 Sample Packing

检验你的理解

GRPO 相比传统 RLHF 方法，最大的优势是什么？

Padding-Free 优化的核心思路是什么？

Sample Packing（样本打包）的原理是什么？

准备工作

安装 Unsloth

10 行代码完成微调

导出和部署

完整微调流程对话

最终检验：综合应用

在 Unsloth 的完整微调流程中，FastLanguageModel.get_peft_model() 这一步实际上做了什么？

在一个完整的 Unsloth 训练流程中，以下哪个说法正确描述了三个核心组件的协作关系？

你想在本地电脑（没有 GPU）运行微调后的模型，应该选择哪种导出格式？

在 Unsloth 的完整微调流程中，`FastLanguageModel.get_peft_model()` 这一步实际上做了什么？