Unsloth MCP 服务器

Unsloth的 MCP 服务器 - 一个使 LLM 微调速度提高 2 倍且内存减少 80% 的库。

Unsloth 是什么？

Unsloth 是一个可以显著提高微调大型语言模型效率的库：

速度：与标准方法相比，微调速度提高 2 倍
内存：VRAM 使用量减少 80%，允许在消费级 GPU 上对更大的模型进行微调
上下文长度：上下文长度最多增加 13 倍（例如，80GB GPU 上的 Llama 3.3 有 89K 个令牌）
准确性：模型质量或性能没有损失

Unsloth 通过用 OpenAI 的 Triton 语言编写的自定义 CUDA 内核、优化的反向传播和动态 4 位量化实现这些改进。

特征

针对 Llama、Mistral、Phi、Gemma 等模型进行优化微调
4 位量化，实现高效训练
扩展上下文长度支持
用于模型加载、微调和推理的简单 API
导出为各种格式（GGUF、Hugging Face 等）

快速入门

安装 Unsloth： pip install unsloth
安装并构建服务器：
cd unsloth-server npm install npm run build
添加到 MCP 设置：
{ "mcpServers": { "unsloth-server": { "command": "node", "args": ["/path/to/unsloth-server/build/index.js"], "env": { "HUGGINGFACE_TOKEN": "your_token_here" // Optional }, "disabled": false, "autoApprove": [] } } }

可用工具

检查安装

验证 Unsloth 是否已正确安装在您的系统上。

参数：无

例子：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "check_installation",
  arguments: {}
});

列出支持的型号

获取 Unsloth 支持的所有模型的列表，包括 Llama、Mistral、Phi 和 Gemma 变体。

参数：无

例子：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "list_supported_models",
  arguments: {}
});

加载模型

加载具有 Unsloth 优化的预训练模型，以实现更快的推理和微调。

参数：

model_name （必需）：要加载的模型的名称（例如，“unsloth/Llama-3.2-1B”）
max_seq_length （可选）：模型的最大序列长度（默认值：2048）
load_in_4bit （可选）：是否以 4 位量化加载模型（默认值：true）
use_gradient_checkpointing （可选）：是否使用梯度检查点来节省内存（默认值：true）

例子：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "load_model",
  arguments: {
    model_name: "unsloth/Llama-3.2-1B",
    max_seq_length: 4096,
    load_in_4bit: true
  }
});

微调模型

使用 LoRA/QLoRA 技术通过 Unsloth 优化对模型进行微调。

参数：

model_name （必需）：需要微调的模型的名称
dataset_name （必需）：用于微调的数据集的名称
output_dir （必需）：保存微调模型的目录
max_seq_length （可选）：训练的最大序列长度（默认值：2048）
lora_rank （可选）：LoRA 微调的排名（默认值：16）
lora_alpha （可选）：LoRA 微调的 Alpha（默认值：16）
batch_size （可选）：训练的批次大小（默认值：2）
gradient_accumulation_steps （可选）：梯度累积步数（默认值：4）
learning_rate （可选）：训练的学习率（默认值：2e-4）
max_steps （可选）：最大训练步数（默认值：100）
dataset_text_field （可选）：数据集中包含文本的字段（默认值：“text”）
load_in_4bit （可选）：是否使用4位量化（默认值：true）

例子：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "finetune_model",
  arguments: {
    model_name: "unsloth/Llama-3.2-1B",
    dataset_name: "tatsu-lab/alpaca",
    output_dir: "./fine-tuned-model",
    max_steps: 100,
    batch_size: 2,
    learning_rate: 2e-4
  }
});

生成文本

使用经过微调的 Unsloth 模型生成文本。

参数：

model_path （必需）：微调模型的路径
prompt （必需）：提示文本生成
max_new_tokens （可选）：要生成的最大令牌数（默认值：256）
temperature （可选）：文本生成的温度（默认值：0.7）
top_p （可选）：文本生成的 Top-p（默认值：0.9）

例子：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "generate_text",
  arguments: {
    model_path: "./fine-tuned-model",
    prompt: "Write a short story about a robot learning to paint:",
    max_new_tokens: 512,
    temperature: 0.8
  }
});

导出模型

将经过微调的 Unsloth 模型导出为各种格式以供部署。

参数：

model_path （必需）：微调模型的路径
export_format （必需）：导出格式（gguf、ollama、vllm、huggingface）
output_path （必需）：保存导出模型的路径
quantization_bits （可选）：量化位（用于 GGUF 导出）（默认值：4）

例子：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "export_model",
  arguments: {
    model_path: "./fine-tuned-model",
    export_format: "gguf",
    output_path: "./exported-model.gguf",
    quantization_bits: 4
  }
});

高级用法

自定义数据集

您可以通过正确格式化自定义数据集并将其托管在 Hugging Face 上或提供本地路径来使用它们：

const result = await use_mcp_tool({
  server_name: "unsloth-server",
  tool_name: "finetune_model",
  arguments: {
    model_name: "unsloth/Llama-3.2-1B",
    dataset_name: "json",
    data_files: {"train": "path/to/your/data.json"},
    output_dir: "./fine-tuned-model"
  }
});

内存优化

对于有限硬件上的大型模型：

减少批次大小并增加梯度积累步骤
使用 4 位量化
启用梯度检查点
如果可能的话减少序列长度

故障排除

常见问题

CUDA 内存不足：减少批量大小，使用 4 位量化，或尝试更小的模型
导入错误：确保安装了正确版本的 torch、transformers 和 unsloth
未找到模型：请检查您是否正在使用受支持的模型名称或是否有权访问私有模型

版本兼容性

Python：3.10、3.11 或 3.12（不是 3.13）
CUDA：建议使用 11.8 或 12.1+
PyTorch：推荐 2.0+

性能基准

模型	显存	不懒惰的速度	显存减少	上下文长度
骆驼 3.3 (70B)	80GB	速度快 2 倍	>75%	13倍长
骆驼 3.1 (8B)	80GB	速度快 2 倍	>70%	12倍长
米斯特拉尔 v0.3 (7B)	80GB	速度快 2.2 倍	减少 75%	-

要求

Python 3.10-3.12
支持 CUDA 的 NVIDIA GPU（推荐）
Node.js 和 npm

执照

Apache-2.0

Install Server

HTTP connection URL

security – no known vulnerabilities

license - not found

quality - confirmed to work

How are these scores calculated?

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Tools

提供使用 Unsloth 优化、微调和部署大型语言模型的工具，通过模型加载、微调、文本生成和模型导出功能，实现 2 倍更快的训练速度和 80% 更少的内存。

Related MCP Servers

MemGPT MCP Server
Vic563
-
security
F
license
-
quality
A TypeScript-based server that provides a memory system for Large Language Models (LLMs), allowing users to interact with multiple LLM providers while maintaining conversation history and offering tools for managing providers and model configurations.
Last updated -
25
JavaScript
Model Context Protocol (MCP) Server
hideya
-
security
A
license
-
quality
This server facilitates the invocation of AI models from providers like Anthropic, OpenAI, and Groq, enabling users to manage and configure large language model interactions seamlessly.
Last updated -
9
Python
MIT License
File Context MCP
compiledwithproblems
-
security
F
license
-
quality
This server provides an API to query Large Language Models using context from local files, supporting various models and file types for context-aware responses.
Last updated -
1
TypeScript
Model Context Provider (MCP) Server
Mark850409
-
security
F
license
-
quality
Facilitates enhanced interaction with large language models (LLMs) by providing intelligent context management, tool integration, and multi-provider AI model coordination for efficient AI-driven workflows.
Last updated -
Python

View all related MCP servers

Unsloth MCP Server