Modular RAG MCP Server

test_ingestion_splitter_integration.py•2.09 KiB

from typing import Any, List, Optional
from unittest.mock import MagicMock

from src.core.settings import IngestionSettings, Settings, SplitterSettings
from src.ingestion.models import Chunk, Document
from src.ingestion.pipeline import split_document
from src.libs.splitter.base_splitter import BaseSplitter
from src.libs.splitter.splitter_factory import SplitterFactory


def _make_settings(provider: str, chunk_size: int, chunk_overlap: int) -> Settings:
    settings = MagicMock(spec=Settings)
    settings.ingestion = MagicMock(spec=IngestionSettings)
    settings.ingestion.splitter = MagicMock(spec=SplitterSettings)
    settings.ingestion.splitter.provider = provider
    settings.ingestion.splitter.chunk_size = chunk_size
    settings.ingestion.splitter.chunk_overlap = chunk_overlap
    return settings


class FakeSplitter(BaseSplitter):
    def __init__(self, settings: Settings):
        self._chunk_size = int(settings.ingestion.splitter.chunk_size)

    def split_text(
        self, text: str, trace: Optional[Any] = None, **kwargs: Any
    ) -> List[str]:
        if not text:
            return []
        return [
            text[i : i + self._chunk_size]
            for i in range(0, len(text), self._chunk_size)
        ]


def test_splitter_config_affects_chunk_output_lengths():
    text = ("Hello world. " * 100).strip()
    document = Document(text=text, metadata={"source_path": "fixtures/sample.pdf"})

    SplitterFactory.register("fake_c4", FakeSplitter)
    small = _make_settings(provider="fake_c4", chunk_size=80, chunk_overlap=0)
    large = _make_settings(provider="fake_c4", chunk_size=200, chunk_overlap=0)

    small_chunks = split_document(small, document)
    large_chunks = split_document(large, document)

    assert len(small_chunks) > len(large_chunks)
    assert all(isinstance(c, Chunk) for c in small_chunks)
    assert all(len(c.text) <= 80 for c in small_chunks)
    assert all(len(c.text) <= 200 for c in large_chunks)
    assert all(
        c.metadata.get("source_path") == "fixtures/sample.pdf" for c in small_chunks
    )
    assert all(c.doc_id == document.id for c in small_chunks)

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/yj-liuzepeng/rag-mcp-server'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

test_ingestion_splitter_integration.py•2.09 KiB

from typing import Any, List, Optional
from unittest.mock import MagicMock

from src.core.settings import IngestionSettings, Settings, SplitterSettings
from src.ingestion.models import Chunk, Document
from src.ingestion.pipeline import split_document
from src.libs.splitter.base_splitter import BaseSplitter
from src.libs.splitter.splitter_factory import SplitterFactory


def _make_settings(provider: str, chunk_size: int, chunk_overlap: int) -> Settings:
    settings = MagicMock(spec=Settings)
    settings.ingestion = MagicMock(spec=IngestionSettings)
    settings.ingestion.splitter = MagicMock(spec=SplitterSettings)
    settings.ingestion.splitter.provider = provider
    settings.ingestion.splitter.chunk_size = chunk_size
    settings.ingestion.splitter.chunk_overlap = chunk_overlap
    return settings


class FakeSplitter(BaseSplitter):
    def __init__(self, settings: Settings):
        self._chunk_size = int(settings.ingestion.splitter.chunk_size)

    def split_text(
        self, text: str, trace: Optional[Any] = None, **kwargs: Any
    ) -> List[str]:
        if not text:
            return []
        return [
            text[i : i + self._chunk_size]
            for i in range(0, len(text), self._chunk_size)
        ]


def test_splitter_config_affects_chunk_output_lengths():
    text = ("Hello world. " * 100).strip()
    document = Document(text=text, metadata={"source_path": "fixtures/sample.pdf"})

    SplitterFactory.register("fake_c4", FakeSplitter)
    small = _make_settings(provider="fake_c4", chunk_size=80, chunk_overlap=0)
    large = _make_settings(provider="fake_c4", chunk_size=200, chunk_overlap=0)

    small_chunks = split_document(small, document)
    large_chunks = split_document(large, document)

    assert len(small_chunks) > len(large_chunks)
    assert all(isinstance(c, Chunk) for c in small_chunks)
    assert all(len(c.text) <= 80 for c in small_chunks)
    assert all(len(c.text) <= 200 for c in large_chunks)
    assert all(
        c.metadata.get("source_path") == "fixtures/sample.pdf" for c in small_chunks
    )
    assert all(c.doc_id == document.id for c in small_chunks)