Which integrations are available for this server?

Indexes Markdown documentation files and provides keyword and semantic search over their content for data discovery. Connects to SQLite databases, indexes their schema, metadata, sample rows, and sample values to enable search and discovery of tables and columns.

How do I use mcp-ready-data-discovery-tool?

1. Click on "Install Server". 2. Wait a few minutes for the server to deploy. Once ready, it will show a "Started" state. 3. In the chat, type @ followed by the MCP server name and your instructions, e.g., "@mcp-ready-data-discovery-tool find tables related to payments" That's it! The server will respond to your query, and you can continue using it as needed. Here is a step-by-step guide with screenshots.

mcp-ready-data-discovery-tool

by awesome0w

Overview Schema Related Servers Score Discussions

Python

Local

MCP-ready Data Discovery Tool

Локальный MVP-инструмент для поиска и обнаружения данных. Проект индексирует метаданные, схемы, примеры строк, примеры значений и Markdown-документацию из нескольких локальных источников, сохраняет каталог в SQLite и отдаёт результаты через Web UI, REST API и MCP-ready функции.

Это инструмент обнаружения данных, а не система Text-to-SQL.

Что делает проект

Подключает локальные источники данных: SQLite-базу, папку с CSV-файлами и Markdown-документацию.
Показывает доступные источники, таблицы/файлы, колонки и документы.
Собирает метаданные: количество строк, типы данных, примеры строк, примеры значений и время последней индексации.
Индексирует данные во внутренний каталог storage/catalog.db.
Использует SQLite FTS5 для поиска по ключевым словам.
Использует локальный семантический слой на основе TF-IDF и косинусного сходства. поверх Markdown-документации, описаний, metadata, примеров значений и preview.
Возвращает ранжированные результаты с происхождением данных: source, sourceType, table, column, path, matchedBy, keywordScore, semanticScore.
Возвращает фрагменты Markdown-документов, а для таблиц и колонок — примеры строк и примеры значений.
Предоставляет MCP-ready инструменты: listSources, indexSource, search, getSchema.

Related MCP server: docs-mcp

Что проект НЕ делает

Не является Text-to-SQL системой.
Не генерирует SQL из пользовательского текста.
Не выполняет LLM query planning.
Не реализует ETL/ELT-пайплайн.
Не реализует CDC.
Не является production RBAC системой.
Не использует внешние платные API.
Не отправляет данные во внешние сервисы по умолчанию.

Быстрый запуск

make install
make seed
make index
make run

После запуска откройте:

http://localhost:8000

Ручной запуск без `make`

python -m pip install -e ".[dev]"
python scripts/generate_seed_data.py
python scripts/index_all.py
python -m uvicorn app.main:app --reload

Тестовые данные

Команда:

make seed

создаёт воспроизводимые локальные данные:

data/shop.db
- users
- orders
- payments
- products
data/csv/events.csv
data/csv/support_tickets.csv
data/csv/marketing_campaigns.csv
data/docs/users.md
data/docs/orders.md
data/docs/payments.md

Генератор использует фиксированное зерно 42, поэтому данные одинаково воспроизводятся при повторных запусках.

Индексирование

Команда:

make index

индексирует все настроенные источники и записывает результат во внутреннюю SQLite-базу каталога:

storage/catalog.db

В каталоге сохраняются:

источники;
элементы каталога;
история запусков индексирования;
поисковый индекс FTS5.

Индексируются не все строки целиком, а представления, полезные для поиска данных: схемы, названия, описания, примеры строк, примеры значений и документация.

UI

Минимальный Web UI реализован через FastAPI и Jinja2-шаблоны.

/ Главная страница со списком источников и строкой поиска.
/search?q=customer+email Страница с ранжированными результатами поиска.
/schema?sourceId=sqlite_shop&path=sqlite_shop.users Страница просмотра схемы: колонки, metadata и примеры строк.

UI остаётся тонким слоем и использует ту же бизнес-логику, что REST API и MCP-инструменты.

REST API

Примеры:

curl http://localhost:8000/api/sources

curl -X POST http://localhost:8000/api/sources/sqlite_shop/index

curl "http://localhost:8000/api/search?q=payment%20method"

curl "http://localhost:8000/api/search?q=email&sourceId=csv_folder&type=column"

curl "http://localhost:8000/api/schema?sourceId=sqlite_shop&path=sqlite_shop.users"

/api/search возвращает объекты такого формата:

{
  "type": "column",
  "score": 0.91,
  "sourceId": "sqlite_shop",
  "path": "sqlite_shop.users.email",
  "metadata": {
    "sourceId": "sqlite_shop",
    "path": "sqlite_shop.users.email",
    "sourceType": "sqlite",
    "resultType": "column",
    "matchedBy": "hybrid",
    "keywordScore": 1.34,
    "semanticScore": 0.11,
    "parentTable": "users",
    "table": "users",
    "column": "email"
  },
  "preview": ["user001@example.com", "user002@example.com"]
}

Поиск

Поиск реализован как локальный гибридный механизм:

SQLite FTS5 для поиска по ключевым словам Ищет по именам источников, таблиц и колонок, тексту документации, metadata и примерам значений.
Локальный семантический поиск на основе TF-IDF Использует TfidfVectorizer и Cosine Similarity по вспомогательному тексту:
- Markdown-документации;
- именам элементов;
- путям;
- описаниям;
- metadata;
- примерам значений;
- фрагментам в preview.
Гибридное ранжирование результатов Результаты FTS5 и TF-IDF объединяются по (sourceId, path). В metadata сохраняются:
- keywordScore;
- semanticScore;
- matchedBy.
Итоговый score примерно объединяет keywordScore и semanticScore с весами 0.65 / 0.35.
Происхождение результатов и поле preview Каждый результат содержит сведения о происхождении: источник, таблицу, колонку или документ. Документы возвращают фрагмент Markdown-текста, таблицы — примеры строк, колонки — примеры значений.

Важно: под семантическим поиском здесь понимается локальный механизм на TF-IDF, а не LLM- или embedding-based поиск.

MCP-инструменты

MCP-ready слой находится в:

app/mcp_server/server.py
app/mcp_server/manifest.json

Доступные инструменты:

listSources()
indexSource({sourceId})
search({query, filters?})
getSchema({sourceId, path})

Локальная демонстрация:

make mcp-demo

Она напрямую вызывает локальные функции-инструменты и проверяет тот же контракт, который мог бы использовать AI-агент, совместимый с MCP. Реальный AI-агент для демонстрации не требуется.

Если установлен MCP Python SDK, app/mcp_server/server.py может зарегистрировать эти инструменты через FastMCP. Если SDK не установлен, локальные функции всё равно работают.

Тесты

make test

Тесты покрывают ключевые сценарии:

SQLite-коннектор;
CSV-коннектор;
индексирование;
фильтры поиска;
metadata для гибридного поиска и происхождения результатов;
фрагменты документов;
маршруты REST/UI;
MCP-инструменты;
получение схемы.

Оценка качества поиска

make evaluate

Оценка считает:

Precision@5;
Recall@5;
задержку поиска;
количество проиндексированных объектов;
результаты запросов для проверки семантического поиска;
распределение matchedBy.

Результаты также записываются в:

storage/evaluation_results.json

Docker Compose

docker compose up

Контейнер устанавливает зависимости, генерирует тестовые данные, индексирует источники и запускает приложение на порту 8000.

Принятые архитектурные компромиссы

SQLite FTS5 выбран вместо Elasticsearch, потому что MVP должен быть локальным, лёгким и воспроизводимым.
TF-IDF выбран вместо embedding-моделей на базе transformer, чтобы получить локальный семантический слой без внешних API и тяжёлой инфраструктуры.
SQLite + CSV выбраны вместо PostgreSQL/warehouse, потому что задача связана с обнаружением данных, а не с production-платформой для работы с данными.
Jinja2 выбран вместо React, потому что нужен минимальный рабочий UI.
Примеры строк и примеры значений индексируются вместо полной индексации на уровне отдельных строк, чтобы не превращать проект в ETL или индексатор для data lake.
MCP SDK остаётся необязательным: проект можно демонстрировать через локальные функции-инструменты.

Ограничения текущей реализации

Это MVP, а не enterprise-каталог данных.
Конфигурация источников статическая.
TF-IDF не понимает смысл так же глубоко, как embedding-модели на базе transformer.
semanticScore может не доминировать над keywordScore.
Для больших каталогов TF-IDF-матрицу лучше кешировать или вынести в отдельный локальный индекс.
RBAC, audit, multi-tenant isolation и усиление безопасности и надёжности для production-эксплуатации не реализованы.

Возможные направления дальнейшего развития

Добавить конфигурационный файл для источников.
Кешировать TF-IDF-матрицу между запросами.
Добавить инкрементальную индексацию по времени изменения файлов.
Улучшить словари синонимов и подсказок для бизнес-терминов.
Рассмотреть локальные embedding-модели на базе transformer и лёгкое векторное хранилище.
Добавить полноценную инструкцию регистрации MCP server в реальном клиенте, совместимом с MCP.

This server cannot be installed

license - not found

quality - not tested

maintenance

How are these scores calculated?

Maintenance

–Maintainers

–Response time

–Release cycle

1Releases (12mo)

Commit activity

Resources

GitHub Repository

Need Help?

Related Servers

Unclaimed servers have limited discoverability.

Looking for Admin?

If you are the server author, to access and configure the admin panel.

Latest Blog Posts

Your AI Chatbot Just Exposed Your CEO's Salary to an Intern
By Om-Shree-0709 on July 2, 2026.
Agent Identity
MCP Security
OAuth Delegation
Why MCP Servers Need Execution Sandboxing (And Why Your Current Stack Isn't Enough)
By Om-Shree-0709 on June 30, 2026.
Agentic Ai
Prompt Injection
WebAssembly
Lightport: Open-Sourcing Glama's AI Gateway
By punkpeye on April 27, 2026.
OpenAI
open source

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/awesome0w/mcp-ready-data-discovery-tool'

If you have feedback or need assistance with the MCP directory API, please join our Discord server