Japanese Text Analyzer

by Mistizz
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Enables direct execution of the MCP server from a GitHub repository, allowing users to run the text analyzer without local installation

日语文本分析器 MCP 服务器

这是一个可以对日语文本进行形态分析的 MCP 服务器。它从语言学的角度测量和评估句子的特点,有助于提供句子生成的反馈。

功能

  • 统计日语文本的字符数(不包括空格和换行符的实际字符数)
  • 计算日语文本中的单词数
  • 分析日语文本的详细语言特征(平均句子长度、词性比例、词汇多样性等)
  • 支持文件路径和直接文本输入
  • 灵活的文件路径解析(可搜索绝对路径、相对路径、或仅搜索文件名)

工具

目前已实施以下工具:

字符数

测量文件中的字符数。请指定绝对路径(Windows 样式 C:\Users... 或 WSL/Linux 样式 /c/Users/... 均可接受)。计算不包括空格和换行符的实际字符数。

输入:

  • filePath (字符串):要统计字符的文件路径(最好是 Windows 或 WSL/Linux 绝对路径)。

输出:

  • 文件中的字符数(不包括空格和换行符的实际字符数)

计数单词

计算文件中的单词数。请指定绝对路径(Windows 样式 C:\Users... 或 WSL/Linux 样式 /c/Users/... 均可接受)。在英语中,它计算以空格分隔的单词,在日语中,它使用形态分析。

输入:

  • filePath (字符串):用于统计单词的文件路径(最好是 Windows 或 WSL/Linux 绝对路径)。
  • language (字符串,可选,默认值:“en”):文件的语言(en:英语,ja:日语)

输出:

  • 文件的字数
  • 在日语模式下,还会显示详细的形态分析结果。

剪贴板字符数

测量文本中的字符数。计算不包括空格和换行符的实际字符数。

输入:

  • text (字符串):要计算字符数的文本。

输出:

  • 文本字符数(不包括空格和换行符的实际字符数)

统计剪贴板单词数

计算文本中的单词数。在英语中,它计算以空格分隔的单词,在日语中,它使用形态分析。

输入:

  • text (字符串):要统计单词的文本。
  • language (字符串,可选,默认值:“en”):文本的语言(en:英语,ja:日语)。

输出:

  • 文本中的单词数
  • 在日语模式下,还会显示详细的形态分析结果。

分析文本

它对文本进行详细的形态和语言特征分析。我们分析句子的复杂性、词性的比例、词汇的多样性等等。

输入:

  • text (字符串):要分析的文本。

输出:

  • 文本基本信息(总字数、句子数、词素总数)
  • 详细分析结果(平均句长、词性比例、字类比例、词汇多样性等)

分析文件

它对文件进行详细的形态学和语言学分析。我们分析句子的复杂性、词性的比例、词汇的多样性等等。

输入:

  • filePath (字符串):要分析的文件的路径(最好是 Windows 或 WSL/Linux 格式的绝对路径)。

输出:

  • 文件基本信息(字符总数、句子数、词素总数)
  • 详细分析结果(平均句长、词性比例、字类比例、词汇多样性等)

如何使用

使用 npx 运行

可以直接从 GitHub 存储库使用 npx 运行此包:

npx -y github:Mistizz/mcp-JapaneseTextAnalyzer

与 Claude for Desktop 一起使用

将以下内容添加到您的 Claude for Desktop 配置文件中:

Windows: %AppData%\Claude\claude_desktop_config.json

macOS: ~/Library/Application Support/Claude/claude_desktop_config.json

{ "mcpServers": { "JapaneseTextAnalyzer": { "command": "npx", "args": [ "-y", "github:Mistizz/mcp-JapaneseTextAnalyzer" ] } } }

与光标一起使用

对于 Cursor,将相同的设置添加到.cursor文件夹中的mcp.json文件。

Windows: %USERPROFILE%\.cursor\mcp.json

macOS/Linux: ~/.cursor/mcp.json

通用配置(适用于大多数环境):

{ "mcpServers": { "JapaneseTextAnalyzer": { "command": "npx", "args": [ "-y", "github:Mistizz/mcp-JapaneseTextAnalyzer" ] } } }

如果上述操作在 Windows 上不起作用,请尝试以下操作:

{ "mcpServers": { "JapaneseTextAnalyzer": { "command": "cmd", "args": [ "/c", "npx", "-y", "github:Mistizz/mcp-JapaneseTextAnalyzer" ] } } }

使用示例

直接统计文本中的字符数

このテキストの文字数を数えてください。

以日语模式统计文件中的单词数

C:\path\to\your\file.txt の単語数を日本語モードで数えてください。

统计 WSL/Linux 样式路径中的单词数

/c/Users/username/Documents/file.txt の単語数を日本語モードで数えてください。

仅统计文件名中的单词

README.md の単語数を英語モードで数えてください。

粘贴文本并统计日语单词

次のテキストの日本語の単語数を数えてください: 吾輩は猫である。名前はまだ無い。どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。

分析文本的详细语言特征

次のテキストを詳細に分析してください: 私は昨日、新しい本を買いました。とても面白そうな小説で、友人からの評判も良かったです。今週末にゆっくり読む予定です。

分析文件的详细语言特征

C:\path\to\your\file.txt を詳細に分析してください。

文件路径解析函数

当指定文件路径时,此工具可以灵活地查找文件:

  1. 如果指定了绝对路径,则按原样使用。
    • Windows 格式的绝对路径(例如C:\Users\username\Documents\file.txt
    • WSL/Linux 风格的绝对路径(例如/c/Users/username/Documents/file.txt )都会被自动检测和转换。
  2. 根据当前目录(工作目录)解析相对路径
  3. 根据主目录搜索( %USERPROFILE%$HOME
  4. 根据桌面目录搜索
  5. 按文档目录搜索

这意味着即使您只是指定一个文件名,如“README.md”,它也会自动在几个常用目录中搜索它,如果找到则使用它。此外,从 WSL 环境、Git Bash 等获取的路径( /c/Users/...格式)可以在 Windows 环境中按原样使用。

引擎盖下

该工具使用名为“kuromoji.js”的形态分析库来统计日语单词的数量。形态分析是自然语言处理中的一个基本过程,它将句子划分为最小的意义单位(词素)。

形态分析过程可能需要一些时间来初始化。特别是,第一次运行时可能需要一些时间,因为它需要加载字典数据。通过在服务器启动时初始化形态分析器,可以最大限度地减少工具运行时的延迟。

语言特征分析

“analyze_text”和“analyze_file”工具根据形态分析的结果计算文本的各种语言特征。这些指标包括:

  • 平均句子长度:每个句子的平均字符数。该值越高,文本可能越难阅读。
  • 每句话的词素数:每句话的平均词素数。它表示句子密度和句法复杂性。
  • 词性:显示文本中使用的词性(名词、动词、形容词等)的比例。
  • 粒子比例:显示某些粒子的使用频率并分析句子结构和流程。
  • 字种比例:显示平假名、片假名、汉字、字母数字的构成比例。
  • 词汇多样性:通过显示不同词汇与总词汇量的比例(类型/标记比例)来衡量词汇丰富度。
  • 片假名词汇比例:表示片假名词汇的使用频率,反映外来词、专业术语的流行程度,以及写作风格的随意性。
  • 敬语频率:表示敬语的使用频率,并衡量文本的礼貌程度或正式程度。
  • 平均标点符号数:每句话的平均标点符号数可以反映句子的划分和可读性。

通过结合这些指标,我们可以从多个角度分析文本的特点,评估其写作风格、可读性、专业性等。

执照

此 MCP 服务器根据 MIT 许可证提供。这意味着您可以自由使用、修改和分发该软件,但须遵守 MIT 许可的条款。欲了解更多信息,请参阅项目存储库中的 LICENSE 文件。

ID: a84hu4w43w