휘슬 MCP 서버

음성-텍스트 변환, 일기, 번역, 텍스트 요약을 위한 Whissle API 엔드포인트에 대한 액세스를 제공하는 Python 기반 서버입니다.

⚠️ 중요 참고 사항

이 서버는 비용이 발생할 수 있는 Whissle API 엔드포인트에 대한 액세스를 제공합니다.
API 호출을 수행하는 각 도구에는 비용 경고가 표시됩니다.
다음 지침을 따르세요.
1. 사용자가 명시적으로 요청할 때만 도구를 사용하십시오.
2. 오디오를 처리하는 도구의 경우 비용에 영향을 미치는 오디오 길이를 고려하세요.
3. 번역이나 요약과 같은 일부 작업에는 비용이 더 많이 들 수 있습니다.
4. 설명에 비용 경고가 없는 도구는 기존 데이터만 읽으므로 무료로 사용할 수 있습니다.

필수 조건

Python 3.8 이상
pip(Python 패키지 설치 프로그램)
Whissle API 인증 토큰

설치

저장소를 복제합니다.지엑스피1
가상 환경을 만들고 활성화하세요.
python -m venv venv source venv/bin/activate # On Windows, use: venv\Scripts\activate
필요한 패키지를 설치하세요:
pip install -e .
환경 변수 설정: 프로젝트 루트에 다음 내용이 포함된 .env 파일을 만듭니다.
WHISSLE_AUTH_TOKEN=insert_auth_token_here # Replace with your actual Whissle API token WHISSLE_MCP_BASE_PATH=/path/to/your/base/directory
⚠️ 중요 : 실제 토큰을 저장소에 커밋하지 마세요. .env 파일은 실수로 커밋하는 것을 방지하기 위해 .gitignore 파일에 포함됩니다.
Claude 통합 구성: claude_config.example.json``claude_config.json 으로 복사하고 경로를 업데이트합니다.
{ "mcpServers": { "Whissle": { "command": "/path/to/your/venv/bin/python", "args": [ "/path/to/whissle_mcp/server.py" ], "env": { "WHISSLE_AUTH_TOKEN": "insert_auth_token_here" } } } }
- /path/to/your/venv/bin/python 가상 환경의 Python 인터프리터에 대한 실제 경로로 바꾸세요.
- /path/to/whissle_mcp/server.py server.py 파일의 실제 경로로 바꾸세요.

구성

환경 변수

WHISSLE_AUTH_TOKEN : Whissle API 인증 토큰(필수)
- 이것은 절대로 공유되거나 버전 제어에 커밋되어서는 안 되는 민감한 자격 증명입니다.
- 유효한 토큰을 얻으려면 관리자에게 문의하세요.
- 로컬 .env 파일에 안전하게 저장하세요.
WHISSLE_MCP_BASE_PATH : 파일 작업을 위한 기본 디렉토리(선택 사항, 기본값은 사용자 데스크톱)

지원되는 오디오 형식

서버는 다음 오디오 형식을 지원합니다.

WAV(.wav)
MP3(.mp3)
OGG(.ogg)
FLAC(.flac)
M4A(.m4a)

파일 크기 제한

최대 파일 크기: 25MB
이 제한보다 큰 파일은 거부됩니다.

사용 가능한 도구

1. 음성을 텍스트로 변환

Whissle API를 사용하여 음성을 텍스트로 변환합니다.

response = speech_to_text(
    audio_file_path="path/to/audio.wav",
    model_name="en-NER",  # Default model
    timestamps=True,      # Include word timestamps
    boosted_lm_words=["specific", "terms"],  # Words to boost in recognition
    boosted_lm_score=80   # Score for boosted words (0-100)
)

2. 음성 일기

화자 식별 기능을 통해 음성을 텍스트로 변환합니다.

response = diarize_speech(
    audio_file_path="path/to/audio.wav",
    model_name="en-NER",  # Default model
    max_speakers=2,       # Maximum number of speakers to identify
    boosted_lm_words=["specific", "terms"],
    boosted_lm_score=80
)

3. 텍스트 번역

한 언어에서 다른 언어로 텍스트를 번역합니다.

response = translate_text(
    text="Hello, world!",
    source_language="en",
    target_language="es"
)

4. 텍스트 요약

LLM 모델을 사용하여 텍스트를 요약합니다.

response = summarize_text(
    content="Long text to summarize...",
    model_name="openai",  # Default model
    instruction="Provide a brief summary"  # Optional
)

5. ASR 모델 나열

사용 가능한 ASR 모델과 그 기능을 모두 나열하세요.

response = list_asr_models()

응답 형식

음성 대 텍스트 및 분할

{
    "transcript": "The transcribed text",
    "duration_seconds": 10.5,
    "language_code": "en",
    "timestamps": [
        {
            "word": "The",
            "startTime": 0,
            "endTime": 100,
            "confidence": 0.95
        }
    ],
    "diarize_output": [
        {
            "text": "The transcribed text",
            "speaker_id": 1,
            "start_timestamp": 0,
            "end_timestamp": 10.5
        }
    ]
}

번역

{
    "type": "text",
    "text": "Translation:\nTranslated text here"
}

요약

{
    "type": "text",
    "text": "Summary:\nSummarized text here"
}

오류 응답

{
    "error": "Error message here"
}

오류 처리

서버에는 다음과 같은 강력한 오류 처리 기능이 포함되어 있습니다.

HTTP 500 오류에 대한 자동 재시도
다양한 실패 시나리오에 대한 자세한 오류 메시지
파일 검증(존재 여부, 크기, 형식)
인증 확인

일반적인 오류 유형:

HTTP 500: 서버 오류(재시도 메커니즘 포함)
HTTP 413: 파일이 너무 큽니다.
HTTP 415: 지원되지 않는 파일 형식
HTTP 401/403: 인증 오류

서버 실행

서버를 시작합니다:
mcp serve
서버는 기본 MCP 포트(일반적으로 8000)에서 사용할 수 있습니다.

테스트

모든 도구의 기능을 검증하기 위한 테스트 스크립트가 제공됩니다.

python test_whissle.py

테스트 스크립트는 다음과 같습니다.

인증 토큰 확인
사용 가능한 모든 도구를 테스트하세요
각 작업의 자세한 출력을 제공합니다
오류를 우아하게 처리하세요

지원하다

문제나 질문이 있으시면 다음을 참조하세요.

구체적인 내용은 오류 메시지를 확인하세요.
인증 토큰을 확인하세요
오디오 파일이 요구 사항을 충족하는지 확인하세요.
API 관련 문제는 Whissle 지원팀에 문의하세요.

특허

[여기에 라이센스 정보를 추가하세요]

Whissle MCP Server

Integrations