ishika_mcp

crewAI
docs
ko
concepts

llms.mdx•51.2 KiB

--- title: 'LLMs' description: 'CrewAI 프로젝트에서 대형 언어 모델(LLM)을 구성하고 사용하는 방법에 대한 종합 안내서' icon: 'microchip-ai' mode: "wide" --- ## 개요 CrewAI는 LiteLLM을 통해 다양한 LLM 제공업체와 통합되어, 특정 사용 사례에 맞는 올바른 모델을 선택할 수 있는 유연성을 제공합니다. 이 가이드는 CrewAI 프로젝트에서 다양한 LLM 제공업체를 구성하고 사용하는 방법을 이해하는 데 도움이 될 것입니다. ## LLM이란 무엇인가요? Large Language Models(LLM)는 CrewAI 에이전트의 핵심 지능입니다. 에이전트가 문맥을 이해하고, 결정을 내리며, 인간과 유사한 응답을 생성할 수 있도록 합니다. 알아두어야 할 내용은 다음과 같습니다: <CardGroup cols={2}> <Card title="LLM 기본" icon="brain"> Large Language Models는 방대한 양의 텍스트 데이터로 학습된 AI 시스템입니다. CrewAI 에이전트의 지능을 구동하여, 인간과 유사한 텍스트를 이해하고 생성할 수 있도록 합니다. </Card> <Card title="컨텍스트 윈도우" icon="window"> 컨텍스트 윈도우는 LLM이 한 번에 처리할 수 있는 텍스트 양을 결정합니다. 더 큰 윈도우(예: 128K 토큰)는 더 많은 문맥을 다룰 수 있지만, 비용과 속도 면에서 더 부담이 될 수 있습니다. </Card> <Card title="Temperature" icon="temperature-three-quarters"> Temperature(0.0에서 1.0)는 응답의 무작위성을 조절합니다. 낮은 값(예: 0.2)은 더 집중적이고 결정적인 결과를, 높은 값(예: 0.8)은 창의성과 다양성을 높입니다. </Card> <Card title="제공자 선택" icon="server"> 각 LLM 제공자(예: OpenAI, Anthropic, Google)는 다양한 기능, 가격, 특성을 가진 모델을 제공합니다. 정확성, 속도, 비용 등 요구 사항에 따라 선택하세요. </Card> </CardGroup> ## LLM 설정하기 CrewAI 코드 내에는 사용할 모델을 지정할 수 있는 여러 위치가 있습니다. 모델을 지정한 후에는 사용하는 각 모델 제공자에 대한 설정(예: API 키)을 제공해야 합니다. 각 제공자에 맞는 [제공자 설정 예제](#provider-configuration-examples) 섹션을 참고하세요. <Tabs> <Tab title="1. 환경 변수"> 가장 간단하게 시작할 수 있는 방법입니다. `.env` 파일이나 앱 코드에서 환경 변수로 직접 모델을 설정할 수 있습니다. `crewai create`를 사용해 프로젝트를 부트스트랩했다면 이미 설정되어 있을 수 있습니다. ```bash .env MODEL=model-id # e.g. gpt-4o, gemini-2.0-flash, claude-3-sonnet-... # 반드시 여기에서 API 키도 설정하세요. 아래 제공자 # 섹션을 참고하세요. ``` <Warning> API 키를 절대 버전 관리 시스템에 커밋하지 마세요. 환경 파일(.env)이나 시스템의 비밀 관리 기능을 사용하세요. </Warning> </Tab> <Tab title="2. YAML 구성"> 에이전트 구성을 정의하는 YAML 파일을 만드세요. 이 방법은 버전 관리와 팀 협업에 적합합니다: ```yaml agents.yaml {6} researcher: role: Research Specialist goal: Conduct comprehensive research and analysis backstory: A dedicated research professional with years of experience verbose: true llm: provider/model-id # e.g. openai/gpt-4o, google/gemini-2.0-flash, anthropic/claude... # (아래 제공자 구성 예제 참고) ``` <Info> YAML 구성의 장점: - 에이전트 설정을 버전 관리할 수 있습니다. - 다양한 모델 간 전환이 쉽습니다. - 팀원들과 구성을 공유할 수 있습니다. - 모델 선택과 목적을 문서화할 수 있습니다. </Info> </Tab> <Tab title="3. 직접 코드 작성"> 최대한 유연하게 LLM을 Python 코드에서 직접 구성할 수 있습니다: ```python {4,8} from crewai import LLM # 기본 설정 llm = LLM(model="model-id-here") # gpt-4o, gemini-2.0-flash, anthropic/claude... # 자세한 파라미터로 고급 설정 llm = LLM( model="model-id-here", # gpt-4o, gemini-2.0-flash, anthropic/claude... temperature=0.7, # 더욱 창의적인 결과를 원할 때 높게 설정 timeout=120, # 응답을 기다릴 최대 초 max_tokens=4000, # 응답의 최대 길이 top_p=0.9, # 누클리어스 샘플링 파라미터 frequency_penalty=0.1 , # 반복 줄이기 presence_penalty=0.1, # 주제 다양성 높이기 response_format={"type": "json"}, # 구조화된 출력용 seed=42 # 결과 재현성 확보용 ) ``` <Info> 파라미터 설명: - `temperature`: 랜덤성 제어 (0.0-1.0) - `timeout`: 응답 대기 최대 시간 - `max_tokens`: 응답 길이 제한 - `top_p`: 샘플링 시 temperature의 대체값 - `frequency_penalty`: 단어 반복 감소 - `presence_penalty`: 새로운 주제 생성 유도 - `response_format`: 출력 구조 지정 - `seed`: 일관된 출력 보장 </Info> </Tab> </Tabs> ## 공급자 구성 예시 CrewAI는 고유한 기능, 인증 방법, 모델 역량을 제공하는 다양한 LLM 공급자를 지원합니다. 이 섹션에서는 프로젝트의 요구에 가장 적합한 LLM을 선택, 구성, 최적화하는 데 도움이 되는 자세한 예시를 제공합니다. <AccordionGroup> <Accordion title="OpenAI"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code # Required OPENAI_API_KEY=sk-... # Optional OPENAI_API_BASE=<custom-base-url> OPENAI_ORGANIZATION=<your-org-id> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code from crewai import LLM llm = LLM( model="openai/gpt-4", # call model by provider/model_name temperature=0.8, max_tokens=150, top_p=0.9, frequency_penalty=0.1, presence_penalty=0.1, stop=["END"], seed=42 ) ``` OpenAI는 다양한 모델과 기능을 제공하는 대표적인 LLM 공급자 중 하나입니다. | 모델 | 컨텍스트 윈도우 | 최적 용도 | |-------------------|-------------------|-----------------------------------------------| | GPT-4 | 8,192 토큰 | 고정확도 작업, 복잡한 추론 | | GPT-4 Turbo | 128,000 토큰 | 장문 콘텐츠, 문서 분석 | | GPT-4o & GPT-4o-mini | 128,000 토큰 | 비용 효율적인 대용량 컨텍스트 처리 | | o3-mini | 200,000 토큰 | 빠른 추론, 복잡한 추론 | | o1-mini | 128,000 토큰 | 빠른 추론, 복잡한 추론 | | o1-preview | 128,000 토큰 | 빠른 추론, 복잡한 추론 | | o1 | 200,000 토큰 | 빠른 추론, 복잡한 추론 | **Responses API:** OpenAI는 Chat Completions(기본값)와 새로운 Responses API, 두 가지 API를 제공합니다. Responses API는 네이티브 멀티모달 지원을 기반으로 처음부터 설계되었으며, 텍스트, 이미지, 오디오, 함수 호출이 모두 일급 객체입니다. 추론 모델에서 더 나은 성능을 제공하고 자동 체이닝 및 내장 도구와 같은 추가 기능을 지원합니다. ```python Code from crewai import LLM # Chat Completions 대신 Responses API 사용 llm = LLM( model="openai/gpt-4o", api="responses", # Responses API 활성화 store=True, # 멀티턴을 위한 응답 저장 (선택사항) auto_chain=True, # 추론 모델용 자동 체이닝 (선택사항) ) ``` **Responses API 파라미터:** - `api`: Responses API를 사용하려면 `"responses"`로 설정 (기본값: `"completions"`) - `instructions`: 시스템 레벨 지침 (Responses API 전용) - `store`: 멀티턴 대화를 위한 응답 저장 여부 - `previous_response_id`: 멀티턴을 위한 이전 응답 ID - `include`: 응답에 포함할 추가 데이터 (예: `["reasoning.encrypted_content"]`) - `builtin_tools`: OpenAI 내장 도구 목록: `"web_search"`, `"file_search"`, `"code_interpreter"`, `"computer_use"` - `parse_tool_outputs`: 파싱된 내장 도구 출력과 함께 구조화된 `ResponsesAPIResult` 반환 - `auto_chain`: 멀티턴 대화를 위한 응답 ID 자동 추적 및 사용 - `auto_chain_reasoning`: ZDR(제로 데이터 보존) 준수를 위한 암호화된 추론 항목 추적 <Tip> 새 프로젝트, 특히 추론 모델(o1, o3, o4)을 사용하거나 [파일](/ko/concepts/files)에 대한 네이티브 멀티모달 지원이 필요한 경우 Responses API를 사용하세요. </Tip> </Accordion> <Accordion title="Meta-Llama"> Meta의 Llama API는 Meta의 대형 언어 모델 패밀리 접근을 제공합니다. API는 [Meta Llama API](https://llama.developer.meta.com?utm_source=partner-crewai&utm_medium=website)에서 사용할 수 있습니다. `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code # Meta Llama API Key Configuration LLAMA_API_KEY=LLM|your_api_key_here ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code from crewai import LLM # Meta Llama LLM 초기화 llm = LLM( model="meta_llama/Llama-4-Scout-17B-16E-Instruct-FP8", temperature=0.8, stop=["END"], seed=42 ) ``` https://llama.developer.meta.com/docs/models/ 에 기재된 모든 모델이 지원됩니다. | 모델 ID | 입력 컨텍스트 길이 | 출력 컨텍스트 길이 | 입력 모달리티 | 출력 모달리티 | | ------- | ------------------ | ------------------ | ---------------- | ---------------- | | `meta_llama/Llama-4-Scout-17B-16E-Instruct-FP8` | 128k | 4028 | 텍스트, 이미지 | 텍스트 | | `meta_llama/Llama-4-Maverick-17B-128E-Instruct-FP8` | 128k | 4028 | 텍스트, 이미지 | 텍스트 | | `meta_llama/Llama-3.3-70B-Instruct` | 128k | 4028 | 텍스트 | 텍스트 | | `meta_llama/Llama-3.3-8B-Instruct` | 128k | 4028 | 텍스트 | 텍스트 | </Accordion> <Accordion title="Anthropic"> ```toml Code # Required ANTHROPIC_API_KEY=sk-ant-... # Optional ANTHROPIC_API_BASE=<custom-base-url> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="anthropic/claude-3-sonnet-20240229-v1:0", temperature=0.7 ) ``` </Accordion> <Accordion title="Google (Gemini API)"> `.env` 파일에 API 키를 설정하십시오. 키가 필요하거나 기존 키를 찾으려면 [AI Studio](https://aistudio.google.com/apikey)를 확인하세요. ```toml .env # Gemini API 사용 시 (다음 중 하나) GOOGLE_API_KEY=<your-api-key> GEMINI_API_KEY=<your-api-key> # Vertex AI Express 모드 사용 시 (API 키 인증) GOOGLE_GENAI_USE_VERTEXAI=true GOOGLE_API_KEY=<your-api-key> # Vertex AI 서비스 계정 사용 시 GOOGLE_CLOUD_PROJECT=<your-project-id> GOOGLE_CLOUD_LOCATION=<location> # 기본값: us-central1 ``` **기본 사용법:** ```python Code from crewai import LLM llm = LLM( model="gemini/gemini-2.0-flash", temperature=0.7, ) ``` **Vertex AI Express 모드 (API 키 인증):** Vertex AI Express 모드를 사용하면 서비스 계정 자격 증명 대신 간단한 API 키 인증으로 Vertex AI를 사용할 수 있습니다. Vertex AI를 시작하는 가장 빠른 방법입니다. Express 모드를 활성화하려면 `.env` 파일에 두 환경 변수를 모두 설정하세요: ```toml .env GOOGLE_GENAI_USE_VERTEXAI=true GOOGLE_API_KEY=<your-api-key> ``` 그런 다음 평소처럼 LLM을 사용하세요: ```python Code from crewai import LLM llm = LLM( model="gemini/gemini-2.0-flash", temperature=0.7 ) ``` <Info> Express 모드 API 키를 받으려면: - 신규 Google Cloud 사용자: [Express 모드 API 키](https://cloud.google.com/vertex-ai/generative-ai/docs/start/quickstart?usertype=apikey) 받기 - 기존 Google Cloud 사용자: [서비스 계정에 바인딩된 Google Cloud API 키](https://cloud.google.com/docs/authentication/api-keys) 받기 자세한 내용은 [Vertex AI Express 모드 문서](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/start/quickstart?usertype=apikey)를 참조하세요. </Info> ### Gemini 모델 Google은 다양한 용도에 최적화된 강력한 모델을 제공합니다. | 모델 | 컨텍스트 윈도우 | 최적 용도 | |----------------------------------|-----------------|------------------------------------------------------------------------| | gemini-2.5-flash-preview-04-17 | 1M 토큰 | 적응형 사고, 비용 효율성 | | gemini-2.5-pro-preview-05-06 | 1M 토큰 | 향상된 사고 및 추론, 멀티모달 이해, 고급 코딩 등 | | gemini-2.0-flash | 1M 토큰 | 차세대 기능, 속도, 사고, 실시간 스트리밍 | | gemini-2.0-flash-lite | 1M 토큰 | 비용 효율성과 낮은 대기 시간 | | gemini-1.5-flash | 1M 토큰 | 밸런스 잡힌 멀티모달 모델, 대부분의 작업에 적합 | | gemini-1.5-flash-8B | 1M 토큰 | 가장 빠르고, 비용 효율적, 고빈도 작업에 적합 | | gemini-1.5-pro | 2M 토큰 | 최고의 성능, 논리적 추론, 코딩, 창의적 협업 등 다양한 추론 작업에 적합 | 전체 모델 목록은 [Gemini 모델 문서](https://ai.google.dev/gemini-api/docs/models)에서 확인할 수 있습니다. ### Gemma Gemini API를 통해 Google 인프라에서 호스팅되는 [Gemma 모델](https://ai.google.dev/gemma/docs)도 API 키를 이용해 사용할 수 있습니다. | 모델 | 컨텍스트 윈도우 | |----------------|----------------| | gemma-3-1b-it | 32k 토큰 | | gemma-3-4b-it | 32k 토큰 | | gemma-3-12b-it | 32k 토큰 | | gemma-3-27b-it | 128k 토큰 | </Accordion> <Accordion title="Google (Vertex AI)"> Google Cloud Console에서 자격증명을 받아 JSON 파일로 저장한 후, 다음 코드로 로드하세요: ```python Code import json file_path = 'path/to/vertex_ai_service_account.json' # Load the JSON file with open(file_path, 'r') as file: vertex_credentials = json.load(file) # Convert the credentials to a JSON string vertex_credentials_json = json.dumps(vertex_credentials) ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code from crewai import LLM llm = LLM( model="gemini-1.5-pro-latest", # or vertex_ai/gemini-1.5-pro-latest temperature=0.7, vertex_credentials=vertex_credentials_json ) ``` Google은 다양한 용도에 최적화된 강력한 모델들을 제공합니다: | 모델 | 컨텍스트 윈도우 | 최적 용도 | |----------------------------------|-----------------|------------------------------------------------------------------------| | gemini-2.5-flash-preview-04-17 | 1M 토큰 | 적응형 사고, 비용 효율성 | | gemini-2.5-pro-preview-05-06 | 1M 토큰 | 향상된 사고 및 추론, 멀티모달 이해, 고급 코딩 등 | | gemini-2.0-flash | 1M 토큰 | 차세대 기능, 속도, 사고, 실시간 스트리밍 | | gemini-2.0-flash-lite | 1M 토큰 | 비용 효율성과 낮은 대기 시간 | | gemini-1.5-flash | 1M 토큰 | 밸런스 잡힌 멀티모달 모델, 대부분의 작업에 적합 | | gemini-1.5-flash-8B | 1M 토큰 | 가장 빠르고, 비용 효율적, 고빈도 작업에 적합 | | gemini-1.5-pro | 2M 토큰 | 최고의 성능, 논리적 추론, 코딩, 창의적 협업 등 다양한 추론 작업에 적합 | </Accordion> <Accordion title="Azure"> ```toml Code # Required AZURE_API_KEY=<your-api-key> AZURE_API_BASE=<your-resource-url> AZURE_API_VERSION=<api-version> # Optional AZURE_AD_TOKEN=<your-azure-ad-token> AZURE_API_TYPE=<your-azure-api-type> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="azure/gpt-4", api_version="2023-05-15" ) ``` </Accordion> <Accordion title="AWS Bedrock"> ```toml Code AWS_ACCESS_KEY_ID=<your-access-key> AWS_SECRET_ACCESS_KEY=<your-secret-key> AWS_DEFAULT_REGION=<your-region> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="bedrock/anthropic.claude-3-sonnet-20240229-v1:0" ) ``` Amazon Bedrock을 사용하기 전에, 환경에 boto3가 설치되어 있는지 확인하십시오. [Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/userguide/models-regions.html)은 대표적인 AI 회사들의 여러 파운데이션 모델에 통합 API를 통해 접근할 수 있는 매니지드 서비스로, 안전하고 책임감 있는 AI 응용프로그램 개발을 가능하게 해줍니다. | 모델 | 컨텍스트 윈도우 | 최적 용도 | |-----------------------------|--------------------|------------------------------------------------------------------------| | Amazon Nova Pro | 최대 300k 토큰 | 다양한 작업에서 정확성, 속도, 비용을 균형 있게 제공하는 고성능 모델 | | Amazon Nova Micro | 최대 128k 토큰 | 텍스트 전용, 최소 레이턴시 응답에 최적화된 비용 효율적 고성능 모델 | | Amazon Nova Lite | 최대 300k 토큰 | 이미지, 비디오, 텍스트를 아우르는 실시간 멀티모달 처리 | | Claude 3.7 Sonnet | 최대 128k 토큰 | 복잡한 추론, 코딩 및 AI 에이전트에 적합한 고성능 모델 | | Claude 3.5 Sonnet v2 | 최대 200k 토큰 | 소프트웨어 공학, 에이전트 기능, 컴퓨터 상호작용에 특화된 최신 모델 | | Claude 3.5 Sonnet | 최대 200k 토큰 | 다양한 작업에 탁월한 지능 및 추론 제공, 최적의 속도·비용 모델 | | Claude 3.5 Haiku | 최대 200k 토큰 | 빠르고 컴팩트한 멀티모달 모델, 신속하고 자연스러운 대화에 최적 | | Claude 3 Sonnet | 최대 200k 토큰 | 지능과 속도의 균형 잡힌 멀티모달 모델, 대규모 배포에 적합 | | Claude 3 Haiku | 최대 200k 토큰 | 컴팩트한 고속 멀티모달 모델, 신속한 응답과 자연스러운 대화형 상호작용 | | Claude 3 Opus | 최대 200k 토큰 | 인간 같은 추론과 우수한 문맥 이해로 복잡한 작업 수행 | | Claude 2.1 | 최대 200k 토큰 | 확장된 컨텍스트, 신뢰도 개선, 로봇화 감소, 장문 및 RAG 적용에 적합 | | Claude | 최대 100k 토큰 | 복잡한 대화, 창의적 콘텐츠 생성, 정교한 지시 수행에 탁월 | | Claude Instant | 최대 100k 토큰 | 일상 대화, 분석, 요약, 문서 Q&A 등 빠르고 비용 효율적인 모델 | | Llama 3.1 405B Instruct | 최대 128k 토큰 | 챗봇, 코딩, 도메인 특화 작업을 위한 합성 데이터 생성 및 추론용 첨단 LLM | | Llama 3.1 70B Instruct | 최대 128k 토큰 | 복잡한 대화, 우수한 문맥 및 추론, 텍스트 생성 능력 강화 | | Llama 3.1 8B Instruct | 최대 128k 토큰 | 우수한 언어 이해, 추론, 텍스트 생성 기능의 최첨단 모델 | | Llama 3 70B Instruct | 최대 8k 토큰 | 복잡한 대화, 우수한 문맥 및 추론, 텍스트 생성 기능 강화 | | Llama 3 8B Instruct | 최대 8k 토큰 | 첨단 언어 이해력, 추론, 텍스트 생성이 가능한 최첨단 LLM | | Titan Text G1 - Lite | 최대 4k 토큰 | 영어 과제 및 요약, 콘텐츠 생성에 최적화된 경량 비용 효율적 모델 | | Titan Text G1 - Express | 최대 8k 토큰 | 일반 언어, 대화, RAG 지원, 영어 및 100여 개 언어 지원 | | Cohere Command | 최대 4k 토큰 | 사용자의 명령 수행, 실질적 기업 솔루션 제공에 특화된 모델 | | Jurassic-2 Mid | 최대 8,191 토큰 | 다양한 언어 과제(Q&A, 요약, 생성 등)에 적합한 품질-비용 균형 모델 | | Jurassic-2 Ultra | 최대 8,191 토큰 | 고급 텍스트 생성과 이해, 분석 및 콘텐츠 제작 등 복잡한 작업 수행 | | Jamba-Instruct | 최대 256k 토큰 | 비용 효율적인 대용량 문맥 창작, 요약, Q&A에 최적화된 모델 | | Mistral 7B Instruct | 최대 32k 토큰 | 명령을 따르고, 요청을 완성하며, 창의적 텍스트를 생성하는 LLM | | Mistral 8x7B Instruct | 최대 32k 토큰 | 명령 및 요청 완성, 창의적 텍스트 생성이 가능한 MOE LLM | </Accordion> <Accordion title="Amazon SageMaker"> ```toml Code AWS_ACCESS_KEY_ID=<your-access-key> AWS_SECRET_ACCESS_KEY=<your-secret-key> AWS_DEFAULT_REGION=<your-region> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="sagemaker/<my-endpoint>" ) ``` </Accordion> <Accordion title="Mistral"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code MISTRAL_API_KEY=<your-api-key> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="mistral/mistral-large-latest", temperature=0.7 ) ``` </Accordion> <Accordion title="Nvidia NIM"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code NVIDIA_API_KEY=<your-api-key> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="nvidia_nim/meta/llama3-70b-instruct", temperature=0.7 ) ``` Nvidia NIM은 일반 목적 작업부터 특수 목적 응용까지 다양한 용도를 위한 모델 제품군을 제공합니다. | 모델 | 컨텍스트 윈도우 | 최적 용도 | |------------------------------------------------------------------------|----------------|---------------------------------------------------------------------| | nvidia/mistral-nemo-minitron-8b-8k-instruct | 8,192 토큰 | 챗봇, 가상 비서, 콘텐츠 생성을 위한 최신형 소형 언어 모델 | | nvidia/nemotron-4-mini-hindi-4b-instruct | 4,096 토큰 | 힌디-영어 SLM, 힌디 언어 전용 온디바이스 추론 | | nvidia/llama-3.1-nemotron-70b-instruct | 128k 토큰 | 더욱 도움이 되는 답변을 위해 커스터마이즈됨 | | nvidia/llama3-chatqa-1.5-8b | 128k 토큰 | 챗봇, 검색엔진용 맥락 인식 응답 생성에 탁월한 고급 LLM | | nvidia/llama3-chatqa-1.5-70b | 128k 토큰 | 챗봇, 검색엔진용 맥락 인식 응답 생성에 탁월한 고급 LLM | | nvidia/vila | 128k 토큰 | 텍스트/이미지/비디오 이해 및 정보성 응답 생성을 지원하는 멀티모달 모델 | | nvidia/neva-22 | 4,096 토큰 | 텍스트/이미지 이해 및 정보성 응답 생성을 지원하는 멀티모달 모델 | | nvidia/nemotron-mini-4b-instruct | 8,192 토큰 | 일반 목적 작업 | | nvidia/usdcode-llama3-70b-instruct | 128k 토큰 | OpenUSD 지식 질의 응답, USD-Python 코드 생성이 가능한 최신 LLM | | nvidia/nemotron-4-340b-instruct | 4,096 토큰 | 실제 데이터를 모사하는 다양한 합성 데이터 생성 | | meta/codellama-70b | 100k 토큰 | 자연어 → 코드 및 코드 → 자연어 전환 가능한 LLM | | meta/llama2-70b | 4,096 토큰 | 텍스트, 코드 생성에 최적화된 최첨단 대형 언어 모델 | | meta/llama3-8b-instruct | 8,192 토큰 | 최첨단 언어 이해 및 추론, 텍스트 생성 기능 모델 | | meta/llama3-70b-instruct | 8,192 토큰 | 복잡한 대화, 우수한 문맥 및 추론, 텍스트 생성 | | meta/llama-3.1-8b-instruct | 128k 토큰 | 최첨단 언어 이해 및 추론, 텍스트 생성 기능의 첨단 모델 | | meta/llama-3.1-70b-instruct | 128k 토큰 | 복잡한 대화, 우수한 문맥 및 추론, 텍스트 생성 | | meta/llama-3.1-405b-instruct | 128k 토큰 | 챗봇, 코딩, 도메인 특화 작업 합성 데이터 생성 및 추론 | | meta/llama-3.2-1b-instruct | 128k 토큰 | 최첨단 소형 언어 이해, 추론, 텍스트 생성 모델 | | meta/llama-3.2-3b-instruct | 128k 토큰 | 최첨단 소형 언어 이해, 추론, 텍스트 생성 | | meta/llama-3.2-11b-vision-instruct | 128k 토큰 | 최첨단 소형 언어 이해, 추론, 텍스트 생성 | | meta/llama-3.2-90b-vision-instruct | 128k 토큰 | 최첨단 소형 언어 이해, 추론, 텍스트 생성 | | google/gemma-7b | 8,192 토큰 | 문자열의 이해, 변환, 코드 생성을 지원하는 최첨단 텍스트 생성 모델 | | google/gemma-2b | 8,192 토큰 | 문자열의 이해, 변환, 코드 생성을 지원하는 최첨단 텍스트 생성 모델 | | google/codegemma-7b | 8,192 토큰 | 코드 생성 및 보완에 특화된 Google Gemma-7B 기반 모델 | | google/codegemma-1.1-7b | 8,192 토큰 | 코드 생성, 보완, 추론, 명령 수행에 강점을 가진 고급 프로그래밍 모델 | | google/recurrentgemma-2b | 8,192 토큰 | 긴 시퀀스 생성 시 빠른 추론을 가능케 하는 순환 아키텍처 LLM | | google/gemma-2-9b-it | 8,192 토큰 | 문자열의 이해, 변환, 코드 생성을 지원하는 최첨단 텍스트 생성 모델 | | google/gemma-2-27b-it | 8,192 토큰 | 문자열의 이해, 변환, 코드 생성을 지원하는 최첨단 텍스트 생성 모델 | | google/gemma-2-2b-it | 8,192 토큰 | 문자열의 이해, 변환, 코드 생성을 지원하는 최첨단 텍스트 생성 모델 | | google/deplot | 512 토큰 | 플롯 이미지를 표로 변환하는 원샷 비주얼 언어 이해 모델 | | google/paligemma | 8,192 토큰 | 텍스트, 이미지 입력 이해 및 정보성 응답 생성에 능한 비전 언어 모델 | | mistralai/mistral-7b-instruct-v0.2 | 32k 토큰 | 명령을 따르고, 요청을 완성하며, 창의적 텍스트 생성이 가능한 LLM | | mistralai/mixtral-8x7b-instruct-v0.1 | 8,192 토큰 | 명령 및 요청 완성, 창의 텍스트 생성이 가능한 MOE LLM | | mistralai/mistral-large | 4,096 토큰 | 실제 데이터 특성을 모방하는 다양한 합성 데이터 생성 | | mistralai/mixtral-8x22b-instruct-v0.1 | 8,192 토큰 | 실제 데이터 특성을 모방하는 다양한 합성 데이터 생성 | | mistralai/mistral-7b-instruct-v0.3 | 32k 토큰 | 명령을 따르고, 요청을 완성하며, 창의적 텍스트 생성이 가능한 LLM | | nv-mistralai/mistral-nemo-12b-instruct | 128k 토큰 | 추론, 코드, 다국어 작업에 적합한 최첨단 언어 모델; 단일 GPU에서 구동 | | mistralai/mamba-codestral-7b-v0.1 | 256k 토큰 | 광범위한 프로그래밍 언어 및 작업에서 코드 작성 및 상호작용 전용 모델 | | microsoft/phi-3-mini-128k-instruct | 128K 토큰 | 수학·논리 추론에 강한 경량 최신 공개 LLM | | microsoft/phi-3-mini-4k-instruct | 4,096 토큰 | 수학·논리 추론에 강한 경량 최신 공개 LLM | | microsoft/phi-3-small-8k-instruct | 8,192 토큰 | 수학·논리 추론에 강한 경량 최신 공개 LLM | | microsoft/phi-3-small-128k-instruct | 128K 토큰 | 수학·논리 추론에 강한 경량 최신 공개 LLM | | microsoft/phi-3-medium-4k-instruct | 4,096 토큰 | 수학·논리 추론에 강한 경량 최신 공개 LLM | | microsoft/phi-3-medium-128k-instruct | 128K 토큰 | 수학·논리 추론에 강한 경량 최신 공개 LLM | | microsoft/phi-3.5-mini-instruct | 128K 토큰 | 지연, 메모리/컴퓨트 한계 환경에서 AI 응용프로그램 구동 가능한 다국어 LLM | | microsoft/phi-3.5-moe-instruct | 128K 토큰 | 연산 효율적 콘텐츠 생성을 위한 Mixture of Experts 기반 첨단 LLM | | microsoft/kosmos-2 | 1,024 토큰 | 이미지의 시각적 요소 이해 및 추론을 위한 획기적 멀티모달 모델 | | microsoft/phi-3-vision-128k-instruct | 128k 토큰 | 이미지에서 고품질 추론이 가능한 최첨단 공개 멀티모달 모델 | | microsoft/phi-3.5-vision-instruct | 128k 토큰 | 이미지에서 고품질 추론이 가능한 최첨단 공개 멀티모달 모델 | | databricks/dbrx-instruct | 12k 토큰 | 언어 이해, 코딩, RAG에 최신 성능을 제공하는 범용 LLM | | snowflake/arctic | 1,024 토큰 | SQL 생성 및 코딩에 집중한 기업용 고효율 추론 모델 | | aisingapore/sea-lion-7b-instruct | 4,096 토큰 | 동남아 언어 및 문화 다양성을 반영하는 LLM | | ibm/granite-8b-code-instruct | 4,096 토큰 | 소프트웨어 프로그래밍 LLM, 코드 생성, 완성, 설명, 멀티턴 전환 | | ibm/granite-34b-code-instruct | 8,192 토큰 | 소프트웨어 프로그래밍 LLM, 코드 생성, 완성, 설명, 멀티턴 전환 | | ibm/granite-3.0-8b-instruct | 4,096 토큰 | RAG, 요약, 분류, 코드, 에이전틱AI 지원 첨단 소형 언어 모델 | | ibm/granite-3.0-3b-a800m-instruct | 4,096 토큰 | RAG, 요약, 엔터티 추출, 분류에 최적화된 고효율 Mixture of Experts 모델 | | mediatek/breeze-7b-instruct | 4,096 토큰 | 실제 데이터 특성을 모방하는 다양한 합성 데이터 생성 | | upstage/solar-10.7b-instruct | 4,096 토큰 | 지시 따르기, 추론, 수학 등에서 뛰어난 NLP 작업 수행 | | writer/palmyra-med-70b-32k | 32k 토큰 | 의료 분야에서 정확하고 문맥에 맞는 응답 생성에 선도적인 LLM | | writer/palmyra-med-70b | 32k 토큰 | 의료 분야에서 정확하고 문맥에 맞는 응답 생성에 선도적인 LLM | | writer/palmyra-fin-70b-32k | 32k 토큰 | 금융 분석, 보고, 데이터 처리에 특화된 LLM | | 01-ai/yi-large | 32k 토큰 | 영어, 중국어로 훈련, 챗봇 및 창의적 글쓰기 등 다양한 작업에 사용 | | deepseek-ai/deepseek-coder-6.7b-instruct | 2k 토큰 | 고급 코드 생성, 완성, 인필링 등의 기능을 제공하는 강력한 코딩 모델 | | rakuten/rakutenai-7b-instruct | 1,024 토큰 | 언어 이해, 추론, 텍스트 생성이 탁월한 최첨단 LLM | | rakuten/rakutenai-7b-chat | 1,024 토큰 | 언어 이해, 추론, 텍스트 생성이 탁월한 최첨단 LLM | | baichuan-inc/baichuan2-13b-chat | 4,096 토큰 | 중국어 및 영어 대화, 코딩, 수학, 지시 따르기, 퀴즈 풀이 지원 | </Accordion> <Accordion title="Local NVIDIA NIM Deployed using WSL2"> NVIDIA NIM을 이용하면 Windows 기기에서 WSL2(Windows Subsystem for Linux)를 통해 강력한 LLM을 로컬로 실행할 수 있습니다. 이 방식은 Nvidia GPU를 활용하여 프라이빗하고, 안전하며, 비용 효율적인 AI 추론을 클라우드 서비스에 의존하지 않고 구현할 수 있습니다. 데이터 프라이버시, 오프라인 기능이 필요한 개발, 테스트, 또는 프로덕션 환경에 최적입니다. 로컬 NVIDIA NIM 모델 설치 단계별 가이드는 다음과 같습니다: 1. [NVIDIA 홈페이지](https://docs.nvidia.com/nim/wsl2/latest/getting-started.html)의 설치 안내를 따르세요. 2. 로컬 모델을 설치합니다. Llama 3.1-8b는 [여기](https://build.nvidia.com/meta/llama-3_1-8b-instruct/deploy) 안내를 참조하세요. 3. crewai 로컬 모델을 구성하세요: ```python Code from crewai.llm import LLM local_nvidia_nim_llm = LLM( model="openai/meta/llama-3.1-8b-instruct", # it's an openai-api compatible model base_url="http://localhost:8000/v1", api_key="<your_api_key|any text if you have not configured it>", # api_key is required, but you can use any text ) # 그런 다음 crew에서 사용할 수 있습니다: @CrewBase class MyCrew(): # ... @agent def researcher(self) -> Agent: return Agent( config=self.agents_config['researcher'], # type: ignore[index] llm=local_nvidia_nim_llm ) # ... ``` </Accordion> <Accordion title="Groq"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code GROQ_API_KEY=<your-api-key> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="groq/llama-3.2-90b-text-preview", temperature=0.7 ) ``` | 모델 | 컨텍스트 윈도우 | 최적 용도 | |-----------------|-------------------|----------------------------------| | Llama 3.1 70B/8B| 131,072 토큰 | 고성능, 대용량 문맥 작업 | | Llama 3.2 Series| 8,192 토큰 | 범용 작업 | | Mixtral 8x7B | 32,768 토큰 | 성능과 문맥의 균형 | </Accordion> <Accordion title="IBM watsonx.ai"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code # Required WATSONX_URL=<your-url> WATSONX_APIKEY=<your-apikey> WATSONX_PROJECT_ID=<your-project-id> # Optional WATSONX_TOKEN=<your-token> WATSONX_DEPLOYMENT_SPACE_ID=<your-space-id> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="watsonx/meta-llama/llama-3-1-70b-instruct", base_url="https://api.watsonx.ai/v1" ) ``` </Accordion> <Accordion title="Ollama (Local LLMs)"> 1. Ollama 설치: [ollama.ai](https://ollama.ai/) 2. 모델 실행: `ollama run llama3` 3. 구성: ```python Code llm = LLM( model="ollama/llama3:70b", base_url="http://localhost:11434" ) ``` </Accordion> <Accordion title="Fireworks AI"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code FIREWORKS_API_KEY=<your-api-key> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="fireworks_ai/accounts/fireworks/models/llama-v3-70b-instruct", temperature=0.7 ) ``` </Accordion> <Accordion title="Perplexity AI"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code PERPLEXITY_API_KEY=<your-api-key> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="llama-3.1-sonar-large-128k-online", base_url="https://api.perplexity.ai/" ) ``` </Accordion> <Accordion title="Hugging Face"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code HF_TOKEN=<your-api-key> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="huggingface/meta-llama/Meta-Llama-3.1-8B-Instruct" ) ``` </Accordion> <Accordion title="SambaNova"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code SAMBANOVA_API_KEY=<your-api-key> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="sambanova/Meta-Llama-3.1-8B-Instruct", temperature=0.7 ) ``` | 모델 | 컨텍스트 윈도우 | 최적 용도 | |-----------------|---------------------|--------------------------------------| | Llama 3.1 70B/8B| 최대 131,072 토큰 | 고성능, 대용량 문맥 작업 | | Llama 3.1 405B | 8,192 토큰 | 고성능, 높은 출력 품질 | | Llama 3.2 Series| 8,192 토큰 | 범용, 멀티모달 작업 | | Llama 3.3 70B | 최대 131,072 토큰 | 고성능, 높은 출력 품질 | | Qwen2 familly | 8,192 토큰 | 고성능, 높은 출력 품질 | </Accordion> <Accordion title="Cerebras"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code # Required CEREBRAS_API_KEY=<your-api-key> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="cerebras/llama3.1-70b", temperature=0.7, max_tokens=8192 ) ``` <Info> Cerebras 특징: - 빠른 추론 속도 - 경쟁력 있는 가격 - 속도와 품질의 우수한 밸런스 - 긴 컨텍스트 윈도우 지원 </Info> </Accordion> <Accordion title="Open Router"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code OPENROUTER_API_KEY=<your-api-key> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="openrouter/deepseek/deepseek-r1", base_url="https://openrouter.ai/api/v1", api_key=OPENROUTER_API_KEY ) ``` <Info> Open Router 모델: - openrouter/deepseek/deepseek-r1 - openrouter/deepseek/deepseek-chat </Info> </Accordion> <Accordion title="Nebius AI Studio"> `.env` 파일에 다음 환경 변수를 설정하십시오: ```toml Code NEBIUS_API_KEY=<your-api-key> ``` CrewAI 프로젝트에서의 예시 사용법: ```python Code llm = LLM( model="nebius/Qwen/Qwen3-30B-A3B" ) ``` <Info> Nebius AI Studio 특징: - 대규모 오픈소스 모델 보유 - 높은 속도 제한 - 경쟁력 있는 가격 - 속도와 품질의 우수한 밸런스 </Info> </Accordion> </AccordionGroup> ## 스트리밍 응답 CrewAI는 LLM의 스트리밍 응답을 지원하여, 애플리케이션이 출력물을 생성되는 즉시 실시간으로 수신하고 처리할 수 있습니다. <Tabs> <Tab title="기본 설정"> LLM을 초기화할 때 `stream` 파라미터를 `True`로 설정하여 스트리밍을 활성화합니다: ```python from crewai import LLM # 스트리밍이 활성화된 LLM 생성 llm = LLM( model="openai/gpt-4o", stream=True # 스트리밍 활성화 ) ``` 스트리밍이 활성화되면, 응답이 생성되는 대로 청크 단위로 전달되어 보다 반응성 있는 사용자 경험을 만듭니다. </Tab> <Tab title="이벤트 처리"> CrewAI는 스트리밍 중 수신되는 각 청크에 대해 이벤트를 발생시킵니다: ```python from crewai.events import ( LLMStreamChunkEvent ) from crewai.events import BaseEventListener class MyCustomListener(BaseEventListener): def setup_listeners(self, crewai_event_bus): @crewai_event_bus.on(LLMStreamChunkEvent) def on_llm_stream_chunk(self, event: LLMStreamChunkEvent): # 각 청크가 도착할 때마다 처리 print(f"Received chunk: {event.chunk}") my_listener = MyCustomListener() ``` <Tip> [자세한 내용은 여기를 클릭하세요](/ko/concepts/event-listener#event-listeners) </Tip> </Tab> <Tab title="에이전트 & 태스크 추적"> CrewAI의 모든 LLM 이벤트에는 에이전트 및 태스크 정보가 포함되어 있어, 특정 에이전트나 태스크별로 LLM 상호작용을 추적하고 필터링할 수 있습니다: ```python from crewai import LLM, Agent, Task, Crew from crewai.events import LLMStreamChunkEvent from crewai.events import BaseEventListener class MyCustomListener(BaseEventListener): def setup_listeners(self, crewai_event_bus): @crewai_event_bus.on(LLMStreamChunkEvent) def on_llm_stream_chunk(source, event): if researcher.id == event.agent_id: print("\n==============\n Got event:", event, "\n==============\n") my_listener = MyCustomListener() llm = LLM(model="gpt-4o-mini", temperature=0, stream=True) researcher = Agent( role="About User", goal="You know everything about the user.", backstory="""You are a master at understanding people and their preferences.""", llm=llm, ) search = Task( description="Answer the following questions about the user: {question}", expected_output="An answer to the question.", agent=researcher, ) crew = Crew(agents=[researcher], tasks=[search]) result = crew.kickoff( inputs={"question": "..."} ) ``` <Info> 이 기능은 다음과 같은 경우에 특히 유용합니다: - 특정 에이전트 동작을 디버깅할 때 - 태스크 유형별 LLM 사용 기록을 남길 때 - 어떤 에이전트가 어떤 유형의 LLM 호출을 하는지 감사할 때 - 특정 태스크의 성능을 모니터링할 때 </Info> </Tab> </Tabs> ## 구조화된 LLM 호출 CrewAI는 Pydantic 모델을 사용하여 `response_format`을 정의함으로써 LLM 호출에서 구조화된 응답을 지원합니다. 이를 통해 프레임워크가 출력을 자동으로 파싱하고 검증할 수 있어, 수동 후처리 없이도 응답을 애플리케이션에 쉽게 통합할 수 있습니다. 예를 들어, 예상되는 응답 구조를 나타내는 Pydantic 모델을 정의하고 LLM을 인스턴스화할 때 `response_format`으로 전달할 수 있습니다. 이 모델은 LLM 출력을 구조화된 Python 객체로 변환하는 데 사용됩니다. ```python Code from crewai import LLM class Dog(BaseModel): name: str age: int breed: str llm = LLM(model="gpt-4o", response_format=Dog) response = llm.call( "Analyze the following messages and return the name, age, and breed. " "Meet Kona! She is 3 years old and is a black german shepherd." ) print(response) # Output: # Dog(name='Kona', age=3, breed='black german shepherd') ``` ## 고급 기능 및 최적화 LLM 설정을 최대한 활용하는 방법을 알아보세요: <AccordionGroup> <Accordion title="컨텍스트 윈도우 관리"> CrewAI는 스마트한 컨텍스트 관리 기능을 제공합니다: ```python from crewai import LLM # CrewAI는 자동으로 다음을 처리합니다: # 1. 토큰 계산 및 추적 # 2. 필요시 콘텐츠 요약 # 3. 큰 컨텍스트에 대한 작업 분할 llm = LLM( model="gpt-4", max_tokens=4000, # 응답 길이 제한 ) ``` <Info> 컨텍스트 관리 모범 사례: 1. 적절한 컨텍스트 윈도우를 가진 모델 선택 2. 가능하면 긴 입력값을 사전 처리 3. 큰 문서에는 청킹(chunking) 사용 4. 비용 최적화를 위해 토큰 사용량 모니터링 </Info> </Accordion> <Accordion title="성능 최적화"> <Steps> <Step title="토큰 사용 최적화"> 작업에 맞는 컨텍스트 윈도우를 선택하세요: - 작은 작업 (최대 4K 토큰): 표준 모델 - 중간 작업 (4K~32K 사이): 확장 모델 - 큰 작업 (32K 이상): 대형 컨텍스트 모델 ```python # 모델을 적절한 설정으로 구성 llm = LLM( model="openai/gpt-4-turbo-preview", temperature=0.7, # 작업에 따라 조정 max_tokens=4096, # 출력 요구 사항에 맞게 설정 timeout=300 # 복잡한 작업을 위한 더 긴 타임아웃 ) ``` <Tip> - 사실 기반 응답에는 낮은 temperature(0.1~0.3) - 창의적인 작업에는 높은 temperature(0.7~0.9) </Tip> </Step> <Step title="모범 사례"> 1. 토큰 사용량 모니터링 2. 속도 제한(rate limiting) 구현 3. 가능하면 캐싱 사용 4. 적절한 max_tokens 제한 설정 </Step> </Steps> <Info> 비용 및 성능을 최적화하기 위해 토큰 사용량을 정기적으로 모니터링하고 필요에 따라 설정을 조정하세요. </Info> </Accordion> <Accordion title="추가 파라미터 드롭"> CrewAI는 내부적으로 LLM 호출에 Litellm을 사용하며, 이를 통해 특정 사용 사례에 필요하지 않은 추가 파라미터를 제거할 수 있습니다. 이를 통해 코드가 간소화되며 LLM 구성의 복잡성을 줄일 수 있습니다. 예를 들어, <code>stop</code> 파라미터를 보낼 필요가 없다면 LLM 호출에서 제외할 수 있습니다: ```python from crewai import LLM import os os.environ["OPENAI_API_KEY"] = "<api-key>" o3_llm = LLM( model="o3", drop_params=True, additional_drop_params=["stop"] ) ``` </Accordion> </AccordionGroup> ## 일반적인 문제 및 해결 방법 <Tabs> <Tab title="인증"> <Warning> 대부분의 인증 문제는 API 키 형식과 환경 변수 이름을 확인하여 해결할 수 있습니다. </Warning> ```bash # OpenAI OPENAI_API_KEY=sk-... # Anthropic ANTHROPIC_API_KEY=sk-ant-... ``` </Tab> <Tab title="모델 이름"> <Check> 항상 모델 이름에 provider 접두사를 포함하세요. </Check> ```python # 올바른 예시 llm = LLM(model="openai/gpt-4") # 잘못된 예시 llm = LLM(model="gpt-4") ``` </Tab> <Tab title="컨텍스트 길이"> <Tip> 대규모 작업에는 더 큰 컨텍스트 모델을 사용하세요. </Tip> ```python # 대용량 컨텍스트 모델 llm = LLM(model="openai/gpt-4o") # 128K tokens ``` </Tab> </Tabs>

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/crewAIInc/crewAI'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

llms.mdx•51.2 KiB