Keyboard Maestro MCP Server

performance_monitor.py•28 KiB

"""System-wide performance monitoring and optimization for the complete ecosystem. This module provides comprehensive performance monitoring capabilities including: - Real-time metrics collection and analysis - Bottleneck detection and resolution recommendations - Resource utilization tracking and optimization - Performance trend analysis and prediction Security: Enterprise-grade monitoring with secure metrics collection. Performance: <50ms metrics collection, real-time analysis capabilities. Type Safety: Complete type system with contracts and validation. """ import asyncio import contextlib import logging import statistics from collections import defaultdict, deque from dataclasses import dataclass from datetime import UTC, datetime from enum import Enum from typing import Any from ..core.constants import MEDIUM_COUNT_THRESHOLD from .ecosystem_architecture import ResourceType, SystemPerformanceMetrics, ToolCategory from .tool_registry import ComprehensiveToolRegistry, get_tool_registry class PerformanceLevel(Enum): """System performance levels.""" EXCELLENT = "excellent" # >0.95 health score GOOD = "good" # >0.80 health score ACCEPTABLE = "acceptable" # >0.65 health score POOR = "poor" # >0.40 health score CRITICAL = "critical" # <=0.40 health score class AlertSeverity(Enum): """Performance alert severity levels.""" INFO = "info" WARNING = "warning" ERROR = "error" CRITICAL = "critical" @dataclass class PerformanceAlert: """Performance monitoring alert.""" timestamp: datetime severity: AlertSeverity component: str message: str metric_name: str current_value: float threshold_value: float recommended_action: str auto_resolvable: bool = False @dataclass class ResourceMetrics: """Resource utilization metrics.""" resource_type: ResourceType current_usage: float peak_usage: float average_usage: float available_capacity: float efficiency_score: float bottleneck_score: float @dataclass class ToolPerformanceMetrics: """Performance metrics for individual tools.""" tool_id: str tool_name: str category: ToolCategory execution_count: int total_execution_time: float average_response_time: float success_rate: float error_rate: float resource_efficiency: float last_execution: datetime | None = None performance_trend: str = "stable" # improving|stable|degrading @dataclass class SystemHealthReport: """Comprehensive system health report.""" timestamp: datetime overall_health_score: float performance_level: PerformanceLevel active_tools: int total_executions: int resource_metrics: dict[ResourceType, ResourceMetrics] tool_metrics: dict[str, ToolPerformanceMetrics] active_alerts: list[PerformanceAlert] optimization_recommendations: list[str] trend_analysis: dict[str, Any] class EcosystemPerformanceMonitor: """Comprehensive performance monitoring system for the entire ecosystem.""" def __init__(self, tool_registry: ComprehensiveToolRegistry | None = None): self.tool_registry = tool_registry or get_tool_registry() self.logger = logging.getLogger(__name__) # Performance tracking self.metrics_history: deque = deque(maxlen=1000) # Keep last 1000 metrics self.tool_performance: dict[str, ToolPerformanceMetrics] = {} self.resource_history: dict[ResourceType, deque] = { resource: deque(maxlen=100) for resource in ResourceType } # Alert management self.active_alerts: list[PerformanceAlert] = [] self.alert_thresholds = self._initialize_alert_thresholds() # Performance optimization settings self.monitoring_interval = 30.0 # seconds self.health_score_window = 10 # number of metrics to consider for health score self.trend_analysis_window = 50 # number of metrics for trend analysis # Start background monitoring self._monitoring_task: asyncio.Task | None = None def _initialize_alert_thresholds(self) -> dict[str, dict[str, float]]: """Initialize performance alert thresholds.""" return { "response_time": {"warning": 2.0, "error": 5.0, "critical": 10.0}, "success_rate": {"warning": 0.90, "error": 0.80, "critical": 0.70}, "resource_utilization": {"warning": 0.70, "error": 0.85, "critical": 0.95}, "error_rate": {"warning": 0.05, "error": 0.10, "critical": 0.20}, } async def start_monitoring(self) -> None: """Start continuous performance monitoring.""" if self._monitoring_task is None or self._monitoring_task.done(): self._monitoring_task = asyncio.create_task(self._monitoring_loop()) self.logger.info("Performance monitoring started") async def stop_monitoring(self) -> None: """Stop continuous performance monitoring.""" if self._monitoring_task and not self._monitoring_task.done(): self._monitoring_task.cancel() with contextlib.suppress(asyncio.CancelledError): await self._monitoring_task self.logger.info("Performance monitoring stopped") async def _monitoring_loop(self) -> None: """Continuous monitoring loop.""" while True: try: await self._collect_metrics() await asyncio.sleep(self.monitoring_interval) except asyncio.CancelledError: break except Exception as e: self.logger.error(f"Error in monitoring loop: {e}") await asyncio.sleep(5) # Brief pause before retrying async def _collect_metrics(self) -> None: """Collect current performance metrics.""" try: # Collect system metrics current_metrics = await self.get_current_metrics() self.metrics_history.append(current_metrics) # Update resource history for resource_type in ResourceType: usage = current_metrics.resource_utilization.get( resource_type.value, 0.0, ) self.resource_history[resource_type].append(usage) # Check for alerts await self._check_performance_alerts(current_metrics) # Update tool performance metrics await self._update_tool_metrics() except Exception as e: self.logger.error(f"Failed to collect metrics: {e}") async def get_current_metrics(self) -> SystemPerformanceMetrics: """Get current system performance metrics.""" # Calculate resource utilization (simulated for now) resource_utilization = {} for resource in ResourceType: # In a real implementation, this would query actual resource usage usage = self._simulate_resource_usage(resource) resource_utilization[resource.value] = usage # Calculate tool metrics active_tools = len(self.tool_performance) # Calculate average response time if self.tool_performance: avg_response_time = statistics.mean( tool.average_response_time for tool in self.tool_performance.values() ) else: avg_response_time = 0.0 # Calculate overall success rate if self.tool_performance: overall_success_rate = statistics.mean( tool.success_rate for tool in self.tool_performance.values() ) else: overall_success_rate = 1.0 # Calculate error rate error_rate = 1.0 - overall_success_rate # Calculate throughput total_executions = sum( tool.execution_count for tool in self.tool_performance.values() ) throughput = total_executions / max(1, len(self.metrics_history)) # Identify bottlenecks bottlenecks = await self._identify_bottlenecks() # Generate optimization opportunities optimization_opportunities = await self._identify_optimization_opportunities() return SystemPerformanceMetrics( timestamp=datetime.now(UTC), total_tools_active=active_tools, resource_utilization=resource_utilization, average_response_time=avg_response_time, success_rate=overall_success_rate, error_rate=error_rate, throughput=throughput, bottlenecks=bottlenecks, optimization_opportunities=optimization_opportunities, ) def _simulate_resource_usage(self, resource: ResourceType) -> float: """Simulate resource usage for demonstration purposes.""" # In real implementation, this would query actual system resources base_usage = { ResourceType.CPU: 0.3, ResourceType.MEMORY: 0.4, ResourceType.DISK: 0.2, ResourceType.NETWORK: 0.1, ResourceType.API_CALLS: 0.05, ResourceType.ACTIONS: 0.15, ResourceType.TIME: 0.25, } # Add some variation based on tool activity tool_factor = min(0.5, len(self.tool_performance) * 0.05) return min(1.0, base_usage.get(resource, 0.1) + tool_factor) async def record_tool_execution( self, tool_id: str, execution_time: float, success: bool, resource_usage: dict[str, float], ) -> None: """Record performance metrics for tool execution.""" tool = self.tool_registry.tools.get(tool_id) if not tool: self.logger.warning(f"Recording metrics for unknown tool: {tool_id}") return # Get or create tool performance metrics if tool_id not in self.tool_performance: self.tool_performance[tool_id] = ToolPerformanceMetrics( tool_id=tool_id, tool_name=tool.tool_name, category=tool.category, execution_count=0, total_execution_time=0.0, average_response_time=0.0, success_rate=1.0, error_rate=0.0, resource_efficiency=1.0, ) metrics = self.tool_performance[tool_id] # Update execution metrics metrics.execution_count += 1 metrics.total_execution_time += execution_time metrics.average_response_time = ( metrics.total_execution_time / metrics.execution_count ) metrics.last_execution = datetime.now(UTC) # Update success/error rates total_attempts = metrics.execution_count current_successes = metrics.success_rate * (total_attempts - 1) if success: current_successes += 1 metrics.success_rate = current_successes / total_attempts metrics.error_rate = 1.0 - metrics.success_rate # Calculate resource efficiency expected_resources = sum(tool.resource_requirements.values()) actual_resources = sum(resource_usage.values()) if expected_resources > 0: metrics.resource_efficiency = min( 1.0, expected_resources / max(0.1, actual_resources), ) # Update performance trend metrics.performance_trend = await self._calculate_performance_trend(tool_id) async def _calculate_performance_trend(self, _tool_id: str) -> str: """Calculate performance trend for a tool.""" if len(self.metrics_history) < 10: return "stable" # Get recent response times for this tool recent_times = [] for metrics in list(self.metrics_history)[-10:]: # In a real implementation, this would track per-tool metrics recent_times.append(metrics.average_response_time) if len(recent_times) < MEDIUM_COUNT_THRESHOLD: return "stable" # Calculate trend using linear regression slope x_vals = list(range(len(recent_times))) mean_x = statistics.mean(x_vals) mean_y = statistics.mean(recent_times) numerator = sum( (x - mean_x) * (y - mean_y) for x, y in zip(x_vals, recent_times, strict=False) ) denominator = sum((x - mean_x) ** 2 for x in x_vals) if denominator == 0: return "stable" slope = numerator / denominator # Determine trend based on slope if slope > 0.1: return "degrading" if slope < -0.1: return "improving" return "stable" async def _update_tool_metrics(self) -> None: """Update tool performance metrics based on registry.""" for tool_id, tool in self.tool_registry.tools.items(): if tool_id not in self.tool_performance: # Initialize metrics for new tools self.tool_performance[tool_id] = ToolPerformanceMetrics( tool_id=tool_id, tool_name=tool.tool_name, category=tool.category, execution_count=0, total_execution_time=0.0, average_response_time=tool.performance_characteristics.get( "response_time", 1.0, ), success_rate=tool.performance_characteristics.get( "reliability", 0.95, ), error_rate=1.0 - tool.performance_characteristics.get("reliability", 0.95), resource_efficiency=1.0, ) async def _identify_bottlenecks(self) -> list[str]: """Identify system bottlenecks.""" bottlenecks = [] # Check resource bottlenecks for resource_type in ResourceType: history = self.resource_history[resource_type] if len(history) > 0: avg_usage = statistics.mean(history) if avg_usage > 0.8: bottlenecks.append( f"High {resource_type.value} utilization ({avg_usage:.1%})", ) # Check tool performance bottlenecks for _tool_id, metrics in self.tool_performance.items(): if metrics.average_response_time > 5.0: bottlenecks.append( f"Slow response from {metrics.tool_name} ({metrics.average_response_time:.1f}s)", ) if metrics.success_rate < 0.8: bottlenecks.append( f"Low success rate for {metrics.tool_name} ({metrics.success_rate:.1%})", ) return bottlenecks async def _identify_optimization_opportunities(self) -> list[str]: """Identify optimization opportunities.""" opportunities = [] # Check for underutilized resources for resource_type in ResourceType: history = self.resource_history[resource_type] if len(history) > 0: avg_usage = statistics.mean(history) if avg_usage < 0.3: opportunities.append( f"Underutilized {resource_type.value} - consider workload increase", ) # Check for tools with declining performance degrading_tools = [ metrics.tool_name for metrics in self.tool_performance.values() if metrics.performance_trend == "degrading" ] if degrading_tools: opportunities.append( f"Performance degradation detected in: {', '.join(degrading_tools[:3])}", ) # Check for load balancing opportunities category_loads = defaultdict(list) for metrics in self.tool_performance.values(): category_loads[metrics.category].append(metrics.average_response_time) for category, response_times in category_loads.items(): if len(response_times) > 1 and max(response_times) > 2 * min( response_times, ): opportunities.append( f"Load balancing opportunity in {category.value} tools", ) return opportunities async def _check_performance_alerts( self, metrics: SystemPerformanceMetrics, ) -> None: """Check for performance alerts based on current metrics.""" new_alerts = [] # Check response time alerts if ( metrics.average_response_time > self.alert_thresholds["response_time"]["critical"] ): alert = PerformanceAlert( timestamp=datetime.now(UTC), severity=AlertSeverity.CRITICAL, component="system", message=f"Critical response time: {metrics.average_response_time:.2f}s", metric_name="average_response_time", current_value=metrics.average_response_time, threshold_value=self.alert_thresholds["response_time"]["critical"], recommended_action="Scale up resources, investigate bottlenecks", ) new_alerts.append(alert) elif ( metrics.average_response_time > self.alert_thresholds["response_time"]["error"] ): alert = PerformanceAlert( timestamp=datetime.now(UTC), severity=AlertSeverity.ERROR, component="system", message=f"High response time: {metrics.average_response_time:.2f}s", metric_name="average_response_time", current_value=metrics.average_response_time, threshold_value=self.alert_thresholds["response_time"]["error"], recommended_action="Optimize workflow, check for bottlenecks", ) new_alerts.append(alert) # Check success rate alerts if metrics.success_rate < self.alert_thresholds["success_rate"]["critical"]: alert = PerformanceAlert( timestamp=datetime.now(UTC), severity=AlertSeverity.CRITICAL, component="system", message=f"Critical success rate: {metrics.success_rate:.1%}", metric_name="success_rate", current_value=metrics.success_rate, threshold_value=self.alert_thresholds["success_rate"]["critical"], recommended_action="Investigate failures, implement error handling", ) new_alerts.append(alert) # Check resource utilization alerts for resource, usage in metrics.resource_utilization.items(): if usage > self.alert_thresholds["resource_utilization"]["critical"]: alert = PerformanceAlert( timestamp=datetime.now(UTC), severity=AlertSeverity.CRITICAL, component=f"resource_{resource}", message=f"Critical {resource} utilization: {usage:.1%}", metric_name="resource_utilization", current_value=usage, threshold_value=self.alert_thresholds["resource_utilization"][ "critical" ], recommended_action=f"Scale {resource} capacity, optimize usage", ) new_alerts.append(alert) # Add new alerts and remove resolved ones self.active_alerts.extend(new_alerts) self._cleanup_resolved_alerts(metrics) # Log new alerts for alert in new_alerts: self.logger.warning( f"Performance Alert [{alert.severity.value}]: {alert.message}", ) def _cleanup_resolved_alerts( self, current_metrics: SystemPerformanceMetrics, ) -> None: """Remove alerts that have been resolved.""" resolved_alerts = [] for alert in self.active_alerts: # Check if alert condition is resolved resolved = False if alert.metric_name == "average_response_time": if current_metrics.average_response_time < alert.threshold_value * 0.9: resolved = True elif alert.metric_name == "success_rate": if current_metrics.success_rate > alert.threshold_value * 1.1: resolved = True elif alert.metric_name == "resource_utilization": resource = alert.component.replace("resource_", "") current_usage = current_metrics.resource_utilization.get(resource, 0.0) if current_usage < alert.threshold_value * 0.9: resolved = True # Remove old alerts (older than 1 hour) alert_age = (datetime.now(UTC) - alert.timestamp).total_seconds() if alert_age > 3600: resolved = True if resolved: resolved_alerts.append(alert) # Remove resolved alerts for alert in resolved_alerts: self.active_alerts.remove(alert) self.logger.info(f"Performance alert resolved: {alert.message}") async def get_health_report(self) -> SystemHealthReport: """Generate comprehensive system health report.""" current_metrics = await self.get_current_metrics() # Calculate overall health score health_score = current_metrics.get_health_score() # Determine performance level if health_score >= 0.95: performance_level = PerformanceLevel.EXCELLENT elif health_score >= 0.80: performance_level = PerformanceLevel.GOOD elif health_score >= 0.65: performance_level = PerformanceLevel.ACCEPTABLE elif health_score >= 0.40: performance_level = PerformanceLevel.POOR else: performance_level = PerformanceLevel.CRITICAL # Generate resource metrics resource_metrics = {} for resource_type in ResourceType: history = self.resource_history[resource_type] if history: current_usage = history[-1] peak_usage = max(history) average_usage = statistics.mean(history) available_capacity = 1.0 - current_usage efficiency_score = average_usage / max(0.1, peak_usage) bottleneck_score = current_usage / max(0.1, average_usage) resource_metrics[resource_type] = ResourceMetrics( resource_type=resource_type, current_usage=current_usage, peak_usage=peak_usage, average_usage=average_usage, available_capacity=available_capacity, efficiency_score=efficiency_score, bottleneck_score=bottleneck_score, ) # Calculate total executions total_executions = sum( tool.execution_count for tool in self.tool_performance.values() ) # Generate trend analysis trend_analysis = await self._generate_trend_analysis() # Generate optimization recommendations optimization_recommendations = ( await self._generate_optimization_recommendations(health_score) ) return SystemHealthReport( timestamp=datetime.now(UTC), overall_health_score=health_score, performance_level=performance_level, active_tools=len(self.tool_performance), total_executions=total_executions, resource_metrics=resource_metrics, tool_metrics=self.tool_performance.copy(), active_alerts=self.active_alerts.copy(), optimization_recommendations=optimization_recommendations, trend_analysis=trend_analysis, ) async def _generate_trend_analysis(self) -> dict[str, Any]: """Generate trend analysis based on historical data.""" if len(self.metrics_history) < 10: return { "status": "insufficient_data", "message": "Need more data for trend analysis", } recent_metrics = list(self.metrics_history)[-self.trend_analysis_window :] # Analyze response time trend response_times = [m.average_response_time for m in recent_metrics] response_time_trend = "stable" if len(response_times) > 5: if response_times[-1] > response_times[0] * 1.2: response_time_trend = "increasing" elif response_times[-1] < response_times[0] * 0.8: response_time_trend = "decreasing" # Analyze success rate trend success_rates = [m.success_rate for m in recent_metrics] success_rate_trend = "stable" if len(success_rates) > 5: if success_rates[-1] > success_rates[0] * 1.05: success_rate_trend = "improving" elif success_rates[-1] < success_rates[0] * 0.95: success_rate_trend = "declining" # Analyze throughput trend throughputs = [m.throughput for m in recent_metrics] throughput_trend = "stable" if len(throughputs) > 5: if throughputs[-1] > throughputs[0] * 1.1: throughput_trend = "increasing" elif throughputs[-1] < throughputs[0] * 0.9: throughput_trend = "decreasing" return { "status": "analysis_complete", "response_time_trend": response_time_trend, "success_rate_trend": success_rate_trend, "throughput_trend": throughput_trend, "metrics_analyzed": len(recent_metrics), "analysis_period": f"{len(recent_metrics) * self.monitoring_interval / 60:.1f} minutes", } async def _generate_optimization_recommendations( self, health_score: float, ) -> list[str]: """Generate optimization recommendations based on current performance.""" recommendations = [] if health_score < 0.7: recommendations.append( "System health is below optimal - immediate attention required", ) # Check for high resource usage current_metrics = await self.get_current_metrics() high_usage_resources = [ resource for resource, usage in current_metrics.resource_utilization.items() if usage > 0.8 ] if high_usage_resources: recommendations.append( f"High resource usage detected: {', '.join(high_usage_resources)}", ) # Check for slow tools slow_tools = [ metrics.tool_name for metrics in self.tool_performance.values() if metrics.average_response_time > 3.0 ] if slow_tools: recommendations.append( f"Optimize performance for slow tools: {', '.join(slow_tools[:3])}", ) # Check for error-prone tools error_prone_tools = [ metrics.tool_name for metrics in self.tool_performance.values() if metrics.error_rate > 0.1 ] if error_prone_tools: recommendations.append( f"Improve error handling for: {', '.join(error_prone_tools[:3])}", ) # General recommendations based on metrics if current_metrics.average_response_time > 2.0: recommendations.append( "Consider implementing caching or parallel processing", ) if current_metrics.success_rate < 0.9: recommendations.append("Implement retry logic and better error handling") if len(self.active_alerts) > 5: recommendations.append( "Address active performance alerts to improve system stability", ) return recommendations # Global performance monitor instance _global_performance_monitor: EcosystemPerformanceMonitor | None = None def get_performance_monitor() -> EcosystemPerformanceMonitor: """Get or create the global performance monitor instance.""" global _global_performance_monitor if _global_performance_monitor is None: _global_performance_monitor = EcosystemPerformanceMonitor() return _global_performance_monitor

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/Nexus-Digital-Automations/Keyboard-Maestro-MCP-2'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

performance_monitor.py•28 KiB