USCardForum MCP Server

cloudflare.py•18.6 KiB

"""Cloudflare bypass utilities.

Provides functions and constants for bypassing Cloudflare protection
using multiple strategies in order:
1. Playwright with stealth (real browser - most effective)
2. curl_cffi (real browser TLS fingerprints)
3. cloudscraper (multiple browser profiles)
"""
from __future__ import annotations

import logging
import subprocess
import time
from typing import Any

import cloudscraper
import requests

logger = logging.getLogger(__name__)

# Track if we've already tried to install Playwright browsers
_playwright_browsers_installed = False

# Cloudflare-related status codes that might be worth retrying
CLOUDFLARE_RETRY_CODES = {403, 429, 503, 520, 521, 522, 523, 524}

# Browser profiles for cloudscraper
BROWSER_PROFILES = [
    {"browser": "chrome", "platform": "linux", "desktop": True},
    {"browser": "chrome", "platform": "windows", "desktop": True},
    {"browser": "chrome", "platform": "darwin", "desktop": True},
    {"browser": "firefox", "platform": "linux", "desktop": True},
    {"browser": "firefox", "platform": "windows", "desktop": True},
]

# curl_cffi browser impersonation profiles (TLS fingerprints)
CURL_CFFI_IMPERSONATES = [
    "chrome120",
    "chrome119",
    "chrome110",
    "chrome107",
    "chrome104",
    "edge101",
    "safari15_5",
]

# Common headers that make requests look more like a real browser
BROWSER_HEADERS = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8",
    "Accept-Language": "en-US,en;q=0.9",
    "Accept-Encoding": "gzip, deflate, br",
    "Connection": "keep-alive",
    "Upgrade-Insecure-Requests": "1",
    "Sec-Fetch-Dest": "document",
    "Sec-Fetch-Mode": "navigate",
    "Sec-Fetch-Site": "none",
    "Sec-Fetch-User": "?1",
    "Cache-Control": "max-age=0",
}


def _ensure_playwright_browsers() -> bool:
    """Ensure Playwright browsers are installed.
    
    Attempts to install Chromium if not already installed.
    Only tries once per process to avoid repeated installation attempts.
    
    Returns:
        True if browsers are available, False otherwise
    """
    global _playwright_browsers_installed
    
    if _playwright_browsers_installed:
        return True
    
    try:
        from playwright.sync_api import sync_playwright
    except ImportError:
        logger.warning("Playwright package not installed")
        return False
    
    # Try to launch browser to check if it's installed
    try:
        with sync_playwright() as p:
            browser = p.chromium.launch(headless=True)
            browser.close()
            _playwright_browsers_installed = True
            logger.info("Playwright browsers already installed")
            return True
    except Exception as e:
        logger.info(f"Playwright browsers not installed, attempting installation: {e}")
    
    # Try to install browsers
    try:
        logger.info("Installing Playwright Chromium browser...")
        result = subprocess.run(
            ["playwright", "install", "chromium"],
            capture_output=True,
            text=True,
            timeout=300,  # 5 minute timeout
        )
        if result.returncode == 0:
            logger.info("Playwright Chromium installed successfully")
            _playwright_browsers_installed = True
            return True
        else:
            logger.warning(f"Playwright install failed: {result.stderr}")
            return False
    except subprocess.TimeoutExpired:
        logger.warning("Playwright installation timed out")
        return False
    except FileNotFoundError:
        logger.warning("playwright command not found")
        return False
    except Exception as e:
        logger.warning(f"Failed to install Playwright browsers: {e}")
        return False


def create_cloudflare_session(
    delay: int = 3,
    browser: str = "chrome",
    platform: str = "linux",
) -> requests.Session:
    """Create a cloudscraper session configured for Cloudflare bypass.

    Args:
        delay: Delay in seconds for challenge solving (default: 3)
        browser: Browser to emulate (chrome, firefox)
        platform: Platform to emulate (linux, windows, darwin)

    Returns:
        A cloudscraper session ready for Cloudflare-protected sites
    """
    session = cloudscraper.create_scraper(
        browser={"browser": browser, "platform": platform, "desktop": True},
        delay=delay,
    )
    session.headers.update(BROWSER_HEADERS)
    return session


class CurlCffiSessionWrapper:
    """Wrapper to make curl_cffi.Session behave like requests.Session.
    
    This allows curl_cffi to be used as a drop-in replacement.
    """
    
    def __init__(self, session: Any = None, impersonate: str = "chrome120"):
        """Initialize wrapper with existing session or create new one.
        
        Args:
            session: Existing curl_cffi Session to wrap (reuses cookies)
            impersonate: Browser to impersonate if creating new session
        """
        if session is not None:
            self._session = session
        else:
            from curl_cffi.requests import Session
            self._session = Session(impersonate=impersonate)
        self._impersonate = impersonate
        self.headers = dict(BROWSER_HEADERS)
        self.cookies = self._session.cookies
    
    def get(self, url: str, **kwargs) -> Any:
        """Make GET request."""
        kwargs.setdefault("timeout", 15)
        # Merge headers
        headers = dict(self.headers)
        if "headers" in kwargs:
            headers.update(kwargs["headers"])
        kwargs["headers"] = headers
        return self._session.get(url, **kwargs)
    
    def post(self, url: str, **kwargs) -> Any:
        """Make POST request."""
        kwargs.setdefault("timeout", 15)
        headers = dict(self.headers)
        if "headers" in kwargs:
            headers.update(kwargs["headers"])
        kwargs["headers"] = headers
        return self._session.post(url, **kwargs)
    
    def request(self, method: str, url: str, **kwargs) -> Any:
        """Make any HTTP request."""
        kwargs.setdefault("timeout", 15)
        headers = dict(self.headers)
        if "headers" in kwargs:
            headers.update(kwargs["headers"])
        kwargs["headers"] = headers
        return self._session.request(method, url, **kwargs)


def _create_session_with_curl_cffi(
    base_url: str,
    timeout_seconds: float = 15.0,
) -> Any | None:
    """Create a session using curl_cffi with browser TLS fingerprints.
    
    curl_cffi impersonates real browser TLS fingerprints, which is very
    effective against Cloudflare's TLS fingerprinting.
    
    Args:
        base_url: The base URL to test against
        timeout_seconds: Timeout for test requests
        
    Returns:
        A curl_cffi session wrapper (reusing the session that passed), or None if failed
    """
    try:
        from curl_cffi.requests import Session
    except ImportError:
        logger.warning("curl_cffi not available, skipping TLS fingerprint bypass")
        return None
    
    base_url = base_url.rstrip("/")
    
    for impersonate in CURL_CFFI_IMPERSONATES:
        try:
            session = Session(impersonate=impersonate)
            
            # Test if this impersonation works
            test_resp = session.get(
                f"{base_url}/",
                timeout=timeout_seconds,
                allow_redirects=True,
            )
            
            if test_resp.status_code == 200:
                logger.info(f"Cloudflare bypass successful with curl_cffi impersonate={impersonate}")
                # IMPORTANT: Return wrapper with the SAME session that passed (keeps cookies!)
                wrapper = CurlCffiSessionWrapper(session=session, impersonate=impersonate)
                return wrapper
            elif test_resp.status_code == 403:
                logger.warning(f"curl_cffi {impersonate} got 403, trying next...")
                continue
        except Exception as e:
            logger.warning(f"curl_cffi {impersonate} failed: {e}, trying next...")
            continue
    
    logger.warning("All curl_cffi impersonations failed")
    return None


def _create_session_with_playwright(
    base_url: str,
    timeout_seconds: float = 30.0,
    headless: bool = True,
) -> requests.Session | None:
    """Create a requests session using cookies obtained from Playwright with stealth.

    Uses a real browser to solve Cloudflare challenges and transfers cookies
    to a requests session. Will attempt to install browsers if not present.

    Args:
        base_url: The base URL to navigate to
        timeout_seconds: Timeout for page load
        headless: Run browser in headless mode (default: True)

    Returns:
        A requests.Session with Cloudflare cookies, or None if failed
    """
    # Ensure browsers are installed (this also verifies imports work)
    if not _ensure_playwright_browsers():
        logger.warning("Playwright browsers not available")
        return None

    base_url = base_url.rstrip("/")
    session = requests.Session()
    session.headers.update(BROWSER_HEADERS)

    try:
        # Import here after ensuring browsers are installed
        from playwright.sync_api import sync_playwright
        from playwright_stealth import Stealth
        
        stealth = Stealth()
        
        with sync_playwright() as p:
            # Launch browser with stealth settings
            browser = p.chromium.launch(
                headless=headless,
                args=[
                    "--disable-blink-features=AutomationControlled",
                    "--disable-dev-shm-usage",
                    "--no-sandbox",
                    "--disable-setuid-sandbox",
                    "--disable-infobars",
                    "--window-size=1920,1080",
                    "--start-maximized",
                ],
            )

            # Create context with realistic viewport and user agent
            context = browser.new_context(
                viewport={"width": 1920, "height": 1080},
                user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
                locale="en-US",
                timezone_id="America/New_York",
            )

            page = context.new_page()

            # Apply stealth to avoid detection
            stealth.apply_stealth_sync(page)

            # Navigate to the site and wait for Cloudflare challenge to complete
            logger.info(f"Playwright: Navigating to {base_url}")
            page.goto(base_url, wait_until="networkidle", timeout=timeout_seconds * 1000)

            # Wait additional time for any JS challenges
            page.wait_for_timeout(3000)

            # Check if we got past Cloudflare
            content = page.content().lower()
            if "cloudflare" in content and ("challenge" in content or "checking" in content):
                # Wait longer for challenge to complete
                logger.info("Playwright: Waiting for Cloudflare challenge...")
                page.wait_for_timeout(5000)

            # Get cookies from browser
            cookies = context.cookies()
            logger.info(f"Playwright: Got {len(cookies)} cookies")

            # Transfer cookies to requests session
            for cookie in cookies:
                session.cookies.set(
                    cookie["name"],
                    cookie["value"],
                    domain=cookie.get("domain", ""),
                    path=cookie.get("path", "/"),
                )

            # Get the user agent used
            user_agent = page.evaluate("navigator.userAgent")
            session.headers["User-Agent"] = user_agent

            browser.close()

            # Test if session works
            test_resp = session.get(
                f"{base_url}/",
                timeout=timeout_seconds,
                allow_redirects=True,
            )

            if test_resp.status_code == 200:
                logger.info("Playwright: Session created successfully")
                return session
            else:
                logger.warning(f"Playwright: Test request got status {test_resp.status_code}")
                return None

    except ImportError as e:
        logger.warning(f"Playwright import failed: {e}")
        return None
    except Exception as e:
        logger.error(f"Playwright fallback failed: {e}")
        return None


def create_cloudflare_session_with_fallback(
    base_url: str,
    timeout_seconds: float = 15.0,
    use_playwright: bool = True,
    use_curl_cffi: bool = True,
    use_cloudscraper: bool = True,
) -> Any:
    """Create a session with Cloudflare bypass, trying multiple strategies.

    Order of attempts (Playwright first as most effective):
    1. Playwright with stealth (real browser - best success rate)
    2. curl_cffi with real browser TLS fingerprints
    3. cloudscraper with different browser profiles

    Args:
        base_url: The base URL to test against
        timeout_seconds: Timeout for test requests
        use_playwright: Try Playwright first (default: True)
        use_curl_cffi: Try curl_cffi (default: True)
        use_cloudscraper: Try cloudscraper (default: True)

    Returns:
        A session configured to bypass Cloudflare
    """
    base_url = base_url.rstrip("/")

    # Strategy 1: Try Playwright with stealth (most effective)
    if use_playwright:
        logger.info("Trying Playwright with stealth (most effective)...")
        playwright_session = _create_session_with_playwright(
            base_url,
            timeout_seconds=30.0,
            headless=True,
        )
        if playwright_session is not None:
            return playwright_session
        logger.warning("Playwright failed, trying next strategy...")

    # Strategy 2: Try curl_cffi with TLS fingerprinting
    if use_curl_cffi:
        logger.info("Trying curl_cffi with TLS fingerprints...")
        curl_session = _create_session_with_curl_cffi(base_url, timeout_seconds)
        if curl_session is not None:
            return curl_session
        logger.warning("curl_cffi failed, trying next strategy...")

    # Strategy 3: Try cloudscraper with different profiles
    if use_cloudscraper:
        logger.info("Trying cloudscraper profiles...")
        for profile in BROWSER_PROFILES:
            try:
                session = cloudscraper.create_scraper(
                    browser=profile,
                    delay=3,
                )
                session.headers.update(BROWSER_HEADERS)

                test_resp = session.get(
                    f"{base_url}/",
                    timeout=timeout_seconds,
                    allow_redirects=True,
                )
                if test_resp.status_code == 200:
                    logger.info(f"Cloudflare bypass successful with cloudscraper profile: {profile}")
                    return session
                elif test_resp.status_code == 403:
                    logger.warning(f"Cloudscraper profile {profile} got 403, trying next...")
                    continue
            except Exception as e:
                logger.warning(f"Cloudscraper profile {profile} failed: {e}, trying next...")
                continue

    # Ultimate fallback: return cloudscraper session even if it didn't work
    logger.warning("All bypass methods failed, using basic cloudscraper as fallback")
    session = cloudscraper.create_scraper(
        browser={"browser": "chrome", "platform": "linux", "desktop": True},
        delay=5,
    )
    session.headers.update(BROWSER_HEADERS)
    return session


def warm_up_session(
    session: Any,
    base_url: str,
    timeout_seconds: float = 15.0,
    with_delay: bool = True,
) -> bool:
    """Warm up a session to obtain Cloudflare cookies.

    Args:
        session: The session to warm up
        base_url: Base URL of the site
        timeout_seconds: Request timeout
        with_delay: Add delays between requests

    Returns:
        True if at least one warm-up request succeeded
    """
    base_url = base_url.rstrip("/")
    warmup_urls = [
        f"{base_url}/",
        f"{base_url}/about",
    ]

    success = False
    for i, url in enumerate(warmup_urls):
        try:
            resp = session.get(
                url,
                timeout=timeout_seconds,
                allow_redirects=True,
            )
            if resp.status_code == 200:
                success = True
                logger.debug(f"Warm-up successful: {url}")
            else:
                logger.warning(f"Warm-up got status {resp.status_code}: {url}")

            # Add delay between requests
            if with_delay and i < len(warmup_urls) - 1:
                time.sleep(0.5)
        except Exception as e:
            logger.warning(f"Warm-up failed for {url}: {e}")

    return success


def extended_warm_up(
    session: Any,
    base_url: str,
    timeout_seconds: float = 15.0,
) -> None:
    """Extended warm-up with delays and multiple page visits.

    More aggressive than basic warm-up to help with Cloudflare challenges.

    Args:
        session: The session to warm up
        base_url: Base URL of the site
        timeout_seconds: Request timeout
    """
    base_url = base_url.rstrip("/")
    warmup_urls = [
        f"{base_url}/",
        f"{base_url}/about",
        f"{base_url}/categories",
        f"{base_url}/top",
    ]

    for i, url in enumerate(warmup_urls):
        try:
            resp = session.get(
                url,
                timeout=timeout_seconds,
                allow_redirects=True,
            )
            if resp.status_code == 200:
                logger.debug(f"Warm-up successful for {url}")
            else:
                logger.warning(f"Warm-up got status {resp.status_code} for {url}")

            # Add delay between requests to avoid rate limiting
            if i < len(warmup_urls) - 1:
                time.sleep(0.5)
        except Exception as e:
            logger.warning(f"Warm-up failed for {url}: {e}")


def is_cloudflare_challenge(response: Any) -> bool:
    """Check if a response is a Cloudflare challenge page.

    Args:
        response: The response to check

    Returns:
        True if this looks like a Cloudflare challenge
    """
    if response.status_code != 200:
        return False

    content_type = response.headers.get("Content-Type", "")
    if "text/html" not in content_type:
        return False

    content_lower = response.text[:1000].lower()
    return "cloudflare" in content_lower or "challenge" in content_lower


def is_cloudflare_error(status_code: int) -> bool:
    """Check if a status code is a Cloudflare-related error.

    Args:
        status_code: HTTP status code

    Returns:
        True if this is a Cloudflare-related error code
    """
    return status_code in CLOUDFLARE_RETRY_CODES

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/GodisinHisHeaven/uscardforum-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

cloudflare.py•18.6 KiB

"""Cloudflare bypass utilities.

Provides functions and constants for bypassing Cloudflare protection
using multiple strategies in order:
1. Playwright with stealth (real browser - most effective)
2. curl_cffi (real browser TLS fingerprints)
3. cloudscraper (multiple browser profiles)
"""
from __future__ import annotations

import logging
import subprocess
import time
from typing import Any

import cloudscraper
import requests

logger = logging.getLogger(__name__)

# Track if we've already tried to install Playwright browsers
_playwright_browsers_installed = False

# Cloudflare-related status codes that might be worth retrying
CLOUDFLARE_RETRY_CODES = {403, 429, 503, 520, 521, 522, 523, 524}

# Browser profiles for cloudscraper
BROWSER_PROFILES = [
    {"browser": "chrome", "platform": "linux", "desktop": True},
    {"browser": "chrome", "platform": "windows", "desktop": True},
    {"browser": "chrome", "platform": "darwin", "desktop": True},
    {"browser": "firefox", "platform": "linux", "desktop": True},
    {"browser": "firefox", "platform": "windows", "desktop": True},
]

# curl_cffi browser impersonation profiles (TLS fingerprints)
CURL_CFFI_IMPERSONATES = [
    "chrome120",
    "chrome119",
    "chrome110",
    "chrome107",
    "chrome104",
    "edge101",
    "safari15_5",
]

# Common headers that make requests look more like a real browser
BROWSER_HEADERS = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8",
    "Accept-Language": "en-US,en;q=0.9",
    "Accept-Encoding": "gzip, deflate, br",
    "Connection": "keep-alive",
    "Upgrade-Insecure-Requests": "1",
    "Sec-Fetch-Dest": "document",
    "Sec-Fetch-Mode": "navigate",
    "Sec-Fetch-Site": "none",
    "Sec-Fetch-User": "?1",
    "Cache-Control": "max-age=0",
}


def _ensure_playwright_browsers() -> bool:
    """Ensure Playwright browsers are installed.
    
    Attempts to install Chromium if not already installed.
    Only tries once per process to avoid repeated installation attempts.
    
    Returns:
        True if browsers are available, False otherwise
    """
    global _playwright_browsers_installed
    
    if _playwright_browsers_installed:
        return True
    
    try:
        from playwright.sync_api import sync_playwright
    except ImportError:
        logger.warning("Playwright package not installed")
        return False
    
    # Try to launch browser to check if it's installed
    try:
        with sync_playwright() as p:
            browser = p.chromium.launch(headless=True)
            browser.close()
            _playwright_browsers_installed = True
            logger.info("Playwright browsers already installed")
            return True
    except Exception as e:
        logger.info(f"Playwright browsers not installed, attempting installation: {e}")
    
    # Try to install browsers
    try:
        logger.info("Installing Playwright Chromium browser...")
        result = subprocess.run(
            ["playwright", "install", "chromium"],
            capture_output=True,
            text=True,
            timeout=300,  # 5 minute timeout
        )
        if result.returncode == 0:
            logger.info("Playwright Chromium installed successfully")
            _playwright_browsers_installed = True
            return True
        else:
            logger.warning(f"Playwright install failed: {result.stderr}")
            return False
    except subprocess.TimeoutExpired:
        logger.warning("Playwright installation timed out")
        return False
    except FileNotFoundError:
        logger.warning("playwright command not found")
        return False
    except Exception as e:
        logger.warning(f"Failed to install Playwright browsers: {e}")
        return False


def create_cloudflare_session(
    delay: int = 3,
    browser: str = "chrome",
    platform: str = "linux",
) -> requests.Session:
    """Create a cloudscraper session configured for Cloudflare bypass.

    Args:
        delay: Delay in seconds for challenge solving (default: 3)
        browser: Browser to emulate (chrome, firefox)
        platform: Platform to emulate (linux, windows, darwin)

    Returns:
        A cloudscraper session ready for Cloudflare-protected sites
    """
    session = cloudscraper.create_scraper(
        browser={"browser": browser, "platform": platform, "desktop": True},
        delay=delay,
    )
    session.headers.update(BROWSER_HEADERS)
    return session


class CurlCffiSessionWrapper:
    """Wrapper to make curl_cffi.Session behave like requests.Session.
    
    This allows curl_cffi to be used as a drop-in replacement.
    """
    
    def __init__(self, session: Any = None, impersonate: str = "chrome120"):
        """Initialize wrapper with existing session or create new one.
        
        Args:
            session: Existing curl_cffi Session to wrap (reuses cookies)
            impersonate: Browser to impersonate if creating new session
        """
        if session is not None:
            self._session = session
        else:
            from curl_cffi.requests import Session
            self._session = Session(impersonate=impersonate)
        self._impersonate = impersonate
        self.headers = dict(BROWSER_HEADERS)
        self.cookies = self._session.cookies
    
    def get(self, url: str, **kwargs) -> Any:
        """Make GET request."""
        kwargs.setdefault("timeout", 15)
        # Merge headers
        headers = dict(self.headers)
        if "headers" in kwargs:
            headers.update(kwargs["headers"])
        kwargs["headers"] = headers
        return self._session.get(url, **kwargs)
    
    def post(self, url: str, **kwargs) -> Any:
        """Make POST request."""
        kwargs.setdefault("timeout", 15)
        headers = dict(self.headers)
        if "headers" in kwargs:
            headers.update(kwargs["headers"])
        kwargs["headers"] = headers
        return self._session.post(url, **kwargs)
    
    def request(self, method: str, url: str, **kwargs) -> Any:
        """Make any HTTP request."""
        kwargs.setdefault("timeout", 15)
        headers = dict(self.headers)
        if "headers" in kwargs:
            headers.update(kwargs["headers"])
        kwargs["headers"] = headers
        return self._session.request(method, url, **kwargs)


def _create_session_with_curl_cffi(
    base_url: str,
    timeout_seconds: float = 15.0,
) -> Any | None:
    """Create a session using curl_cffi with browser TLS fingerprints.
    
    curl_cffi impersonates real browser TLS fingerprints, which is very
    effective against Cloudflare's TLS fingerprinting.
    
    Args:
        base_url: The base URL to test against
        timeout_seconds: Timeout for test requests
        
    Returns:
        A curl_cffi session wrapper (reusing the session that passed), or None if failed
    """
    try:
        from curl_cffi.requests import Session
    except ImportError:
        logger.warning("curl_cffi not available, skipping TLS fingerprint bypass")
        return None
    
    base_url = base_url.rstrip("/")
    
    for impersonate in CURL_CFFI_IMPERSONATES:
        try:
            session = Session(impersonate=impersonate)
            
            # Test if this impersonation works
            test_resp = session.get(
                f"{base_url}/",
                timeout=timeout_seconds,
                allow_redirects=True,
            )
            
            if test_resp.status_code == 200:
                logger.info(f"Cloudflare bypass successful with curl_cffi impersonate={impersonate}")
                # IMPORTANT: Return wrapper with the SAME session that passed (keeps cookies!)
                wrapper = CurlCffiSessionWrapper(session=session, impersonate=impersonate)
                return wrapper
            elif test_resp.status_code == 403:
                logger.warning(f"curl_cffi {impersonate} got 403, trying next...")
                continue
        except Exception as e:
            logger.warning(f"curl_cffi {impersonate} failed: {e}, trying next...")
            continue
    
    logger.warning("All curl_cffi impersonations failed")
    return None


def _create_session_with_playwright(
    base_url: str,
    timeout_seconds: float = 30.0,
    headless: bool = True,
) -> requests.Session | None:
    """Create a requests session using cookies obtained from Playwright with stealth.

    Uses a real browser to solve Cloudflare challenges and transfers cookies
    to a requests session. Will attempt to install browsers if not present.

    Args:
        base_url: The base URL to navigate to
        timeout_seconds: Timeout for page load
        headless: Run browser in headless mode (default: True)

    Returns:
        A requests.Session with Cloudflare cookies, or None if failed
    """
    # Ensure browsers are installed (this also verifies imports work)
    if not _ensure_playwright_browsers():
        logger.warning("Playwright browsers not available")
        return None

    base_url = base_url.rstrip("/")
    session = requests.Session()
    session.headers.update(BROWSER_HEADERS)

    try:
        # Import here after ensuring browsers are installed
        from playwright.sync_api import sync_playwright
        from playwright_stealth import Stealth
        
        stealth = Stealth()
        
        with sync_playwright() as p:
            # Launch browser with stealth settings
            browser = p.chromium.launch(
                headless=headless,
                args=[
                    "--disable-blink-features=AutomationControlled",
                    "--disable-dev-shm-usage",
                    "--no-sandbox",
                    "--disable-setuid-sandbox",
                    "--disable-infobars",
                    "--window-size=1920,1080",
                    "--start-maximized",
                ],
            )

            # Create context with realistic viewport and user agent
            context = browser.new_context(
                viewport={"width": 1920, "height": 1080},
                user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
                locale="en-US",
                timezone_id="America/New_York",
            )

            page = context.new_page()

            # Apply stealth to avoid detection
            stealth.apply_stealth_sync(page)

            # Navigate to the site and wait for Cloudflare challenge to complete
            logger.info(f"Playwright: Navigating to {base_url}")
            page.goto(base_url, wait_until="networkidle", timeout=timeout_seconds * 1000)

            # Wait additional time for any JS challenges
            page.wait_for_timeout(3000)

            # Check if we got past Cloudflare
            content = page.content().lower()
            if "cloudflare" in content and ("challenge" in content or "checking" in content):
                # Wait longer for challenge to complete
                logger.info("Playwright: Waiting for Cloudflare challenge...")
                page.wait_for_timeout(5000)

            # Get cookies from browser
            cookies = context.cookies()
            logger.info(f"Playwright: Got {len(cookies)} cookies")

            # Transfer cookies to requests session
            for cookie in cookies:
                session.cookies.set(
                    cookie["name"],
                    cookie["value"],
                    domain=cookie.get("domain", ""),
                    path=cookie.get("path", "/"),
                )

            # Get the user agent used
            user_agent = page.evaluate("navigator.userAgent")
            session.headers["User-Agent"] = user_agent

            browser.close()

            # Test if session works
            test_resp = session.get(
                f"{base_url}/",
                timeout=timeout_seconds,
                allow_redirects=True,
            )

            if test_resp.status_code == 200:
                logger.info("Playwright: Session created successfully")
                return session
            else:
                logger.warning(f"Playwright: Test request got status {test_resp.status_code}")
                return None

    except ImportError as e:
        logger.warning(f"Playwright import failed: {e}")
        return None
    except Exception as e:
        logger.error(f"Playwright fallback failed: {e}")
        return None


def create_cloudflare_session_with_fallback(
    base_url: str,
    timeout_seconds: float = 15.0,
    use_playwright: bool = True,
    use_curl_cffi: bool = True,
    use_cloudscraper: bool = True,
) -> Any:
    """Create a session with Cloudflare bypass, trying multiple strategies.

    Order of attempts (Playwright first as most effective):
    1. Playwright with stealth (real browser - best success rate)
    2. curl_cffi with real browser TLS fingerprints
    3. cloudscraper with different browser profiles

    Args:
        base_url: The base URL to test against
        timeout_seconds: Timeout for test requests
        use_playwright: Try Playwright first (default: True)
        use_curl_cffi: Try curl_cffi (default: True)
        use_cloudscraper: Try cloudscraper (default: True)

    Returns:
        A session configured to bypass Cloudflare
    """
    base_url = base_url.rstrip("/")

    # Strategy 1: Try Playwright with stealth (most effective)
    if use_playwright:
        logger.info("Trying Playwright with stealth (most effective)...")
        playwright_session = _create_session_with_playwright(
            base_url,
            timeout_seconds=30.0,
            headless=True,
        )
        if playwright_session is not None:
            return playwright_session
        logger.warning("Playwright failed, trying next strategy...")

    # Strategy 2: Try curl_cffi with TLS fingerprinting
    if use_curl_cffi:
        logger.info("Trying curl_cffi with TLS fingerprints...")
        curl_session = _create_session_with_curl_cffi(base_url, timeout_seconds)
        if curl_session is not None:
            return curl_session
        logger.warning("curl_cffi failed, trying next strategy...")

    # Strategy 3: Try cloudscraper with different profiles
    if use_cloudscraper:
        logger.info("Trying cloudscraper profiles...")
        for profile in BROWSER_PROFILES:
            try:
                session = cloudscraper.create_scraper(
                    browser=profile,
                    delay=3,
                )
                session.headers.update(BROWSER_HEADERS)

                test_resp = session.get(
                    f"{base_url}/",
                    timeout=timeout_seconds,
                    allow_redirects=True,
                )
                if test_resp.status_code == 200:
                    logger.info(f"Cloudflare bypass successful with cloudscraper profile: {profile}")
                    return session
                elif test_resp.status_code == 403:
                    logger.warning(f"Cloudscraper profile {profile} got 403, trying next...")
                    continue
            except Exception as e:
                logger.warning(f"Cloudscraper profile {profile} failed: {e}, trying next...")
                continue

    # Ultimate fallback: return cloudscraper session even if it didn't work
    logger.warning("All bypass methods failed, using basic cloudscraper as fallback")
    session = cloudscraper.create_scraper(
        browser={"browser": "chrome", "platform": "linux", "desktop": True},
        delay=5,
    )
    session.headers.update(BROWSER_HEADERS)
    return session


def warm_up_session(
    session: Any,
    base_url: str,
    timeout_seconds: float = 15.0,
    with_delay: bool = True,
) -> bool:
    """Warm up a session to obtain Cloudflare cookies.

    Args:
        session: The session to warm up
        base_url: Base URL of the site
        timeout_seconds: Request timeout
        with_delay: Add delays between requests

    Returns:
        True if at least one warm-up request succeeded
    """
    base_url = base_url.rstrip("/")
    warmup_urls = [
        f"{base_url}/",
        f"{base_url}/about",
    ]

    success = False
    for i, url in enumerate(warmup_urls):
        try:
            resp = session.get(
                url,
                timeout=timeout_seconds,
                allow_redirects=True,
            )
            if resp.status_code == 200:
                success = True
                logger.debug(f"Warm-up successful: {url}")
            else:
                logger.warning(f"Warm-up got status {resp.status_code}: {url}")

            # Add delay between requests
            if with_delay and i < len(warmup_urls) - 1:
                time.sleep(0.5)
        except Exception as e:
            logger.warning(f"Warm-up failed for {url}: {e}")

    return success


def extended_warm_up(
    session: Any,
    base_url: str,
    timeout_seconds: float = 15.0,
) -> None:
    """Extended warm-up with delays and multiple page visits.

    More aggressive than basic warm-up to help with Cloudflare challenges.

    Args:
        session: The session to warm up
        base_url: Base URL of the site
        timeout_seconds: Request timeout
    """
    base_url = base_url.rstrip("/")
    warmup_urls = [
        f"{base_url}/",
        f"{base_url}/about",
        f"{base_url}/categories",
        f"{base_url}/top",
    ]

    for i, url in enumerate(warmup_urls):
        try:
            resp = session.get(
                url,
                timeout=timeout_seconds,
                allow_redirects=True,
            )
            if resp.status_code == 200:
                logger.debug(f"Warm-up successful for {url}")
            else:
                logger.warning(f"Warm-up got status {resp.status_code} for {url}")

            # Add delay between requests to avoid rate limiting
            if i < len(warmup_urls) - 1:
                time.sleep(0.5)
        except Exception as e:
            logger.warning(f"Warm-up failed for {url}: {e}")


def is_cloudflare_challenge(response: Any) -> bool:
    """Check if a response is a Cloudflare challenge page.

    Args:
        response: The response to check

    Returns:
        True if this looks like a Cloudflare challenge
    """
    if response.status_code != 200:
        return False

    content_type = response.headers.get("Content-Type", "")
    if "text/html" not in content_type:
        return False

    content_lower = response.text[:1000].lower()
    return "cloudflare" in content_lower or "challenge" in content_lower


def is_cloudflare_error(status_code: int) -> bool:
    """Check if a status code is a Cloudflare-related error.

    Args:
        status_code: HTTP status code

    Returns:
        True if this is a Cloudflare-related error code
    """
    return status_code in CLOUDFLARE_RETRY_CODES