🎯 Anything → NotebookLM

Интеллектуальный процессор контента из разных источников: любой контент → подкаст / PPT / интеллект-карта / викторина

License: MIT Python 3.9+ PRs Welcome GitHub stars GitHub forks GitHub issues GitHub last commit

Быстрый старт • Поддерживаемые форматы • Примеры использования • Обход пейволлов • Часто задаваемые вопросы

✨ Что это такое?

Claude Code Skill, который превращает любой контент в любой формат с помощью естественного языка.

你说：把这篇微信文章生成播客
AI ：✅ 8 分钟播客已生成 → podcast.mp3

你说：这个付费文章做成思维导图
AI ：✅ 自动绕过付费墙 → 思维导图已生成

你说：这期播客（小宇宙）做成 PPT
AI ：✅ 自动转录音频 → 25 页 PPT 已生成

Основные возможности: получение контента из разных источников (включая обход пейволлов) → загрузка в Google NotebookLM → генерация целевого формата с помощью ИИ.

🚀 Поддерживаемые источники контента (15+)

📱 Социальные сети и медиа

Официальные аккаунты WeChat (эмуляция браузера MCP)
X/Twitter (твиты + длинные треды)
Видео YouTube (автоматическое извлечение субтитров)
Подкасты (Xiaoyuzhou / Ximalaya / Bilibili)

🌐 Веб-страницы (включая обход пейволлов)

300+ платных сайтов (NYT/WSJ/FT/Economist...)
Любые публичные веб-страницы (новости, блоги, документы)
Поисковые запросы (автоматическое обобщение результатов)

📚 Электронные книги и документы

PDF (поддержка OCR для сканов)
EPUB электронные книги
Markdown (.md)
Обычный текст (.txt)

📄 Документы Office

Word (.docx)
PowerPoint (.pptx)
Excel (.xlsx)

🖼️ Другое

Изображения (JPEG/PNG, автоматическое OCR)
Аудио (WAV/MP3, автоматическая транскрипция)
ZIP-архивы (пакетная обработка)

🛡️ Обход пейволлов

Ключевая особенность: автоматическое обнаружение и обход пейволлов на 300+ платных новостных сайтах.

Стратегии обхода (6-уровневый каскад)

Level 1: 代理服务（r.jina.ai / defuddle.md）
    ↓ 失败
Level 2: 站点专属 Bot UA（Googlebot ~50站 / Bingbot ~4站）
    ↓ 失败
Level 3: 通用绕过（UA伪装 + X-Forwarded-For + Referer伪装 + AMP + EU IP）
    ↓ 失败
Level 4: archive.today 存档（CAPTCHA 自动检测）
    ↓ 失败
Level 5: Google Cache
    ↓ 失败
Level 6: agent-fetch 本地工具

Поддерживаемые платные сайты (выборочно)

Категория	Сайты
🇺🇸 СМИ США	NYT, WSJ, Bloomberg, Washington Post, The Information, Forbes, WIRED, The New Yorker, The Atlantic, USA Today, Boston Globe, LA Times, Chicago Tribune, Seattle Times, MIT Tech Review, Foreign Affairs
🇬🇧 СМИ Великобритании	FT, The Times, The Telegraph, The Economist
🇩🇪 СМИ Германии	Spiegel, Zeit, Sueddeutsche, FAZ, Handelsblatt
🇫🇷 СМИ Франции	Le Monde, Le Figaro, Le Parisien
🇦🇺 СМИ Австралии	The Australian, SMH, The Age, Brisbane Times
🇨🇳 СМИ на китайском	SCMP, Medium
🌐 Другое	Haaretz, NZ Herald, Statista, Quora

Технологии обхода (на основе Bypass Paywalls Clean)

Технология	Принцип	Покрытие
Googlebot UA + X-Forwarded-For	Белый список поисковых роботов, прямой доступ к полному тексту	~50 сайтов
Bingbot UA	То же самое, некоторые сайты более дружелюбны к Bing	~4 сайта
Очистка Cookie + подмена Referer	Удаление счетчиков cookie, имитация перехода из Google/Facebook/Twitter	Пейволлы со счетчиками
AMP-страницы	Реализация пейволлов в AMP-версиях слабее	~10 сайтов
Извлечение JSON-LD	Извлечение articleBody из структурированных данных внутри HTML	Универсально
archive.today	Получение сохраненного контента из веб-архива	Резервный вариант

🎨 Что можно сгенерировать?

Формат вывода	Назначение	Примеры триггеров
🎙️ Подкаст	Прослушивание по пути на работу	"сгенерируй подкаст", "сделай аудио"
📊 PPT	Презентация для команды	"сделай PPT", "создай слайды"
🗺️ Интеллект-карта	Структурирование мыслей	"нарисуй интеллект-карту", "создай майнд-карту"
📝 Викторина	Самопроверка	"создай викторину", "составь вопросы"
🎬 Видео	Визуализация	"сделай видео"
📄 Отчет	Глубокий анализ	"создай отчет", "напиши резюме"
📈 Инфографика	Визуализация данных	"сделай инфографику"
📋 Флеш-карточки	Закрепление памяти	"сделай флеш-карточки"

⚡ Быстрый старт

Предварительные требования

✅ Python 3.9+
✅ Git (предустановлен в macOS/Linux)

Только это! Остальные зависимости устанавливаются автоматически.

Установка (3 шага)

# 1. 克隆到 Claude skills 目录
cd ~/.claude/skills/
git clone https://github.com/joeseesun/qiaomu-anything-to-notebooklm
cd qiaomu-anything-to-notebooklm

# 2. 一键安装所有依赖
./install.sh

# 3. 按提示配置 MCP，然后重启 Claude Code

Первое использование

# NotebookLM 认证（只需一次）
notebooklm login
notebooklm list  # 验证成功

# 环境检查（可选）
./check_env.py

Настройка транскрипции подкастов (опционально)

Для использования функций транскрипции Xiaoyuzhou/Ximalaya/Bilibili настройте API Get-заметок:

export GETNOTE_API_KEY="your_api_key"
export GETNOTE_CLIENT_ID="your_client_id"

💡 Примеры использования

Сценарий 1: Платная статья → Подкаст

你：把这篇 The Information 文章生成播客 https://www.theinformation.com/articles/...

AI 自动执行：
  ✓ 检测付费墙 → Googlebot UA 绕过
  ✓ 获取完整文章内容
  ✓ 上传到 NotebookLM
  ✓ 生成播客

✅ 结果：/tmp/article_podcast.mp3

Сценарий 2: Подкаст (Xiaoyuzhou) → PPT

你：这期小宇宙播客做成 PPT https://xiaoyuzhoufm.com/episode/...

AI 自动执行：
  ✓ Get笔记 API 转写音频（2-5 分钟）
  ✓ 上传转写文本到 NotebookLM
  ✓ 生成 PPT

✅ 结果：/tmp/podcast_slides.pdf（25 页）

Сценарий 3: Электронная книга → Глубокий анализ

你：深度分析这本书 /Users/joe/Books/sapiens.epub

AI 自动执行：
  ✓ 提取 EPUB 全文
  ✓ 上传到 NotebookLM
  ✓ 生成 12 个问题（3 轮递进：概览→深度挖掘→综合反刍）
  ✓ 逐轮提问，后轮受益于前轮对话上下文
  ✓ 输出结构化 JSON

✅ 结果：/tmp/sapiens_analysis.json（12 个问答，含核心观点、论证拆解、矛盾分析、认知改变）

Сценарий 4: Тред X/Twitter → Интеллект-карта

你：这个推文线程做成思维导图 https://x.com/user/status/123...

AI 自动执行：
  ✓ 代理级联获取推文内容（含完整线程）
  ✓ 上传到 NotebookLM
  ✓ 生成思维导图

✅ 结果：/tmp/tweet_mindmap.json

Сценарий 5: Статья WeChat → Документ Feishu (глубокий анализ)

你：深度分析这篇微信文章并写入飞书 https://mp.weixin.qq.com/s/abc123

AI 自动执行：
  ✓ MCP 浏览器模拟抓取微信文章
  ✓ 上传到 NotebookLM
  ✓ 生成 10 个问题并递归提问
  ✓ 格式化为飞书 Markdown
  ✓ 自动创建飞书文档

✅ 结果：飞书文档已创建（含完整问答）

🎯 Основные характеристики

🧠 Интеллектуальное распознавание

Автоматическое определение типа ввода, не нужно указывать вручную

https://mp.weixin.qq.com/s/xxx        → 微信公众号
https://xiaoyuzhoufm.com/episode/xxx  → 小宇宙播客
https://x.com/user/status/xxx         → X/Twitter
https://youtube.com/watch?v=xxx       → YouTube 视频
/path/to/file.epub                    → EPUB 电子书
"搜索 'AI 趋势'"                       → 搜索查询

🛡️ Автоматический обход пейволлов

Не требует ручного вмешательства, автоматическое обнаружение и обход

检测付费墙 → 选择最佳策略 → 获取完整内容
     ︿________全自动________︿

🚀 Полностью автоматическая обработка

От получения до генерации — всё в один клик

输入 → 获取 → 转换 → 上传 → 生成 → 下载
      ︿___________全自动___________︿

🌐 Интеграция разных источников

Поддержка смешивания различных источников контента

付费文章 + YouTube 视频 + EPUB + 播客 → 综合报告

📦 Техническая архитектура

┌──────────────────────────────────────────┐
│            用户自然语言输入                │
│  "把这个付费文章生成播客 https://..."     │
└──────────────────┬───────────────────────┘
                   │
                   ▼
┌──────────────────────────────────────────┐
│         Claude Code Skill                 │
│  • 智能识别内容源类型                      │
│  • 自动调用对应工具                        │
└──────────┬───────────────────────────────┘
           │
   ┌───────┴───────┐
   │               │
   ▼               ▼
┌──────────┐  ┌──────────────┐  ┌──────────┐  ┌──────────┐
│ 微信 MCP  │  │ 付费墙绕过   │  │ 播客转写  │  │ markitdown│
│ 浏览器模拟 │  │ 6层级联策略  │  │ Get笔记API│  │ 文件转换  │
└─────┬────┘  └──────┬───────┘  └─────┬────┘  └─────┬────┘
      │              │                 │              │
      └──────────────┴─────────────────┴──────────────┘
                           │
                           ▼
              ┌────────────────────────┐
              │    NotebookLM API      │
              │  • 上传内容源           │
              │  • AI 生成目标格式      │
              └───────────┬────────────┘
                          │
                          ▼
              ┌────────────────────────┐
              │       生成的文件        │
              │ .mp3 / .pdf / .json    │
              └────────────────────────┘

📂 Структура проекта

qiaomu-anything-to-notebooklm/
├── SKILL.md                          # Skill 定义文件
├── README.md                         # 本文件
├── main.py                           # 主入口：CLI 智能处理器
├── install.sh                        # 一键安装脚本
├── check_env.py                      # 13 项环境检查
├── package.sh                        # 打包分享脚本
├── requirements.txt                  # Python 依赖
├── LICENSE                           # MIT
├── scripts/
│   ├── fetch_url.sh                  # URL 抓取 + 付费墙绕过（6 层级联）
│   └── get_podcast_transcript.py     # 播客/视频转写（Get笔记 API）
├── wexin-read-mcp/                   # 微信公众号 MCP 服务器
│   └── src/
│       ├── server.py                 # MCP 入口
│       ├── scraper.py                # Playwright 浏览器模拟
│       └── parser.py                 # HTML 解析
└── feishu-read-mcp/                  # 飞书文档 MCP 服务器
    └── src/
        ├── server.py                 # MCP 入口
        ├── scraper.py                # 飞书文档抓取
        ├── parser.py                 # HTML → Markdown
        └── image_handler.py          # 图片处理

🔧 Продвинутое использование

Режим глубокого анализа

python main.py https://example.com/article --deep-analysis
# 自动生成 12 个问题（3 轮递进：概览→深度挖掘→综合反刍），逐轮提问，输出结构化 JSON

Стратегия трех последовательных этапов:

Этап	Кол-во вопросов	Цель	Пример
1-й этап: Обзор и структура	4	Формирование общего понимания	Обобщить тему, перечислить структуру, извлечь основные аргументы, найти прорывной контент
2-й этап: Глубокое погружение	5	Анализ деталей	Разобрать логику аргументации, проанализировать противоречия, выделить ключевые инсайты, задать острые вопросы
3-й этап: Синтез и рефлексия	3	Когнитивное развитие	Главное изменение в мышлении, руководство к действию, причины рекомендации

NotebookLM сохраняет контекст в рамках одной сессии, поэтому вопросы последующих этапов автоматически опираются на ответы предыдущих, формируя настоящий "пошаговый" глубокий анализ.

Вывод в документы Feishu

python main.py ./book.epub --deep-analysis --to-feishu
# 深度分析后自动创建飞书文档

Пакетная обработка

把这些文章都生成播客：
1. https://mp.weixin.qq.com/s/abc123
2. https://www.wsj.com/articles/...
3. /Users/joe/notes.md

🐛 Устранение неполадок

Инструмент MCP не найден

python ~/.claude/skills/qiaomu-anything-to-notebooklm/wexin-read-mcp/src/server.py
cd ~/.claude/skills/qiaomu-anything-to-notebooklm/wexin-read-mcp
pip install -r requirements.txt
playwright install chromium

Ошибка аутентификации NotebookLM

notebooklm login     # 重新登录
notebooklm list      # 验证

Ошибка обхода пейволла

Некоторые сайты с жестким пейволлом (например, The Information) не отправляют контент на стороне сервера, требуется архивация через archive.today. Скрипт автоматически обнаружит это и предложит решение:

⚠️  archive.ph needs human verification.
   已自动打开浏览器，请完成验证后重试

Проверка окружения

./check_env.py       # 13 项全面检查
./install.sh         # 重新安装

❓ Часто задаваемые вопросы

A: NotebookLM поддерживает многоязычность, лучше всего работает с китайским и английским.

A: Синтез речи Google AI. На английском это диалог двух ИИ-ведущих, на китайском — монолог.

A: Этот инструмент предназначен только для личного обучения и исследований. Технический принцип основан на белых списках поисковых систем (Googlebot/Bingbot), взлом шифрования не производится. Рекомендуется поддерживать качественные новостные медиа, оформляя подписку.

Минимум: около 500 иероглифов/слов
Максимум: около 500 000 иероглифов/слов
Рекомендуется: 1000-10000 иероглифов/слов для наилучшего результата

A: У официальных аккаунтов WeChat есть защита от парсинга, MCP использует эмуляцию браузера Playwright для обхода. Для других источников (веб-страницы, YouTube, PDF) MCP не требуется.

A: Через API Get-заметок поддерживаются Xiaoyuzhou, Ximalaya и видео Bilibili. YouTube обрабатывается напрямую через NotebookLM.

🙏 Благодарности

Google NotebookLM - генерация контента ИИ
Microsoft markitdown - преобразование файлов
Bypass Paywalls Clean - справочник стратегий обхода пейволлов
wexin-read-mcp - парсинг WeChat
notebooklm-py - CLI для NotebookLM

📄 Лицензия

MIT License - только для личного обучения и исследований

Если вам понравилось, пожалуйста, поставьте ⭐ Star!

Made with ❤️ by Joe · Twitter @vista8 · Официальный аккаунт WeChat «向阳乔木推荐看»