← Усі статті

Транскрипти YouTube для сумаризації та RAG: REST замість скрейпінгу

Як отримувати JSON-транскрипти з таймкодами через API на RapidAPI — для LLM, векторного пошуку та субтитрів без крихкого парсингу сторінки.

Зміст

Коротко

На Dev.to опубліковано гайд із отримання транскриптів YouTube через REST API замість браузерного скрейпінгу, який ламається при кожній зміні верстки. Відповідь — JSON з таймкодами, простим текстом або сирими часовими мітками: зручно для сумаризації LLM, RAG за відеоконтентом і генерації субтитрів.

Що сталося

Автор (творець YouTube Transcript API на RapidAPI) описує типову біль: застосунки для переказу роликів, семантичного пошуку по каналу або автоматичних субтитрів потребують стабільного тексту з прив'язкою до часу. Парсинг сторінки або недокументовані ендпоінти живуть тижнями, поки YouTube не змінить розмітку.

Запропонований шлях — один HTTP-запит до get-youtube-transcript.p.rapidapi.com з заголовками X-RapidAPI-Key і X-RapidAPI-Host. Параметр video_id — 11 символів або повне посилання через url. Формат відповіді — format: json, text або raw. Мови — через languages=en,pt.

У статті — мінімальний приклад на curl і Python з requests. Тариф Basic — 100 безкоштовних запитів на місяць; Ultra — до 100k запитів за $9 для пакетної індексації. Перед продакшеном автор радить прогнати публічний video_id у тестовій консолі RapidAPI.

Чому це важливо

Відео — величезний корпус знань, але LLM не «дивляться» ролики напряму: потрібен текст. Надійний транскрипт з таймкодами дозволяє різати контент на чанки для векторної бази, посилатися на момент у плеєрі і будувати доступність без ручної правки SRT.

Відмова від скрейпінгу зменшує операційні ризики: менше проксі, капч і нічних лагоджень після оновлення YouTube. Для мінімального продукту платний API з передбачуваним контрактом часто дешевший за інженерний час на підтримку парсера.

На практиці

  1. Зареєструйтесь на RapidAPI — підключіть YouTube Transcript API, отримайте ключ.
  2. Перевірте один роликcurl з format=json.
  3. Сумаризація — склеюйте text або передавайте чанки з start/duration у промпт GPT/Claude.
  4. RAG — ріжте часові мітки на перекривні сегменти, індексуйте з video_id і зміщенням у метаданих.
  5. Пакетна індексація каналу — оцініть обсяг, за потреби перейдіть на Ultra.
  6. Мови — явно вказуйте languages, якщо потрібна не лише автогенерована англійська.
format Коли використовувати
json LLM, метадані + таймкоди
text Швидкий переказ без структури
raw Субтитри, експорт у SRT

Підсумок

Гайд — практичний чеклист «текст з YouTube без скрейпінгу». Якщо збираєте бота для переказу лекцій або RAG за відеоблогом, почніть із REST-контракту та тестової консолі RapidAPI, а не з парсера розмітки сторінки.