Зміст
Коротко
На Dev.to опубліковано гайд із отримання транскриптів YouTube через REST API замість браузерного скрейпінгу, який ламається при кожній зміні верстки. Відповідь — JSON з таймкодами, простим текстом або сирими часовими мітками: зручно для сумаризації LLM, RAG за відеоконтентом і генерації субтитрів.
Що сталося
Автор (творець YouTube Transcript API на RapidAPI) описує типову біль: застосунки для переказу роликів, семантичного пошуку по каналу або автоматичних субтитрів потребують стабільного тексту з прив'язкою до часу. Парсинг сторінки або недокументовані ендпоінти живуть тижнями, поки YouTube не змінить розмітку.
Запропонований шлях — один HTTP-запит до get-youtube-transcript.p.rapidapi.com з заголовками X-RapidAPI-Key і X-RapidAPI-Host. Параметр video_id — 11 символів або повне посилання через url. Формат відповіді — format: json, text або raw. Мови — через languages=en,pt.
У статті — мінімальний приклад на curl і Python з requests. Тариф Basic — 100 безкоштовних запитів на місяць; Ultra — до 100k запитів за $9 для пакетної індексації. Перед продакшеном автор радить прогнати публічний video_id у тестовій консолі RapidAPI.
Чому це важливо
Відео — величезний корпус знань, але LLM не «дивляться» ролики напряму: потрібен текст. Надійний транскрипт з таймкодами дозволяє різати контент на чанки для векторної бази, посилатися на момент у плеєрі і будувати доступність без ручної правки SRT.
Відмова від скрейпінгу зменшує операційні ризики: менше проксі, капч і нічних лагоджень після оновлення YouTube. Для мінімального продукту платний API з передбачуваним контрактом часто дешевший за інженерний час на підтримку парсера.
На практиці
- Зареєструйтесь на RapidAPI — підключіть YouTube Transcript API, отримайте ключ.
- Перевірте один ролик —
curlзformat=json. - Сумаризація — склеюйте
textабо передавайте чанки зstart/durationу промпт GPT/Claude. - RAG — ріжте часові мітки на перекривні сегменти, індексуйте з
video_idі зміщенням у метаданих. - Пакетна індексація каналу — оцініть обсяг, за потреби перейдіть на Ultra.
- Мови — явно вказуйте
languages, якщо потрібна не лише автогенерована англійська.
| format | Коли використовувати |
|---|---|
json |
LLM, метадані + таймкоди |
text |
Швидкий переказ без структури |
raw |
Субтитри, експорт у SRT |
Підсумок
Гайд — практичний чеклист «текст з YouTube без скрейпінгу». Якщо збираєте бота для переказу лекцій або RAG за відеоблогом, почніть із REST-контракту та тестової консолі RapidAPI, а не з парсера розмітки сторінки.