← Усі статті

GitHub відкрив датасет багатомовних репозиторіїв для ШІ

80+ млн рядків метаданих по 40 млн публічних репозиторіїв: класифікація мови README, issues і PR під CC0 — для оцінки багатомовних інструментів розробки.

Зміст

Коротко

GitHub опублікував GitHub Multilingual Repositories Dataset — набір метаданих, а не сирого тексту репозиторіїв. У ньому понад 80 мільйонів рядків класифікації по 40 мільйонах публічних проєктів: мова README, найобговорюванішого issue та pull request. Ліцензія CC0-1.0. Мета — допомогти дослідникам і розробникам знаходити неангломовний вміст у open source і будувати на цьому оцінку багатомовних ШІ-інструментів.

Що сталося

Код пишуть мовами програмування, але співпраця навколо нього — природними мовами. README пояснюють установку, в issues просять допомогу, в pull request'ах сперечаються про дизайн. Часто це англійська, але далеко не завжди. У міру зростання ролі ШІ в розробці важливіше розуміти, де в open source живе багатомовний контент.

Датасет не вивантажує повні тексти. Для кожного публічного проєкту дається:

  • класифікація мови README, найкоментованішого issue і PR — за першими 150 символами (тексти коротші за 20 символів відкидаються);
  • три незалежні класифікатори — fastText, gcld3, lingua-py — кожен зі своєю оцінкою впевненості; у вибірку потрапляють лише мітки з впевненістю > 0,5;
  • метадані: дата створення, розмір, зірки, форки, основна мова програмування, ліцензія SPDX, кількість issues і PR, дата знімка.

Інженери GitHub навмисно не зливають три класифікатори в один ярлик: у моделей різна калібровка, особливо для мов із малим корпусом. Дослідник сам обирає компроміс точності й повноти.

Розподіл мов відрізняється за типом контенту. У README лідирує португальська — понад три мільйони репозиторіїв. В issue частіше зустрічається корейська, тоді як у README вона лише на п'ятому місці серед нерідних мов.

Чому це важливо

Багато європейських і інших мов недопредставлені у веб-корпусах для навчання LLM. Ризик очевидний: асистенти коду й генератори документації добре працюють для одних спільнот і гірше — для інших.

Контент репозиторія відрізняється від «звичайного» веб-тексту: інструкції з установки, шаблони баг-репортів, коментарі рев'ю. Датасет дає сигнали для пошуку, а не еталонну розмітку. GitHub попереджає — не використовувати набір як еталон для бенчмарків визначення мови і не виводити з нього чутливі атрибути людей.

Публікація вписується в зобов'язання Microsoft щодо європейської цифрової повестки 2025 року.

На практиці

  1. Пошук корпусів — відфільтруйте репозиторії з високою впевненістю за потрібною мовою; самі тексти — через API GitHub.
  2. Оцінка ШІ-інструментів — зберіть тестові набори для код-асистентів на цільових мовах.
  3. Дослідження спільнот — порівняйте, як неангломовні команди використовують issues проти README.
  4. Аргументація для продуктів — дані про частку мов допомагають обґрунтувати локалізацію.
  5. Суворість фільтра — для продакшн-пайплайну комбінуйте пороги confidence і перетин класифікаторів.

Датасет на GitHub під CC0 — можна критикувати, розширювати і будувати поверх нього інструменти.

Підсумок

Це не «ще один Common Crawl», а карта багатомовної співпраці в open source. Для розробників ШІ-інструментів і дослідників представленості мов — практичний стартовий матеріал із прозорими обмеженнями.