Зміст
Коротко
GitHub опублікував GitHub Multilingual Repositories Dataset — набір метаданих, а не сирого тексту репозиторіїв. У ньому понад 80 мільйонів рядків класифікації по 40 мільйонах публічних проєктів: мова README, найобговорюванішого issue та pull request. Ліцензія CC0-1.0. Мета — допомогти дослідникам і розробникам знаходити неангломовний вміст у open source і будувати на цьому оцінку багатомовних ШІ-інструментів.
Що сталося
Код пишуть мовами програмування, але співпраця навколо нього — природними мовами. README пояснюють установку, в issues просять допомогу, в pull request'ах сперечаються про дизайн. Часто це англійська, але далеко не завжди. У міру зростання ролі ШІ в розробці важливіше розуміти, де в open source живе багатомовний контент.
Датасет не вивантажує повні тексти. Для кожного публічного проєкту дається:
- класифікація мови README, найкоментованішого issue і PR — за першими 150 символами (тексти коротші за 20 символів відкидаються);
- три незалежні класифікатори — fastText, gcld3, lingua-py — кожен зі своєю оцінкою впевненості; у вибірку потрапляють лише мітки з впевненістю > 0,5;
- метадані: дата створення, розмір, зірки, форки, основна мова програмування, ліцензія SPDX, кількість issues і PR, дата знімка.
Інженери GitHub навмисно не зливають три класифікатори в один ярлик: у моделей різна калібровка, особливо для мов із малим корпусом. Дослідник сам обирає компроміс точності й повноти.
Розподіл мов відрізняється за типом контенту. У README лідирує португальська — понад три мільйони репозиторіїв. В issue частіше зустрічається корейська, тоді як у README вона лише на п'ятому місці серед нерідних мов.
Чому це важливо
Багато європейських і інших мов недопредставлені у веб-корпусах для навчання LLM. Ризик очевидний: асистенти коду й генератори документації добре працюють для одних спільнот і гірше — для інших.
Контент репозиторія відрізняється від «звичайного» веб-тексту: інструкції з установки, шаблони баг-репортів, коментарі рев'ю. Датасет дає сигнали для пошуку, а не еталонну розмітку. GitHub попереджає — не використовувати набір як еталон для бенчмарків визначення мови і не виводити з нього чутливі атрибути людей.
Публікація вписується в зобов'язання Microsoft щодо європейської цифрової повестки 2025 року.
На практиці
- Пошук корпусів — відфільтруйте репозиторії з високою впевненістю за потрібною мовою; самі тексти — через API GitHub.
- Оцінка ШІ-інструментів — зберіть тестові набори для код-асистентів на цільових мовах.
- Дослідження спільнот — порівняйте, як неангломовні команди використовують issues проти README.
- Аргументація для продуктів — дані про частку мов допомагають обґрунтувати локалізацію.
- Суворість фільтра — для продакшн-пайплайну комбінуйте пороги confidence і перетин класифікаторів.
Датасет на GitHub під CC0 — можна критикувати, розширювати і будувати поверх нього інструменти.
Підсумок
Це не «ще один Common Crawl», а карта багатомовної співпраці в open source. Для розробників ШІ-інструментів і дослідників представленості мов — практичний стартовий матеріал із прозорими обмеженнями.