← Все статьи

GitHub открыл датасет многоязычных репозиториев для ИИ

80+ млн строк метаданных по 40 млн публичных репозиториев: классификация языка README, issues и PR под CC0 — для оценки и обучения мультиязычных инструментов разработки.

Содержание

Коротко

GitHub опубликовал GitHub Multilingual Repositories Dataset — набор метаданных, а не сырого текста репозиториев. В нём более 80 миллионов строк классификации по 40 миллионам публичных проектов: язык README, самого обсуждаёмого issue и pull request. Лицензия CC0-1.0. Цель — помочь исследователям и разработчикам находить нерусско- и неанглоязычное содержимое в open source и строить на этом оценку мультиязычных ИИ-инструментов для разработчиков.

Что произошло

Код пишут на языках программирования, но сотрудничество вокруг него — на естественных языках. README объясняют установку, в issues просят помощь, в pull request'ах спорят о дизайне. Часто это английский, но далеко не всегда. По мере роста роли ИИ в разработке важнее понимать, где в open source живёт многоязычный контент.

Датасет не выгружает полные тексты репозиториев. Для каждого публичного проекта даётся:

  • классификация языка README, самого комментируемого issue и самого комментируемого PR — по первым 150 символам (тексты короче 20 символов отбрасываются);
  • три независимых классификатора — fastText, gcld3, lingua-py — каждый со своей оценкой уверенности; в выборку попадают только метки с уверенностью > 0,5;
  • метаданные репозитория: дата создания, размер, звёзды, форки, основной язык программирования, лицензия SPDX, число issues и PR, дата снимка.

Инженеры GitHub намеренно не схлопывают три классификатора в один ярлык: у моделей разная калибровка, особенно для языков с малым корпусом. Исследователь сам выбирает компромисс точности и полноты — например, требовать согласия всех трёх для греческого подмножества или одного классификатора для широкого обзора романских языков.

Распределение языков различается по типам контента. В README лидирует португальский — более трёх миллионов репозиториев с нерусским/неанглийским текстом. В issue чаще встречается корейский, тогда как в README он только на пятом месте среди неродных языков.

Почему это важно

Многие европейские и другие языки недопредставлены в веб-корпусах, на которых обучают и тестируют LLM. Риск очевиден: ассистенты кода, генераторы документации и ревьюеры хорошо работают для одних сообществ и хуже — для других.

Контент репозитория принципиально отличается от «обычного» веб-текста: инструкции по установке, шаблоны баг-репортов, комментарии ревью, нормы сообщества. Датасет даёт сигналы для поиска, а не эталонную разметку: короткие фрагменты, бейджи, смешение языков и код в одной строке ломают идентификацию языка. GitHub прямо предупреждает — не использовать набор как эталон для бенчмарков определения языка и не выводить из него чувствительные атрибуты людей; это метаданные уровня репозитория.

Публикация вписывается в обязательства Microsoft по европейской цифровой повестке 2025 года — открытые данные для мультиязычного ИИ. 16 июня 2026 команда обсуждала датасет на Open Innovation Dialogue Hub в Страсбурге.

На практике

  1. Поиск корпусов — отфильтруйте репозитории с высокой уверенностью по нужному языку для сбора README/issue/PR вручную (сами тексты — через API GitHub, не из датасета).
  2. Оценка ИИ-инструментов — соберите тестовые наборы для код-ассистентов и генераторов документации на целевых языках; сравните качество ответов до и после дообучения или смены промптов.
  3. Исследование сообществ — изучите, как неанглоязычные команды используют issues против README: разная динамика поддержки и онбординга.
  4. Аргументация для продуктов — данные о доле португальского, корейского и других языков помогают обосновать локализацию интерфейса и моделей перед менеджментом.
  5. Строгость фильтра — для продакшн-пайплайна комбинируйте пороги confidence и пересечение классификаторов; для разведки ослабьте критерии.

Датасет лежит на GitHub под CC0 — можно критиковать, расширять и строить поверх него инструменты без правовых барьеров.

Итог

Это не «ещё один Common Crawl», а карта многоязычного сотрудничества в open source. Для разработчиков ИИ-инструментов и исследователей представленности языков — практичный стартовый материал с прозрачными ограничениями. Если соберёте на его основе тестовый набор или утилиту — GitHub просит поделиться результатами с сообществом.