CodeNet: датасет IBM для нейросетей, генерирующих и анализирующих код

На конференции Think IBM представила CodeNet – крупнейший open-source датасет для обучения нейронных сетей программированию. Датасет состоит из 14 миллионов примеров кода, написанных на 55 языках программирования.

Программисты тратят более половины рабочего времени не на написание кода, а на его отладку. Соответствующие денежные затраты на отладку кода IT-сектора оцениваются в 312 миллиардов долларов в год. Инструменты генерации и анализа кода на базе искусственного интеллекта позволяют существенно сократить эти затраты, позволяя программистам сосредоточиться на более творческих и менее рутинных задачах. Цель разработки CodeNet состоит в том, чтобы ускорить разработку систем искусственного интеллекта, которые автоматически переводят код на другой язык программирования, выявляют совпадения и сходства между различными примерами кода и настраивают ограничения на основе конкретных задач разработчика. Перевод кода на более современный или эффективный язык программирования требует знания как исходного, так и конечного языков. Например, Банк Содружества Австралии потратил около 750 миллионов долларов в течение пяти лет на перевод своей платформы с COBOL на Java. Разработка транскомпиляторов является трудоемкой задачей, потому что разные языки имеют разный синтаксис и используют различные API, функции стандартных библиотек и типы переменных.

Датасет содержит более 500 млн строк кода на C++, Java, Python, Go, COBOL, Pascal и FORTRAN. CodeNet примерно в 10 раз превышает по размеру предыдущий крупнейший датасет, содержащий 52 000 примеров кода. Датасет содержит образцы кода, предназначенные для обучения нейросетей выполнению целого ряда задач программирования, включая поиск кода и обнаружение клонов. Помимо этого, датасет включает метаданные и аннотации, такие как размер кода, объем памяти, время выполнения процессором и состояние кода, что позволяет отличить эффективный код от неотлаженного. Более 90% кодов в CodeNet содержат документацию, включающую постановку задачи и спецификации форматов ввода и вывода. Для семи миллионов примеров IBM также представила примеры входных и выходных данных. Используя CodeNet, аналитики данных могут запускать образцы кода для извлечения дополнительных метаданных и проверки правильности выходных данных генеративных нейронных сетей.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt