• CodeNet: датасет IBM для нейросетей, генерирующих и анализирующих код

    На конференции Think IBM представила CodeNet – крупнейший open-source датасет для обучения нейронных сетей программированию. Датасет состоит из 14 миллионов примеров кода, написанных на 55 языках программирования.


    neurohive telegram channel banner desktop

    Программисты тратят более половины рабочего времени не на написание кода, а на его отладку. Соответствующие денежные затраты на отладку кода IT-сектора оцениваются в 312 миллиардов долларов в год. Инструменты генерации и анализа кода на базе искусственного интеллекта позволяют существенно сократить эти затраты, позволяя программистам сосредоточиться на более творческих и менее рутинных задачах. Цель разработки CodeNet состоит в том, чтобы ускорить разработку систем искусственного интеллекта, которые автоматически переводят код на другой язык программирования, выявляют совпадения и сходства между различными примерами кода и настраивают ограничения на основе конкретных задач разработчика. Перевод кода на более современный или эффективный язык программирования требует знания как исходного, так и конечного языков. Например, Банк Содружества Австралии потратил около 750 миллионов долларов в течение пяти лет на перевод своей платформы с COBOL на Java. Разработка транскомпиляторов является трудоемкой задачей, потому что разные языки имеют разный синтаксис и используют различные API, функции стандартных библиотек и типы переменных.

    Датасет содержит более 500 млн строк кода на C++, Java, Python, Go, COBOL, Pascal и FORTRAN. CodeNet примерно в 10 раз превышает по размеру предыдущий крупнейший датасет, содержащий 52 000 примеров кода. Датасет содержит образцы кода, предназначенные для обучения нейросетей выполнению целого ряда задач программирования, включая поиск кода и обнаружение клонов. Помимо этого, датасет включает метаданные и аннотации, такие как размер кода, объем памяти, время выполнения процессором и состояние кода, что позволяет отличить эффективный код от неотлаженного. Более 90% кодов в CodeNet содержат документацию, включающую постановку задачи и спецификации форматов ввода и вывода. Для семи миллионов примеров IBM также представила примеры входных и выходных данных. Используя CodeNet, аналитики данных могут запускать образцы кода для извлечения дополнительных метаданных и проверки правильности выходных данных генеративных нейронных сетей.



    Подписаться
    Уведомить о
    guest

    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии