Разработчики Google AI протестировали решение, на основе которого недавно был запущен сервис Google Cloud AutoML Tables (beta), на 8,5-часовом KaggleDays SF Hackathon. Несмотря на то, что в хакатоне принимали участие многие дата саентисты уровня Grandmaster на Kaggle, команда Google в первом соревновании лидировала большую часть дня, а к концу соревнования заняла второе место с небольшим отрывом.
Решение AutoML команды Google представляло собой многоступенчатый конвейер TensorFlow. Первый этап отвечает за автоматическую инженерию признаков, поиск архитектуры и настройку гиперпараметров с помощью поиска. Перспективные модели с первого этапа подаются на второй этап, где для лучшего выбора модели применяются кросс-валидация и бэггинг. Лучшие модели второго этапа затем объединяются в финальную модель.
Табличные данные к настоящему моменту уже хорошо изучены. По этой причине стали возможны такие end-to-end решения, как AutoML, позволяющие самостоятельно выбирать модели и настраивать их, при этом показывая достойные результаты.
AutoML от Google, по словам разработчиков, соответствует трем ключевым критериям:
- Полная автоматизация: данные и вычислительные ресурсы являются единственными входными данными, а обслуживаемая модель TensorFlow — выходными. Весь процесс не требует вмешательства человека.
- Обширный охват: решение применимо к большинству произвольных задач с табличными данными.
- Высокое качество: сгенерированные AutoML модели имеют качество, сопоставимое с моделями, созданными вручную ведущими экспертами по ML.
Внедрение AutoML Tables регулярно показывало хорошие результаты на бенчмарках на соревнованиях Kaggle. Как показано на графике выше, решение демонстрирует самые современные характеристики в отрасли.