Предложение вакансии Data scientist на рынке труда постоянно растет, количество соискателей тоже. Возможностей для входа в эту профессию много — курсы по специальности помогут получить необходимые знания.
Блог Acing AI публикует посты о том, как проходили интервью разработчиков Data science в крупнейших мировых компаниях. В этом материале мы расскажем, каких знаний ждут от специалистов по работе с данными и какие вопросы задают на собеседованиях на вакансию Data scientist и ML-инженер в компаниях:
Airbnb — платформа онлайн-бронирования жилья в разных странах. В 2018 году пользователи забронировали на Airbnb больше 140 миллионов ночей.
Paypal — электронная платежная система с доходом в 13,09 млрд долларов в 2017 году и операциями с более чем 100 валютами.
Capital One — банк, который занимает 10-е место в списке крупнейших банков США по размеру активов.
Этапы собеседования
Собеседования в компаниях на вакансию Data scientist обычно проходят в несколько этапов:
- Просмотр резюме;
- Тестовое задание. В Airbnb на этом этапе кандидат получает набор данных и базовые вопросы на которые нужно ответить. В Paypal — задачу на платформе Сodility. В Capital One — задания связанные с интерпретацией данных и множественным выбором;
- Личные собеседования и интервью с командой. Их может быть разное количество, в Airbnb их 4.
Важно, как человек сможет вписаться в команду, разделяет ли он ценности компании. Навыки общения обычно проверяются во время интервью с командой. Например, в Airbnb на этапе тестового задания кандидат проводит целый день, работая с командой над определенной задачей. Так компания смотрит на личные навыки, результат работы и на умение работать в команде.
Общие вопросы
Для того, чтобы увидеть, насколько компетенции кандидата соответствуют позиции, в компаниях задают вопросы по теории, но могут попросить выполнить практическое задание прямо на собеседовании.
Задач, с которыми работают аналитики данных, очень много. Это может быть обработка и предобработка данных, статистика, создание и оценка моделей машинного обучения, визуализация данных и многое другое. Специфика сильно разнится от компании к компании, точно понадобятся математика, статистика и умение разбираться в алгоритмах.
Работа с данными
- Как заполнить пропущенные значения в данных?
- Что делать, если датасет несбалансированный?
- Найдите потенциальные причины аномалий в наборе данных.
- Что делать, если данных не хватает или они плохого качества?
Теоретические вопросы
- Что такое логистическая регрессия?
- Что такое центральная предельная теорема и как её доказать?
- Как отделить новые признаки от уже существующих?
- Как бы вы использовали Python в работе с очень большим файлом чисел, разделенных табуляцией, для подсчета частоты каждого числа?
- Как будет выглядеть распределение ежедневных поездок в Нью-Йорке?
Практические задания
- Напишите алгоритм для игры в крестики-нолики.
- Напишите функцию, которая выполняет сложение чисел, представленных в виде двух связанных списков.
- Напишите функцию, которая вычисляет матричные суммы.
- Напишите функцию, которая берет предложение и выводит с напечатанными словами в обратном направлении за O(n) времени.
- Напишите функцию, которая принимает массив данных, разбивает его на каждый возможный набор из двух массивов и выводит максимальные различия между минимумами двух массивов за время O (n).
- Напишите программу, которая выполняет сортировку слиянием.
- Разработайте метрику, которая поможет уменьшить смещение в датасете.
Задачи
Если вы знаете, что у вашего друга двое детей и что по крайней мере один из них мальчик, какова вероятность, что другой тоже мальчик?
Если взять кубик, какой сценарий будет наиболее вероятным: выпадет одна шестерка в шести бросках, минимум две шестерки в двенадцати бросках или минимум сто шестерок в шестиста бросках?
У вас есть 70 красных шариков. Соотношение зеленых и красных шариков составляет 2 к 7, сколько тогда зеленых?
Сколько карандашей используется в Индии?
Вопросы, зависящие от специфики компании
PayPal
У Paypal более 254 миллионов активных клиентов и 2,7 миллиарда платежных операций по всему миру. Компания располагает более 160 PB данных, следовательно, много задач посвящены их подготовке и предобработке.
Примеры вопросов:
- Как вы рассматривали выбор overfit/variable в этом проекте (на примере какого-либо проекта из резюме)?
- Имея корпус данных из транзакций PayPal — имя, адрес электронной почты, IP-адрес, сумма, продукт и другие признаки, как отличить законные транзакции от мошеннических?
- Если вы объедините два набора данных в SAS без оператора BY, каким будет результирующий вывод?
Capital One
Транзакции по кредитным картам, которыми располагает Capital One, генерируют огромное количество данных. По состоянию на 31 декабря 2017 года в США банк выдал займов по кредитным картам на сумму 105,293 млрд долларов. Работа с данными банковских операций подходит для data scientist’ов, которые хотят погрузиться в fintech.
Примеры вопросов:
- Как бы вы построили модель для прогнозирования мошенничества с кредитными картами?
- Если вы пытаетесь предсказать пол клиента, и у вас есть только 100 точек, какие проблемы могут возникнуть?
- Предположим, вам дали историю транзакций длинной в два года. Какие функции вы бы использовали для прогнозирования кредитного риска?
- Объясните, как RDD взаимодействуют со Scala в Spark?
- Как бы вы «разъединили» два массива (как JOIN для SQL, но наоборот)?
- Что такое сериализация Hadoop?
Airbnb
Количество бронирований на сервисе в сутки превышает 78 тысяч. На сайте совершаются миллионы кликов. Компания много сил уделяет A/B-тестированию, аналитике, разработке алгоритмов.
Примеры вопросов:
- Какие показатели вы будете оценивать при определенном сценарии? (например, запуске продукта в новом городе).
- Расскажите о первом опыте взаимодействия с Airbnb.
- Почему вы заинтересованы в Airbnb?
- Как вы объясните статистические результаты не статистическому отделу?
Хорошие базовые знания о машинном обучении и большой объем подготовительной работы перед собеседованием позволят получить работу в лучших компаниях — лидерах отрасли по использованию data science в своих продуктах.
Читайте: Китай, США и Япония лидируют по числу вакансий для Data Science разработчиков
Так сколько все-таки карандашей используется в Индии?)
Тоже интересно узнать ответ)))