fbpx

Вакансия Data scientist: вопросы и задачи на собеседовании

вакансию data scientist - как проходит собеседование

Предложение вакансии Data scientist на рынке труда постоянно растет, количество соискателей тоже. Возможностей для входа в эту профессию много — курсы по специальности помогут получить необходимые знания.

Блог Acing AI публикует посты о том, как проходили интервью разработчиков Data science в крупнейших мировых компаниях. В этом материале мы расскажем, каких знаний ждут от специалистов по работе с данными и какие вопросы задают на собеседованиях на вакансию Data scientist и ML-инженер в компаниях:

Airbnb — платформа онлайн-бронирования жилья в разных странах. В 2018 году пользователи забронировали на Airbnb больше 140 миллионов ночей.

Paypal — электронная платежная система с доходом в 13,09 млрд долларов в 2017 году и операциями с более чем 100 валютами.

Capital Oneбанк, который занимает 10-е место в списке крупнейших банков США по размеру активов.

Этапы собеседования

Собеседования в компаниях на вакансию Data scientist обычно проходят в несколько этапов:

  1. Просмотр резюме;
  2. Тестовое задание. В Airbnb на этом этапе кандидат получает набор данных и базовые вопросы на которые нужно ответить. В Paypal — задачу на платформе Сodility. В Capital One — задания связанные с интерпретацией данных и множественным выбором;
  3. Личные собеседования и интервью с командой. Их может быть разное количество, в Airbnb их 4.

Важно, как человек сможет вписаться в команду, разделяет ли он ценности компании. Навыки общения обычно проверяются во время интервью с командой. Например, в Airbnb на этапе тестового задания кандидат проводит целый день, работая с командой над определенной задачей. Так компания смотрит на личные навыки, результат работы и на умение работать в команде.

Общие вопросы

Для того, чтобы увидеть, насколько компетенции кандидата соответствуют позиции, в компаниях задают вопросы по теории, но могут попросить выполнить практическое задание прямо на собеседовании.

Задач, с которыми работают аналитики данных, очень много. Это может быть обработка и предобработка данных, статистика, создание и оценка моделей машинного обучения, визуализация данных и многое другое. Специфика сильно разнится от компании к компании, точно понадобятся математика, статистика и умение разбираться в алгоритмах.

Работа с данными

  • Как заполнить пропущенные значения в данных?
  • Что делать, если датасет несбалансированный?
  • Найдите потенциальные причины аномалий в наборе данных.
  • Что делать, если данных не хватает или они плохого качества?

Теоретические вопросы

  • Что такое логистическая регрессия?
  • Что такое центральная предельная теорема и как её доказать?
  • Как отделить новые признаки от уже существующих?
  • Как бы вы использовали Python в работе с очень большим файлом чисел, разделенных табуляцией, для подсчета частоты каждого числа?
  • Как будет выглядеть распределение ежедневных поездок в Нью-Йорке?

Практические задания

  • Напишите алгоритм для игры в крестики-нолики.
  • Напишите функцию, которая выполняет сложение чисел, представленных в виде двух связанных списков.
  • Напишите функцию, которая вычисляет матричные суммы.
  • Напишите функцию, которая берет предложение и выводит с напечатанными словами в обратном направлении за O(n) времени.
  • Напишите функцию, которая принимает массив данных, разбивает его на каждый возможный набор из двух массивов и выводит максимальные различия между минимумами двух массивов за время O (n).
  • Напишите программу, которая выполняет сортировку слиянием.
  • Разработайте метрику, которая поможет уменьшить смещение в датасете.

Задачи

Если вы знаете, что у вашего друга двое детей и что по крайней мере один из них мальчик, какова вероятность, что другой тоже мальчик?

Если взять кубик, какой сценарий будет наиболее вероятным: выпадет одна шестерка в шести бросках, минимум две шестерки в двенадцати бросках или минимум сто шестерок в шестиста бросках?

У вас есть 70 красных шариков. Соотношение зеленых и красных шариков составляет 2 к 7, сколько тогда зеленых?

Сколько карандашей используется в Индии?

Вопросы, зависящие от специфики компании

PayPal

У Paypal более 254 миллионов активных клиентов и 2,7 миллиарда платежных операций по всему миру. Компания располагает более 160 PB данных, следовательно, много задач посвящены их подготовке и предобработке.

Примеры вопросов:

  • Как вы рассматривали выбор overfit/variable в этом проекте (на примере какого-либо проекта из резюме)?
  • Имея корпус данных из транзакций PayPal — имя, адрес электронной почты, IP-адрес, сумма, продукт и другие признаки, как отличить законные транзакции от мошеннических?
  • Если вы объедините два набора данных в SAS без оператора BY, каким будет результирующий вывод?

Capital One

Транзакции по кредитным картам, которыми располагает Capital One, генерируют огромное количество данных. По состоянию на 31 декабря 2017 года в США банк выдал займов по кредитным картам на сумму 105,293 млрд долларов. Работа с данными банковских операций подходит для data scientist’ов, которые хотят погрузиться в fintech.

Примеры вопросов:

  • Как бы вы построили модель для прогнозирования мошенничества с кредитными картами?
  • Если вы пытаетесь предсказать пол клиента, и у вас есть только 100 точек, какие проблемы могут возникнуть? 
  • Предположим, вам дали историю транзакций длинной в два года. Какие функции вы бы использовали для прогнозирования кредитного риска?
  • Объясните, как RDD взаимодействуют со Scala в Spark?
  • Как бы вы «разъединили» два массива (как JOIN для SQL, но наоборот)?
  • Что такое сериализация Hadoop?

Airbnb

Количество бронирований на сервисе в сутки превышает 78 тысяч. На сайте совершаются миллионы кликов. Компания много сил уделяет A/B-тестированию, аналитике, разработке алгоритмов.

Примеры вопросов:

  • Какие показатели вы будете оценивать при определенном сценарии? (например, запуске продукта в новом городе).
  • Расскажите о первом опыте взаимодействия с Airbnb.
  • Почему вы заинтересованы в Airbnb?
  • Как вы объясните статистические результаты не статистическому отделу?

Хорошие базовые знания о машинном обучении и большой объем подготовительной работы перед собеседованием позволят получить работу в лучших компаниях — лидерах отрасли по использованию data science в своих продуктах.

Читайте: Китай, США и Япония лидируют по числу вакансий для Data Science разработчиков