• Вакансия Data scientist: вопросы и задачи на собеседовании

    вакансию data scientist - как проходит собеседование

    Предложение вакансии Data scientist на рынке труда постоянно растет, количество соискателей тоже. Возможностей для входа в эту профессию много — курсы по специальности помогут получить необходимые знания.



    Блог Acing AI публикует посты о том, как проходили интервью разработчиков Data science в крупнейших мировых компаниях. В этом материале мы расскажем, каких знаний ждут от специалистов по работе с данными и какие вопросы задают на собеседованиях на вакансию Data scientist и ML-инженер в компаниях:

    Airbnb — платформа онлайн-бронирования жилья в разных странах. В 2018 году пользователи забронировали на Airbnb больше 140 миллионов ночей.

    Paypal — электронная платежная система с доходом в 13,09 млрд долларов в 2017 году и операциями с более чем 100 валютами.

    Capital Oneбанк, который занимает 10-е место в списке крупнейших банков США по размеру активов.

    Этапы собеседования

    Собеседования в компаниях на вакансию Data scientist обычно проходят в несколько этапов:

    1. Просмотр резюме;
    2. Тестовое задание. В Airbnb на этом этапе кандидат получает набор данных и базовые вопросы на которые нужно ответить. В Paypal — задачу на платформе Сodility. В Capital One — задания связанные с интерпретацией данных и множественным выбором;
    3. Личные собеседования и интервью с командой. Их может быть разное количество, в Airbnb их 4.

    Важно, как человек сможет вписаться в команду, разделяет ли он ценности компании. Навыки общения обычно проверяются во время интервью с командой. Например, в Airbnb на этапе тестового задания кандидат проводит целый день, работая с командой над определенной задачей. Так компания смотрит на личные навыки, результат работы и на умение работать в команде.

    Общие вопросы

    Для того, чтобы увидеть, насколько компетенции кандидата соответствуют позиции, в компаниях задают вопросы по теории, но могут попросить выполнить практическое задание прямо на собеседовании.

    Задач, с которыми работают аналитики данных, очень много. Это может быть обработка и предобработка данных, статистика, создание и оценка моделей машинного обучения, визуализация данных и многое другое. Специфика сильно разнится от компании к компании, точно понадобятся математика, статистика и умение разбираться в алгоритмах.

    Работа с данными

    • Как заполнить пропущенные значения в данных?
    • Что делать, если датасет несбалансированный?
    • Найдите потенциальные причины аномалий в наборе данных.
    • Что делать, если данных не хватает или они плохого качества?

    Теоретические вопросы

    • Что такое логистическая регрессия?
    • Что такое центральная предельная теорема и как её доказать?
    • Как отделить новые признаки от уже существующих?
    • Как бы вы использовали Python в работе с очень большим файлом чисел, разделенных табуляцией, для подсчета частоты каждого числа?
    • Как будет выглядеть распределение ежедневных поездок в Нью-Йорке?

    Практические задания

    • Напишите алгоритм для игры в крестики-нолики.
    • Напишите функцию, которая выполняет сложение чисел, представленных в виде двух связанных списков.
    • Напишите функцию, которая вычисляет матричные суммы.
    • Напишите функцию, которая берет предложение и выводит с напечатанными словами в обратном направлении за O(n) времени.
    • Напишите функцию, которая принимает массив данных, разбивает его на каждый возможный набор из двух массивов и выводит максимальные различия между минимумами двух массивов за время O (n).
    • Напишите программу, которая выполняет сортировку слиянием.
    • Разработайте метрику, которая поможет уменьшить смещение в датасете.

    Задачи

    Если вы знаете, что у вашего друга двое детей и что по крайней мере один из них мальчик, какова вероятность, что другой тоже мальчик?

    Если взять кубик, какой сценарий будет наиболее вероятным: выпадет одна шестерка в шести бросках, минимум две шестерки в двенадцати бросках или минимум сто шестерок в шестиста бросках?

    У вас есть 70 красных шариков. Соотношение зеленых и красных шариков составляет 2 к 7, сколько тогда зеленых?

    Сколько карандашей используется в Индии?

    Вопросы, зависящие от специфики компании

    PayPal

    У Paypal более 254 миллионов активных клиентов и 2,7 миллиарда платежных операций по всему миру. Компания располагает более 160 PB данных, следовательно, много задач посвящены их подготовке и предобработке.

    Примеры вопросов:



    • Как вы рассматривали выбор overfit/variable в этом проекте (на примере какого-либо проекта из резюме)?
    • Имея корпус данных из транзакций PayPal — имя, адрес электронной почты, IP-адрес, сумма, продукт и другие признаки, как отличить законные транзакции от мошеннических?
    • Если вы объедините два набора данных в SAS без оператора BY, каким будет результирующий вывод?

    Capital One

    Транзакции по кредитным картам, которыми располагает Capital One, генерируют огромное количество данных. По состоянию на 31 декабря 2017 года в США банк выдал займов по кредитным картам на сумму 105,293 млрд долларов. Работа с данными банковских операций подходит для data scientist’ов, которые хотят погрузиться в fintech.

    Примеры вопросов:

    • Как бы вы построили модель для прогнозирования мошенничества с кредитными картами?
    • Если вы пытаетесь предсказать пол клиента, и у вас есть только 100 точек, какие проблемы могут возникнуть? 
    • Предположим, вам дали историю транзакций длинной в два года. Какие функции вы бы использовали для прогнозирования кредитного риска?
    • Объясните, как RDD взаимодействуют со Scala в Spark?
    • Как бы вы «разъединили» два массива (как JOIN для SQL, но наоборот)?
    • Что такое сериализация Hadoop?

    Airbnb

    Количество бронирований на сервисе в сутки превышает 78 тысяч. На сайте совершаются миллионы кликов. Компания много сил уделяет A/B-тестированию, аналитике, разработке алгоритмов.

    Примеры вопросов:

    • Какие показатели вы будете оценивать при определенном сценарии? (например, запуске продукта в новом городе).
    • Расскажите о первом опыте взаимодействия с Airbnb.
    • Почему вы заинтересованы в Airbnb?
    • Как вы объясните статистические результаты не статистическому отделу?

    Хорошие базовые знания о машинном обучении и большой объем подготовительной работы перед собеседованием позволят получить работу в лучших компаниях — лидерах отрасли по использованию data science в своих продуктах.

    Читайте: Китай, США и Япония лидируют по числу вакансий для Data Science разработчиков



    Подписаться
    Уведомить о
    guest

    2 Comments
    Старые
    Новые Популярные
    Межтекстовые Отзывы
    Посмотреть все комментарии
    Морж

    Так сколько все-таки карандашей используется в Индии?)

    Аня

    Тоже интересно узнать ответ)))