Microsoft представила датасет синтетических изображений лиц Fake It Till You Make It. Датасет нацелен на предварительное обучение алгоритмов распознавания лиц перед использованием в реальных сценариях.
В биометрии уже несколько лет используются синтетические данные, однако разрыв между реальными и синтетическими приложениями остается одной из ключевых проблем, особенно в задаче распознавания лиц. Для решения этой проблемы Microsoft разработала генеративную нейросеть, создающую параметрическую 3D-модель лица. Затем к данной модели случайным образом применяются текстуры лица и волос, позволяющие визуализировать модель с высокой степенью реалистичности и разнообразия.
Такой подход позволяет полностью контролировать вариативность датасета и таким образом избежать проблемы предвзятости. Другой важной особенностью датасета являются сегментация пикселей и формирование карты ключевых точек с практически 100-процентной точностью. Любопытно, что модель генерации лиц не обучалась на реальных данных.
Датасет состоит из 100 000 синтетических изображений лиц и будет выложен в открытый доступ вместе с двумерными картами ключевых точек в ближайшее время.