Компания Recursion, которая занимается применением машинного обучения для разработки лекарств, опубликовала датасет RxRx1. RxRx1 содержит в себе 296 гигабайт изображений с микроскопа. Компания запустила соревнование на Kaggle по распознаванию технического шума на снимках клеток.
RxRx1 содержит в себе изображения одного биологического эксперимента, проводимого на разных микроскопах. Задача в том, чтобы обучить модель отличать технические различия на снимках от биологических.
RxRx1 собирался под контролем исследователей, чтобы обеспечить биологическое разнообразие изображений.
На сегодняшний день компания сгенерировала более 2 петабайт визуальных данных. RxRx1 — это подвыборка из большего датасета. Всего в подвыборке 125,510 изображений с 1,108 классами объектов. Это сравнимо с стандартным датасетом ImageNet — 155 гигабайт, 1.2 миллиона изображений и 1000 классов объектов.
Задача
RxRx1 создавали для следующей задачи:
- На изображении ниже представлены примеры технических различий биологических снимках для объектов одного класса;
- Даже при контроле за условиями экспериментов, технический шум все равно присутствует на изображениях;
- Модель должна определять технические эффекты на изображении и выделять их от биологических
Такая нейросеть ускорит разработку лекарств и ускорит биологические исследования.
Изображения в RxRx1 сгенерированы с помощью биологических экспериментов с использованием реагентов siRNA. Small interfering RNA (siRNA) — это биологический реагент, который используется, чтобы сбить отдельно взятый ген. Каждое генетическое изменение в датасете проводилось через siRNA.
Технические эффекты
Всего при создании датасета провели 51 эксперимент с разными экспериментальными условиями. Батч — это набор наблюдений, которые проводились одновременно и с одинаковыми экспериментальными условиями. Это значит, что изображения объектов в одном батче похожи в том, как на объекты подействовал реагент, в условиях среды и так далее. Изображения из разных батчей отличаются и это то, что модель должна нивелировать. Различия могут быть связаны с различием в экспериментальных условиях и в условиях среды.Соревнование продлится ближайшие 2 месяца. Это соревнование входит в соревнования для NeurIPS 2019.