fbpx
  • CellSignal: соревнование по детекции шума на изображениях клеток

    Компания Recursion, которая занимается применением машинного обучения для разработки лекарств, опубликовала датасет RxRx1. RxRx1 содержит в себе 296 гигабайт изображений с микроскопа. Компания запустила соревнование на Kaggle по распознаванию технического шума на снимках клеток.

    RxRx1 содержит в себе изображения одного биологического эксперимента, проводимого на разных микроскопах. Задача в том, чтобы обучить модель отличать технические различия на снимках от биологических. 

    RxRx1 собирался под контролем исследователей, чтобы обеспечить биологическое разнообразие изображений.

    На сегодняшний день компания сгенерировала более 2 петабайт визуальных данных. RxRx1 — это подвыборка из большего датасета. Всего в подвыборке 125,510 изображений с 1,108 классами объектов. Это сравнимо с стандартным датасетом ImageNet — 155 гигабайт, 1.2 миллиона изображений и 1000 классов объектов.

    Задача

    RxRx1 создавали для следующей задачи:

    • На изображении ниже представлены примеры технических различий биологических снимках для объектов одного класса;
    • Даже при контроле за условиями экспериментов, технический шум все равно присутствует на изображениях;
    • Модель должна определять технические эффекты на изображении и выделять их от биологических

    Такая нейросеть ускорит разработку лекарств и ускорит биологические исследования.

    Изображения двух разных генетических условий (строки) в HUVEC клетках в зависимости от разных технических деталей (колонки). Снимки с одного прибора визуально похожи

    Изображения в RxRx1 сгенерированы с помощью биологических экспериментов с использованием реагентов siRNA. Small interfering RNA (siRNA) — это биологический реагент, который используется, чтобы сбить отдельно взятый ген. Каждое генетическое изменение в датасете проводилось через siRNA.

    Технические эффекты

    Всего при создании датасета провели 51 эксперимент с разными экспериментальными условиями. Батч — это набор наблюдений, которые проводились одновременно и с одинаковыми экспериментальными условиями. Это значит, что изображения объектов в одном батче похожи в том, как на объекты подействовал реагент, в условиях среды и так далее. Изображения из разных батчей отличаются и это то, что модель должна нивелировать. Различия могут быть связаны с различием в экспериментальных условиях и в условиях среды.Соревнование продлится ближайшие 2 месяца. Это соревнование входит в соревнования для NeurIPS 2019.