Исследователи MIT-IBM Watson AI Lab показали, что GAN понимает основы композиции

4 декабря 2018
GAN Paint Dissection

Исследователи MIT-IBM Watson AI Lab показали, что GAN понимает основы композиции

Генеративные нейросети (GAN) продемонстрировали способность создавать фотореалистичные изображения. Однако неизвестно, изучают ли сети композицию или работают за счет воспроизведения пиксельных паттернов. Компьютер может рисовать сцену двумя способами: самостоятельно составлять композицию…

Генеративные нейросети (GAN) продемонстрировали способность создавать фотореалистичные изображения. Однако неизвестно, изучают ли сети композицию или работают за счет воспроизведения пиксельных паттернов.

Компьютер может рисовать сцену двумя способами:

  • самостоятельно составлять композицию из изученных объектов,
  • запоминать изображение и воспроизводить его.

Приложение GAN Paint и метод GAN Dissection, разработанный исследователями MIT-IBM Watson AI Lab показали, что нейросети все-таки обучаются некоторым аспектам композиции:

GANpaint активирует и деактивирует наборы нейронов в глубокой сети, обученной генерации изображений. Каждая кнопка соответствует набору из 20 нейронов. Переключая нейроны напрямую, можно наблюдать структуру визуального мира, которую сеть научилась моделировать.

GAN Dissection

GAN Dissection использует сеть сегментации вместе с алгоритмом Network Dissecton, чтобы найти отдельные нейроны в генераторе, которые соответствуют классам объектов, например деревьям:

GANPaint
Схема работы алгоритма

Нейроны, которые будет знать и использовать GAN, зависят от типа сцены, которую она учится рисовать. Например, при рисовании конференц-зала появляется нейрон для делового костюма, а при рисовании кухонь появляется нейрон, отвечающий за посуду.

Управление нейронами

Чтобы убедиться, что наборы нейронов управляют рисованием объектов, а не просто воспроизводят сцену, которую запомнили, исследователи вмешиваются в процесс и активируют и деактивируют нейроны напрямую.

Проведя эксперимент, учёные пришли к выводу, что одни и те же нейроны управляют определенным классом объектов во множестве контекстов, даже если конечный вид объекта сильно варьируется. Одни и те же нейроны могут нарисовать «дверь» для разных объектов:

ganpaint door
GAN Paint дорисовал дверь на всех изображениях

Точно так же нейросеть понимает, какие объекты сопоставлять нельзя. Например, включение нейронов двери на здании добавит дверь. Но то же действие на рисунке с небом или деревом, как правило, будет лишним:

GAN PAint
На небе нейросеть дверь не рисует

Понимание того, как работают внутренние механизмы GAN поможет улучшить работу сети. Например, иногда GAN может генерировать нереалистичные изображения. Исследование показывает, что ошибки и визуальные артефакты могут быть вызваны конкретным набором нейронов. Обнаружив и удалив эти нейроны, можно добиться лучшего выходного изображения.

Попробуйте управлять нейронами в интерактивной версии приложения.

Новые датасеты для задачи распознавания действий на видео

25 октября 2018
action recognition datasets

Новые датасеты для задачи распознавания действий на видео

Распознавание действий крайне важно для задач видеонаблюдения, здравоохранения и взаимодействия человека с компьютером. Но как классифицировать видео по действиям, выполняемым на них? Классифицировать видео, на которых выполняется только одно действие, не…

Распознавание действий крайне важно для задач видеонаблюдения, здравоохранения и взаимодействия человека с компьютером. Но как классифицировать видео по действиям, выполняемым на них?

Классифицировать видео, на которых выполняется только одно действие, не так сложно. Задача схожа с проблемой классификации изображений. Но в данном случае она распространяется на несколько сцен с последующим анализом каждой из них. Известно, что после появления датасета ImageNet, алгоритмы глубокого обучения стали лучше справляться с классификацией изображений. Но наблюдается ли такой же прогресс в классификации видео или в задачах распознавания действий?

Ряд проблем делают распознавание действий гораздо более сложной задачей, среди которых — необходимость аренды огромных вычислительных мощностей для анализа видео и, конечно же, потребность в датасетах.

Хороший датасет для задачи распознавания действий должен состоять из большого количества данных и содержать разнообразные типы действий, которые позволят обучить разработанную архитектуру для распознавания разного вида действий.

К счастью, в 2017-2018 годах было представлено несколько таких датасетов. Вот некоторые из них.

Датасет KINETICS-600

  • Количество видео: 500 000
  • Количество типов движений: 600
  • Год: 2018

Kinetics_dataset

Начнем с датасета, представленного командой Google DeepMind. Это датасет Kinetics — крупномасштабный высококачественный датасет ссылок на видео из YouTube, разработанный для улучшения распознавания действий человека. Его последняя версия называется Kinetics-600 и включает около 500 000 видео, которые охватывают 600 типов действий и как минимум 600 видео с каждым из них.

Каждый ролик в Kinetics-600 берется из одного видео на YouTube, длится около 10 секунд, помечен одним типом и прошел несколько этапов ручного аннотирования. Для маркировки было создано одностраничное веб-приложение, интерфейс которого можно видеть ниже.

Интерфейс маркировки Kinetics dataset
Интерфейс маркировки

Если сотрудник ответил «да» на вопрос «видите ли вы человека, выполняющего действие class-name?», ему задается следующий вопрос «продолжается ли это действие в течение всего видео?» для последующего использования этой метки при обучении модели.

Создатели Kinetics-600 также проверили, сбалансирован ли их датасет, и обнаружили, что примерно 15% типов действий несбалансированы, но это не приводит к необъективности модели.

Действия в данном датасете охватывают широкий спектр типов, включая взаимодействие человека и объекта: игра на музыкальных инструментах, рассадка цветов, стрижка газона, приготовление яиц и многие другие.

Датасет Moments In Time

  • Количество видео: 1 000 000
  • Количество типов движений: 339
  • Год: 2018
Примеры из датасета Moments in Time
Примеры из датасета Moments in Time

Moments in Time — еще один большой датасет для распознавания действий, разработанный в лаборатории MIT-IBM Watson AI. Коллекция из 1 000 000 помеченных 3-секундных видео не ограничивается только действиями человека и включает людей, животных, объекты и природные явления, которые захватывают суть динамической сцены.

У этого датасета есть существенные внутриклассовые различия внутри групп. Например, видео, помеченные как «открывание», включают в себя людей, открывающих двери, ворота, ящики, шторы и подарки; животных и людей, открывающих глаза и рот, и даже цветки, раскрывающие свои лепестки.

Тот факт, что все вышеупомянутые сценарии относятся к одной и той же категории «открывание», является естественным, хотя визуально они сильно отличаются друг от друга. Таким образом, как отмечают исследователи, задача заключается в разработке алгоритмов глубокого обучения, которые также могут различать различные действия, но при этом обобщать их на различные случаи в рамках одного и того же действия.

Типы действий в наборе данных Moments in Time выбраны так, что они включают наиболее часто используемые глаголы на английском языке, охватывающие широкое и разнообразное семантическое пространство. Таким образом, в наборе данных имеется 339 различных классов действий с 1 757 помеченными видеороликами в каждом классе; каждое видео помечено только одним типом действия.

Процесс маркировки
Процесс маркировки

Как видно на изображении, процесс маркировки очень прост: участникам предлагались видео вместе с глаголом действия. Если пара совпадает, нужно ответить «да», в противном случае — «нет». Для учебного набора исследователи пропускали каждый видеоролик через процедуру маркировки не менее 3 раз, граница доверительного интервала была выбрана равной 75%. Для проверочных и тестовых наборов минимальное число этапов маркировки было равно 4 с границей доверительного интервала 85%.

Датасет SLAC

  • Количество видео: 520 000 -> 1.75 млн двухсекундных видео
  • Количество типов движений: 200
  • Год: 2017
Процедура маркировки - датасет SLAC
Процедура маркировки

Группа исследователей из Массачусетского технологического института (MIT) и Facebook представила датасет Sparcely Labeled ACtions Dataset. Он, как и Kinetics, состоит из различных типов действий человека и включает более 520 тыс. необработанных видеороликов с YouTube со средней длительностью 2,6 минуты. 2-секундные ролики были получены из видео с помощью нового активного подхода к формированию выборки. В результате получилось 1.75 млн роликов, включая 755 тыс. положительных примеров и 993 тыс. отрицательных примеров, помеченных профессиональной командой из 70 человек.

Как можно видеть, отличительной особенностью этого датасета является наличие негативных данных. Примеры негативных данных приведены ниже.

Негативные данные из датасета SLAC
Негативные данные из датасета SLAC

Датасет включает 200 типов действий, взятых из другого датасета ActivityNet.

Обратите внимание: несмотря на то, что статья, в которой представлен этот датасет, был выпущен в декабре 2017 года, он по-прежнему недоступен для скачивания. Надеюсь, ситуация скоро изменится.

Датасет VLOG

  • Количество видео: 114 000
  • Год: 2017
Примеры из датасета VLOG
Примеры из датасета VLOG

Датасет VLOG отличается от предыдущих тем, как он был собран. Традиционный подход к получению данных начинается с подготовки списка классов, а затем происходит поиск соответствующих им данных.

Однако такой подход сталкивается с проблемами, поскольку действия вряд ли будут помечены в Интернете. Можете ли вы представить себя загружающим и помечающим видео о том, как вы включаете микроволновую печь, открываете холодильник или встаете с постели? Обычно помечаются необычные вещи, например, например, прыжки в бассейне или игра на арфе. В результате имеющиеся датасеты часто несбалансированы: в них доминируют более редкие типы действий по сравнению с рутинными.

Для решения этой проблемы исследователи из Калифорнийского университета предлагают начать с того, что нам действительно нужно, а именно с получения видео с повседневными действиями, и уже после этого помечать их. Сбор начинается со влогов — крайне популярного жанра видео, в которых люди документируют свою жизнь.

Схема автоматического сбора данных из датасета
Схема автоматического сбора данных

Поскольку данные собираются автоматически, их маркировка представляет определенную трудность. Исследователи решили сосредоточиться на важном типе действий: жестикуляции. Предполагается, что этот датасет позволит лучше обучить модели распознавать движения рук.

Заключение

Проблема распознавания действий требует огромных вычислительных затрат и большого количества данных. К счастью, в течение прошлого года появилось несколько очень хороших датасетов. Наряду с представленными ранее образцовыми датасетами (ActivityNet, UCF101, HMDB) они формируют отличную основу для значительного улучшения эффективности систем распознавания движений.


Интересные статьи:

В MIT разработали алгоритм, который распознает объекты по голосовому описанию

25 сентября 2018

В MIT разработали алгоритм, который распознает объекты по голосовому описанию

Учёные из Лаборатории информатики и искусственного интеллекта (CSAIL) в MIT представили нейросеть, которая распознаёт объекты на изображении, сопоставляя их с голосовым описанием. Исследователи считают, что разработка может улучшить технологии распознавания речи и перевод с…

Учёные из Лаборатории информатики и искусственного интеллекта (CSAIL) в MIT представили нейросеть, которая распознаёт объекты на изображении, сопоставляя их с голосовым описанием. Исследователи считают, что разработка может улучшить технологии распознавания речи и перевод с редких языков, которые не имеют достаточно данных для обучения моделей.

Сопоставление изображения и звука

Авторы используют две свёрточные нейросети (CNNs). Первая обрабатывает изображение, раскладывая его на сетку с пикселями, а вторая обрабатывает аудиопоток, создавая спектрограмму голоса. Аудиопоток разделяется на участки длиной 1 секунду, чтобы захватить слово или два. Затем нейросеть сопоставляет части спектрограммы с определённой ячейкой с пикселями и ищет соответствиеРазработчики обучили модель на 400000 изображений. В результате алгоритм научился сопоставлять несколько сотен слов с объектами.

Архитектура сети

По мнению авторов, ключевое достижение исследования в доказательстве, что аудиовизуальные соответствия могут быть выведены автоматически. «Алгоритмы теперь могут связывать сегменты изображения со звуковыми элементами, не требуя при этом текста в качестве посредника» — отмечает Флориан Меце, профессор Института языковых технологий Университета Карнеги-Меллона.

Недавно исследователи из MIT создали нейронную сеть, которая распознаёт объекты на изображениях и видео и генерирует их текстовое описание. Алгоритм способен определять транформации объектов на видео в реальном времени с точностью 95%.

На долю Китая приходится 48% мирового объема финансирования ИИ

21 сентября 2018

На долю Китая приходится 48% мирового объема финансирования ИИ

На Всемирной конференции по искусственному интеллекту, которая прошла с 17 по 19 сентября в Шанхае, обсуждались вопросы сотрудничества между Китаем и иностранными государствами, предприятиями, академическими учреждениями. Цель — обмен идеями, теориями,…

На Всемирной конференции по искусственному интеллекту, которая прошла с 17 по 19 сентября в Шанхае, обсуждались вопросы сотрудничества между Китаем и иностранными государствами, предприятиями, академическими учреждениями. Цель — обмен идеями, теориями, технологиями и совместная работа для создания «умного» мира будущего.

В письмеобращении к участникам конференции Си Цзиньпин призвал другие государства к совместным усилиям по продвижению и развитию технологий искусственного интеллекта на благо человечества. Заявления поддержал вицепремьер Китая Лю Хэем, который предложил наладить сотрудничество между странами для коллективного решения сложных этических и правовых вопросов.

По данным CBInsights, на долю Китая приходится 48 процентов от общего объема финансирования AI в прошлом году. «AIтехнологии проникнут во все аспекты общественной жизни в ближайшие три десятилетия», — сказал Джек Ма, представитель Alibaba — технологического гиганта, который использует ИИ для прогнозирования потребностей клиентов.

По словам КайФу Ли, основателя и генерального директора Sinovation Ventures, распространение данных, которыми располагает Китай, позволит ускорить развитие ИИ в целом.

Конференция также стала свидетелем создания академического альянса, объединяющего университеты мирового уровня — Массачусетский технологический институт и Китайский университет Цинхуа.

Итоги EmTech 2018: как корпорации и стартапы уже используют и планируют применять AI

20 сентября 2018

Итоги EmTech 2018: как корпорации и стартапы уже используют и планируют применять AI

Ежегодная конференция EmTech 2018 от MIT проходила с 11 по 14 сентября в MIT Media Lab в Кембридже. Спикеры из Boeing, IBM, Amazon и инновационных стартапов поделились, как в их…

Ежегодная конференция EmTech 2018 от MIT проходила с 11 по 14 сентября в MIT Media Lab в Кембридже. Спикеры из Boeing, IBM, Amazon и инновационных стартапов поделились, как в их компаниях используют искусственный интеллект и машинное обучение для улучшения безопасности и оптимизации рабочего процесса на производствах.

Итак, главные технологические тенденции в области искусственного интеллекта.

Авиация

Boeing, ведущая аэрокосмическая компания, говорит об инвестициях в технологии будущего, подразумевая разработку искусственного интеллекта. «Boeing уже использует искусственный интеллект, однако сейчас его роль ограничена» — рассказал технический директор компании Грег Хислоп. Корпорация прогнозирует глобальную нехватку пилотов, поэтому основная задача ИИ сейчас — помогать пилотам, особенно тем, у кого меньше опыта, справляться со сложностями и обеспечивать безопасность.

Автомобилестроение

Роботы поднимают, перемещают, собирают автомобили на заводах, однако риск травм для человека слишком велик, поэтому машины работают отдельно от людей. Это очень замедляет производство. «Чтобы работник мог подходить к роботу, он не только должен быть в безопасности, он должен чувствовать себя в безопасности», — сказала Клара Ву, вице-президент Veo Robotics.

Используя 3D-датчики и технологии компьютерного зрения, автомобильный стартап создает роботов, которые смогут безопасно работать рядом с людьми.

Энергетика

Президент Uptake (компания разработывает и внедряет AI на производстве) Ганеш Белл поделился, как они анализируют данные в транспортной и энергетической отрасли и используют ИИ, чтобы предупреждать аварии на производствах. Так, проанализировав данные об энергии, разработчики обнаружили больше ста способов срыва ветровой турбины. «Если предупредить людей о том, почему что-то может пойти не так, время простоя оборудования уменьшится, и будет произведено больше энергии» — отмечает учёный.

Сельское хозяйство

Алгоритмы машинного обучения помогают модернизировать сельское хозяйство. «В ближайшие пять-десять лет мы увидим значительный рост в области разработки датчиков для сбора данных на фермах» — считает Сэм Этингтон, главный научный сотрудник Climate Corporation. По данным корпорации, фермеры, которые используют их ПО, собирают дополнительно 400 кг зерна с одного гектара земли.

Общественная безопасность

Фей Фанг — ассистент профессора из Университета Карнеги-Меллона, рассказала, как ИИ, который она разработала, используется каждый день для защиты 60000 пассажиров на паромах в Нью-Йорке. Алгоритм создает безопасные маршруты для катеров береговой охраны, оставляя их непредсказуемыми, и помогает предотвращать нападения на паромы. «Отзывы потрясающие. Мы защищаем паромы в зонах повышенного риска. Маршрут охранных катеров строится случайным образом, затрудняя планирование нападений».

На конференции также обсуждались вопросы организации и подсчета голосов на выборах, внедрение блокчейна в банковскую систему, летающие автомобили, профилактика и лечение заболеваний. Все выступления кратко приведены на странице конференции. Следующая конференция MIT EmTech Next пройдёт 11-12 июня 2019 в MIT Media Lab в Кембридже.


Интересные статьи:

Фермеры, использующие машинное обучение, собирают дополнительные 400кг зерна с гектара

18 сентября 2018

Фермеры, использующие машинное обучение, собирают дополнительные 400кг зерна с гектара

Алгоритмы машинного обучения помогают модернизировать сельское хозяйство: фермеры уже используют программное обеспечение, чтобы выбирать семена, рассчитывать количество удобрений, обнаруживать признаки болезни растений. На конференции EmTech MIT 2018 представители компании Climate Corporation…

Алгоритмы машинного обучения помогают модернизировать сельское хозяйство: фермеры уже используют программное обеспечение, чтобы выбирать семена, рассчитывать количество удобрений, обнаруживать признаки болезни растений. На конференции EmTech MIT 2018 представители компании Climate Corporation рассказали, как они используют машинное обучение в сельском хозяйстве. 

Информация собирается датчиками, установленными на сельскохозяйственном оборудовании и в полях, а затем анализируется в облаке. Другие инструменты — дроны, спутники и камеры помогают фермерам обнаруживать ранние признаки заболевания растений и вовремя на них реагировать. По данным Climate Corporation, фермеры которые используют их ПО собирают дополнительно 400 кг с одного гектара земли.

«В ближайшие пять-десять лет мы увидим значительный рост в области разработки датчиков для сбора данных на фермах», — считает Сэм Этингтон, главный научный сотрудник корпорации.

Climate Corporation принадлежит немецкому химико-фармацевтическому гиганту Bayer и разрабатывает программное обеспечение, которое помогает фермерам понять, какие сельскохозяйственные культуры будут давать больший урожай или какое количество удобрений нужно для почвы при определённых погодных условиях.

Машинное обучение не только помогает фермерам зарабатывать больше, но также может стать важным инструментом для удовлетворения глобальных потребностей в продовольствии, поскольку изменение климата создает неустойчивые условия для развития сельского хозяйства.

По материалам MIT Technology Review.


Интересные статьи:

Нейросеть от MIT распознает, что происходит на видео, с точностью 95%

18 сентября 2018
Motion detection

Нейросеть от MIT распознает, что происходит на видео, с точностью 95%

Исследователи из MIT создали нейронную сеть, которая распознает транформации объектов на видео в реальном времени. В будущем технология поможет машинам лучше анализировать, что происходит вокруг них и даже предполагать развитие событий. Учёные использовали свёрточную нейросеть…

Исследователи из MIT создали нейронную сеть, которая распознает транформации объектов на видео в реальном времени. В будущем технология поможет машинам лучше анализировать, что происходит вокруг них и даже предполагать развитие событий.

Учёные использовали свёрточную нейросеть (CNN) и Temporal Relation Network, которая анализирует кадры с расположением объектов на разных этапах видео. Например, кадр, на котором листы бумаги сложены, а затем кадр, где они разбросаны. После обучения нейросеть распознаёт один и тот же тип активности в тестовых видео, сопоставляя новые кадры с изученными видами движений. Точность распознавания — 95%.

Нейросеть также научилась предугадывать события и делает это точнее, чем предыдущие модели, анализируя первые 25-50% кадров.

Алгоритм тренировали используя три набора данных с короткими видеороликами разных видов движений. Для обучения понадобилось 360000 видеороликов и 360 категорий движений — от жестов до передвижения предметов и игры в баскетбол.

В будущих работах исследователи собираются научить нейросеть распознавать объекты. Исходный код проекта доступен open source.

В MIT создали нейросеть, которая обучит роботов сегментировать и передвигать предметы

10 сентября 2018

В MIT создали нейросеть, которая обучит роботов сегментировать и передвигать предметы

Исследователи из MIT разработали алгоритм компьютерного зрения Dense Object Net, который помогает роботам в реальном времени распознавать, анализировать и определять назначение новых объектов. Теперь роботы смогут лучше манипулировать предметами — выбирать нужный предмет из нескольких, оценив его свойства. Как работает алгоритм…

Исследователи из MIT разработали алгоритм компьютерного зрения Dense Object Net, который помогает роботам в реальном времени распознавать, анализировать и определять назначение новых объектов. (далее…)