NeurIPS — это одна из самых крупных и престижных конференций по машинному обучению и связанной с ним математике. В этом году было подано 12115 работ: примерно 3000 из них были сразу же отклонены, 9467 дошли до стадии ревью. В итоге на конференцию прошло 1900 статей — это чуть больше 20%.
В этом году студент 1 курса аспирантуры Эдуард Горбунов подал на NeurIPS 2 работы: обе статьи были приняты! Темы работ:
- «Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient Clipping»
- «Linearly Converging Error Compensated SGD»
Об Эдуарде:
Эдуард Горбунов —выдающийся молодой ученый, студент первого курса аспирантуры ФПМИ МФТИ. Закончил бакалавриат и магистратуру ФУПМ МФТИ. С 2017 года работает под руководством Александра Владимировича Гасникова.
Деятельность в настоящее время:
- Младший научный сотрудник лаборатории продвинутой комбинаторики и сетевых приложений и лаборатории численных методов прикладной структурной оптимизации ФПМИ.
- Исследователь в лаборатории фундаментальных исследований МФТИ-Яндекс, а также в международной лаборатории стохастических алгоритмов и анализа данных ВШЭ.
Эдуард занимается преподавательской деятельностью и читает лекции по курсу «Оптимизация в машинном обучении» вместе с Александром Владимировичем Гасниковым, Мариной Даниловой, Александром Масловским и Александром Рогозиным на кафедре вычислительной физики МФТИ и кафедре математических основ управления.
До этого читал похожий курс в Академии больших данных MADE Mail.ru и вёл семинары по теории вероятностей и алгоритмам и моделям вычислений в МФТИ. Является одним из организаторов Общероссийского семинара по оптимизации, который проходит онлайн.
Основные достижения:
- В 2019-м году выиграл премию имени Ильи Сегаловича от Яндекса.
- Соавтор 17 работ, среди которых есть опубликованные на конференциях NeurIPS, ICLR, AISTATS, а также в журналах SIOPT и EJOR.
- Согласно Google.Scholar на данный момент:
Количество цитирований: 211
Индекс Хирша: 10
Больше информации можно найти на вебсайте Эдуарда.
Научные интересы и планы на будущее:
В научном плане меня в данный момент интересует распределённая, стохастическая и безградиентная оптимизация. Планирую защитить кандидатскую диссертацию в декабре 2021 года, а затем хотел бы поработать пару лет постдоком за рубежом для получения международного опыта. После этого хочу вернуться в Россию, получить здесь профессорскую позицию и создать свою исследовательскую группу/лабораторию, которая будет заниматься современными проблемами оптимизации.
Начинающим ученым Эдуард советует выбрать интересную для себя тему исследований, стараться следить за новыми статьями на arXiv.org, за исследованиями крупных учёных в этой области. Также очень важно учить английский.
Статьи на NeurIPS 2020
Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient Clipping
Авторы: Эдуард Горбунов, Марина Данилова и Александр Гасников.
Текст доступен на arXiv.
Один из главных результатов этой работы — первый в мире ускоренный стохастический метод, у которого оценки на скорость сходимости с большой вероятностью совпадают (с точностью до логарифмических множителей) с нижними оценками. При этом не требуется предполагать субгауссовости шума в стохастических градиентах. Данная задача долго оставалась нерешённой, причём не существовало нетривиальных результатов даже без так называемого ускорения. Предложенный нами метод может быть полезен в задачах, в которых возникает шум «с тяжёлыми хвостами», например при обучении BERT или ResNet (подробности см. в недавней работе).
Linearly Converging Error Compensated SGD
Авторы: Эдуард Горбунов, Дмитрий Ковалёв, Дмитрий Макаренко (аспирант МФТИ), и Питер Рихтарик.
Текст доступен на arXiv.
В последнее время задачи распределённой оптимизации крайне популярны, в том числе в приложениях федеративного обучения. Одна из главных проблем в таких задачах — это суммарная стоимость коммуникаций между устройствами. Чтобы эту проблему решить, при коммуникациях часто передают сжатые сообщения. Соответственно, в нашей работе мы предложили общий подход для анализа стохастических методов оптимизации для задач распределённого обучения, в которых при коммуникациях передаются только сжатые сообщения и используется специальный приём, называемый компенсацией ошибки. На основе этого подхода мы предложили 16 новых методов, которые работают даже когда устройства передают информацию в сжатом виде, либо передают её с задержками. Кроме того, предложенный подход оказался достаточно общим, чтобы использовать его для анализа даже не распределённых стохастических методов оптимизации. Несмотря на такую общность анализа, для всех известных методов, которые покрывает наш подход, наша теория даёт точные оценки на скорость сходимости, которые в некоторых случаях даже улучшают существующие.
Недавно авторы выступили с докладом на Federated Learning One World Seminar по этой статье, предлагаем посмотреть запись.