Модели глубоких нейронных сети, которые питают наиболее требовательные современные приложения машинного обучения, стали настолько большими и сложными, что они раздвигают границы традиционного электронного вычислительного оборудования.
Фотонное оборудование, которое может выполнять вычисления на машинном обучении со светом, предлагает более быструю и более энергоэффективную альтернативу. Тем не менее, существуют некоторые типы вычислений нейронной сети, которые фотонное устройство не может выполнить, что требует использования сетевой электроники или других методов, которые препятствуют скорости и эффективности.
Основываясь на десятилетнем исследованиях, ученые из MIT и в других местах разработали новый фотонический чип, который преодолевает эти препятствия. Они продемонстрировали полностью интегрированный фотонный процессор, который может выполнить все ключевые вычисления глубокой нейронной сети в чипе.
Оптическое устройство смогло выполнить ключевые вычисления для задачи классификации машинного обучения менее чем за половину наносекунды, одновременно достигнув более чем 92-процентной точности-производительность, которая находится наравне с традиционным оборудованием.
Чип, состоящий из взаимосвязанных модулей, которые образуют оптическую нейронную сеть, изготовлен с использованием коммерческих литейных процессов, которые могут позволить масштабирование технологии и ее интеграцию в электронику.
В долгосрочной перспективе фотонный процессор может привести к более быстрому и более энергоэффективному глубокому обучению для вычислительных приложений, таких как LiDAR, научные исследования по астрономии и физике частиц, или высокоскоростные телекоммуникации.
«Есть много случаев, когда то, насколько хорошо выполняется модель, – это не единственное, что имеет значение, но также и то, как быстро вы можете получить ответ. Теперь, когда у нас есть сквозная система, которая может запустить нейронную сеть в оптике, в наносекундной масштабе времени мы можем начать думать на более высоком уровне о приложениях и алгоритмах »,-говорит Saumil Bandyopadhyay ’17, Meng ’18, Доктор философии 23, посещающий ученый в группе квантовой фотоники и ИИ в рамках исследовательской лаборатории электроники (RLE) и Postdoc в NTT Research, Inc., который является ведущим автором статьи о новом чипе.
Bandyopadhyay присоединяется на газете Александр Слуддс ’18, Мэн ’19, PhD ’23; Николас Харрис PhD ’17; Дариус Бандар доктор философии ’19; Стефан Крастанов, бывший научный сотрудник RLE, который в настоящее время является доцентом в Университете Массачусетса в Амхерсте; Райан Хамерли, приглашенный ученый в RLE и старший ученый в NTT Research; Мэтью Стрешинский, бывший кремниевой фотоника в Nokia, который в настоящее время является соучредителем и генеральным директором Enosemi; Майкл Хохберг, президент Periplous, LLC; и Дирк Энглунд, профессор факультета электротехники и компьютерных наук, главный исследователь группы квантовой фотоники и искусственного интеллекта и RLE и старший автор статьи. Исследование появляется сегодня в Природа фотоникаПолем
Машинное обучение с светом
Глубокие нейронные сети состоят из многих взаимосвязанных слоев узлов или нейронов, которые работают на входных данных для получения вывода. Одна ключевая операция в глубокой нейронной сети включает использование линейной алгебры для выполнения умножения матрицы, которая преобразует данные при передаче из слоя в слой.
Но в дополнение к этим линейным операциям, глубокие нейронные сети выполняют нелинейные операции, которые помогают модели изучить более сложные закономерности. Нелинейные операции, такие как функции активации, дают глубокому нейронным сетям возможность решать сложные проблемы.
В 2017 году группа Englund, наряду с исследователями в лаборатории Марин Солджачич, Сесил и профессор физики Сесила и Иды Иды, продемонстрировала оптическую нейронную сеть на одном фотонном чипе, который мог бы выполнить умножение матрицы со светом.
Но в то время устройство не могло выполнять нелинейные операции на чипе. Оптические данные должны были быть преобразованы в электрические сигналы и отправлены в цифровой процессор для выполнения нелинейных операций.
«Нелинейность в оптике довольно сложно, потому что фотоны не очень легко взаимодействуют друг с другом. Это делает его очень властью, чтобы вызвать оптические нелинейности, поэтому становится сложно создавать систему, которая может сделать это масштабируемым образом », – объясняет Bandyopadhyay.
Они преодолели эту проблему, проектируя устройства, называемые нелинейными единицами оптической функции (NOFU), которые объединяют электронику и оптику для реализации нелинейных операций в чипе.
Исследователи создали оптическую глубокую нейронную сеть на фотонном чипе, используя три уровня устройств, которые выполняют линейные и нелинейные операции.
Полностью интегрированная сеть
Вначале их система кодирует параметры глубокой нейронной сети в свет. Затем массив программируемых пучков, который был продемонстрирован в статье 2017 года, выполняет умножение матрицы на этих входах.
Затем данные передают программируемую нофус, которые реализуют нелинейные функции, откидывая небольшое количество света в фотодиоды, которые преобразуют оптические сигналы в электрический ток. Этот процесс, который устраняет необходимость в внешнем усилителе, потребляет очень мало энергии.
«Мы остаемся в оптическом домене все время, до конца, когда хотим прочитать ответ. Это позволяет нам достичь сверхнизкой задержки »,-говорит Bandyopadhyay.
Достижение такой низкой задержки позволило им эффективно обучать глубокую нейронную сеть на чип, процесс, известный как in situ Обучение, которое обычно потребляет огромное количество энергии в цифровом оборудовании.
«Это особенно полезно для систем, в которых вы делаете в доменной обработке оптических сигналов, таких как навигация или телекоммуникации, а также в системах, которые вы хотите выучить в режиме реального времени»,-говорит он.
Фотонная система достигла более чем 96 -процентной точности во время тренировочных тестов и более чем 92 -процентной точности во время вывода, что сопоставимо с традиционным оборудованием. Кроме того, чип выполняет ключевые вычисления менее чем за половину наносекунды.
«Эта работа демонстрирует, что вычисление – в ее сущности, отображение входов на выходы – может быть составлено на новые архитектуры линейной и нелинейной физики, которые позволяют фундаментально различный закон масштабирования вычислений и необходимых усилий», – говорит Энглунд.
Вся схема была изготовлена с использованием той же инфраструктуры и литейных процессов, которые производят компьютерные чипы CMOS. Это может позволить чипе производиться в масштабе, используя проверенные методы, которые вводят очень небольшую ошибку в процесс изготовления.
По словам Bandyopadhyay, масштабирование их устройства и интеграция его реальной электроникой, такой как камеры или телекоммуникационные системы, станет основным направлением будущей работы. Кроме того, исследователи хотят изучить алгоритмы, которые могут использовать преимущества оптики для обучения систем быстрее и с лучшей энергоэффективностью.
Это исследование было отчасти финансировано Национальным научным фондом США, Управлением научных исследований ВВС США и NTT Research.