Фотонный процессор мог бы обеспечить сверхбыстрые вычисления ИИ с экстремальной энергоэффективностью | MIT News

Модели глубоких нейронных сети, которые питают наиболее требовательные современные приложения машинного обучения, стали настолько большими и сложными, что они раздвигают границы традиционного электронного вычислительного оборудования.

Фотонное оборудование, которое может выполнять вычисления на машинном обучении со светом, предлагает более быструю и более энергоэффективную альтернативу. Тем не менее, существуют некоторые типы вычислений нейронной сети, которые фотонное устройство не может выполнить, что требует использования сетевой электроники или других методов, которые препятствуют скорости и эффективности.

Основываясь на десятилетнем исследованиях, ученые из MIT и в других местах разработали новый фотонический чип, который преодолевает эти препятствия. Они продемонстрировали полностью интегрированный фотонный процессор, который может выполнить все ключевые вычисления глубокой нейронной сети в чипе.

Оптическое устройство смогло выполнить ключевые вычисления для задачи классификации машинного обучения менее чем за половину наносекунды, одновременно достигнув более чем 92-процентной точности-производительность, которая находится наравне с традиционным оборудованием.

Чип, состоящий из взаимосвязанных модулей, которые образуют оптическую нейронную сеть, изготовлен с использованием коммерческих литейных процессов, которые могут позволить масштабирование технологии и ее интеграцию в электронику.

В долгосрочной перспективе фотонный процессор может привести к более быстрому и более энергоэффективному глубокому обучению для вычислительных приложений, таких как LiDAR, научные исследования по астрономии и физике частиц, или высокоскоростные телекоммуникации.

«Есть много случаев, когда то, насколько хорошо выполняется модель, – это не единственное, что имеет значение, но также и то, как быстро вы можете получить ответ. Теперь, когда у нас есть сквозная система, которая может запустить нейронную сеть в оптике, в наносекундной масштабе времени мы можем начать думать на более высоком уровне о приложениях и алгоритмах »,-говорит Saumil Bandyopadhyay ’17, Meng ’18, Доктор философии 23, посещающий ученый в группе квантовой фотоники и ИИ в рамках исследовательской лаборатории электроники (RLE) и Postdoc в NTT Research, Inc., который является ведущим автором статьи о новом чипе.

Bandyopadhyay присоединяется на газете Александр Слуддс ’18, Мэн ’19, PhD ’23; Николас Харрис PhD ’17; Дариус Бандар доктор философии ’19; Стефан Крастанов, бывший научный сотрудник RLE, который в настоящее время является доцентом в Университете Массачусетса в Амхерсте; Райан Хамерли, приглашенный ученый в RLE и старший ученый в NTT Research; Мэтью Стрешинский, бывший кремниевой фотоника в Nokia, который в настоящее время является соучредителем и генеральным директором Enosemi; Майкл Хохберг, президент Periplous, LLC; и Дирк Энглунд, профессор факультета электротехники и компьютерных наук, главный исследователь группы квантовой фотоники и искусственного интеллекта и RLE и старший автор статьи. Исследование появляется сегодня в Природа фотоникаПолем

Машинное обучение с светом

Глубокие нейронные сети состоят из многих взаимосвязанных слоев узлов или нейронов, которые работают на входных данных для получения вывода. Одна ключевая операция в глубокой нейронной сети включает использование линейной алгебры для выполнения умножения матрицы, которая преобразует данные при передаче из слоя в слой.

Но в дополнение к этим линейным операциям, глубокие нейронные сети выполняют нелинейные операции, которые помогают модели изучить более сложные закономерности. Нелинейные операции, такие как функции активации, дают глубокому нейронным сетям возможность решать сложные проблемы.

В 2017 году группа Englund, наряду с исследователями в лаборатории Марин Солджачич, Сесил и профессор физики Сесила и Иды Иды, продемонстрировала оптическую нейронную сеть на одном фотонном чипе, который мог бы выполнить умножение матрицы со светом.

Но в то время устройство не могло выполнять нелинейные операции на чипе. Оптические данные должны были быть преобразованы в электрические сигналы и отправлены в цифровой процессор для выполнения нелинейных операций.

«Нелинейность в оптике довольно сложно, потому что фотоны не очень легко взаимодействуют друг с другом. Это делает его очень властью, чтобы вызвать оптические нелинейности, поэтому становится сложно создавать систему, которая может сделать это масштабируемым образом », – объясняет Bandyopadhyay.

Они преодолели эту проблему, проектируя устройства, называемые нелинейными единицами оптической функции (NOFU), которые объединяют электронику и оптику для реализации нелинейных операций в чипе.

Исследователи создали оптическую глубокую нейронную сеть на фотонном чипе, используя три уровня устройств, которые выполняют линейные и нелинейные операции.

Полностью интегрированная сеть

Вначале их система кодирует параметры глубокой нейронной сети в свет. Затем массив программируемых пучков, который был продемонстрирован в статье 2017 года, выполняет умножение матрицы на этих входах.

Затем данные передают программируемую нофус, которые реализуют нелинейные функции, откидывая небольшое количество света в фотодиоды, которые преобразуют оптические сигналы в электрический ток. Этот процесс, который устраняет необходимость в внешнем усилителе, потребляет очень мало энергии.

«Мы остаемся в оптическом домене все время, до конца, когда хотим прочитать ответ. Это позволяет нам достичь сверхнизкой задержки »,-говорит Bandyopadhyay.

Достижение такой низкой задержки позволило им эффективно обучать глубокую нейронную сеть на чип, процесс, известный как in situ Обучение, которое обычно потребляет огромное количество энергии в цифровом оборудовании.

«Это особенно полезно для систем, в которых вы делаете в доменной обработке оптических сигналов, таких как навигация или телекоммуникации, а также в системах, которые вы хотите выучить в режиме реального времени»,-говорит он.

Фотонная система достигла более чем 96 -процентной точности во время тренировочных тестов и более чем 92 -процентной точности во время вывода, что сопоставимо с традиционным оборудованием. Кроме того, чип выполняет ключевые вычисления менее чем за половину наносекунды.

«Эта работа демонстрирует, что вычисление – в ее сущности, отображение входов на выходы – может быть составлено на новые архитектуры линейной и нелинейной физики, которые позволяют фундаментально различный закон масштабирования вычислений и необходимых усилий», – говорит Энглунд.

Вся схема была изготовлена ​​с использованием той же инфраструктуры и литейных процессов, которые производят компьютерные чипы CMOS. Это может позволить чипе производиться в масштабе, используя проверенные методы, которые вводят очень небольшую ошибку в процесс изготовления.

По словам Bandyopadhyay, масштабирование их устройства и интеграция его реальной электроникой, такой как камеры или телекоммуникационные системы, станет основным направлением будущей работы. Кроме того, исследователи хотят изучить алгоритмы, которые могут использовать преимущества оптики для обучения систем быстрее и с лучшей энергоэффективностью.

Это исследование было отчасти финансировано Национальным научным фондом США, Управлением научных исследований ВВС США и NTT Research.

Source link

Scroll to Top