Слои нормализации стали фундаментальными компонентами современных нейронных сетей, значительно улучшая оптимизацию за счет стабилизации потока градиента, снижения чувствительности к инициализации веса и сглаживания ландшафта потерь. С момента введения нормализации пакетов в 2015 году были разработаны различные методы нормализации для различных архитектур, причем нормализация слоя (LN) стала особенно доминирующей в моделях трансформатора. Их широкое использование в значительной степени связано с их способностью ускорить конвергенцию и повысить производительность модели, особенно когда сети становятся все глубже и сложнее. Несмотря на текущие архитектурные инновации, которые заменяют другие основные компоненты, такие как внимание или слои свертки, слои нормализации остаются неотъемлемыми для большинства проектов, подчеркивая их предполагаемую необходимость в глубоком обучении.
Хотя уровни нормализации оказались полезными, исследователи также изучили методы обучения глубоких сетях без них. В исследованиях были предложены альтернативные стратегии инициализации веса, методы нормализации веса и адаптивное градиент -обрезку для поддержания стабильности в таких моделях, как Resnets. В трансформаторах недавние усилия изучили модификации, которые снижают зависимость от нормализации, такие как реструктуризация блоков трансформаторов или постепенное удаление слоев LN с помощью тонкой настройки. Эти подходы демонстрируют, что, хотя уровни нормализации предлагают преимущества оптимизации, они не являются строго необходимыми, а альтернативные методы обучения могут достичь стабильной конвергенции с сопоставимой производительностью.
Исследователи из Fair, Meta, NYU, MIT и Princeton предлагают динамическую TANH (DYT) в качестве простой, но эффективной альтернативы слоев нормализации в трансформаторах. DYT работает как элементная функция, DYT (x) = TANH (альфа X), где (альфа) является изученным параметром, который масштабирует активации, ограничивая экстремальные значения. В отличие от нормализации слоя, DYT устраняет необходимость в статистике активации, упрощая вычисления. Эмпирические оценки показывают, что замена слоев нормализации DYT поддерживает или повышает производительность в различных задачах без обширной настройки гиперпараметрических. Кроме того, DYT повышает эффективность обучения и вывода, оспаривая предположение, что нормализация необходима для современных глубоких сетей.
Исследователи проанализировали нормализацию слоев в трансформаторах, используя такие модели, как Vit-B, WAV2VEC 2.0 и DIT-XL. Они обнаружили, что LN часто демонстрирует подобное Tanh, S-образному отображению ввода-вывода, в основном линейным для большинства значений, но раздавливая экстремальные активации. Вдохновленные этим, они предлагают динамическую TANH (DYT) в качестве замены LN. Определяемый как DYT (x) = гамма *TANH (альфа X) + бета), где альфа, гамма и бета являются обучаемыми параметрами, DYT сохраняет эффекты LN без вычисления статистики активации. Эмпирические результаты показывают, что DYT легко интегрируется в существующие архитектуры, поддержание стабильности и снижая необходимость настройки гиперпараметрических.
Чтобы оценить эффективность DYT, эксперименты проводились по различным архитектурам и задачам путем замены LN или RMSNORM на DYT, сохраняя при этом гиперпараметры неизменными. В задачах со стороны зрения DYT немного превзошел LN в классификации ImageNet-1K. Для самоотверженного обучения, диффузионных моделей, языковых моделей, обработки речи и моделирования последовательности ДНК DYT достигла производительности, сравнимой с существующими методами нормализации. Тесты на эффективность на Llama-7B показали, что DYT уменьшает время вычисления. Исследования абляции подчеркнули важность функции TANH и обучаемого параметра α, которые коррелировали со стандартным отклонениями активации, выступая в качестве неявного механизма нормализации. DYT продемонстрировал конкурентную производительность с повышением эффективности.
В заключение, исследование показывает, что современные нейронные сети, особенно трансформаторы, могут быть эффективно обучены без слоев нормализации. Предлагаемый DYT заменяет традиционную нормализацию, используя коэффициент обучения альфа-альфа и S-образную функцию TANH для регулирования значений активации. Несмотря на свою простоту, DYT повторяет поведение нормализации и достигает сопоставимой или превосходной производительности в различных задачах, включая распознавание, генерацию и самоотверженное обучение. Результаты оспаривают предположение, что слои нормализации необходимы, предлагая новое понимание их функции. DYT обеспечивает легкую альтернативу, которая упрощает обучение при сохранении или повышении производительности, часто не требуя корректировки гиперпараметрических.
Проверить Страница бумаги и проекта. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

Сана Хасан, стажер консалтинга в Marktechpost и студент с двойной степенью в IIT Madras, увлечена применением технологий и искусственного интеллекта для решения реальных проблем. С большим интересом к решению практических проблем, он привносит новую перспективу для пересечения ИИ и реальных решений.