Расширение возможностей временных рядов: как Salesforce использует синтетические данные для улучшения моделей фундамента

Анализ временных рядов сталкивается с значительными препятствиями в наличии, качестве и разнообразии данных, критических факторах в разработке эффективных моделей фундамента. Наборы данных в реальном мире часто терпят неудачу из-за нормативных ограничений, присущих неотъемлемых предвзятости, низкого качества и ограниченных парных текстовых аннотаций, что затрудняет создание надежных моделей фондов временных рядов (TSFMS) и моделей с большими языковыми моделями (TSLLMS). Этот дефицит влияет на такие задачи, как прогнозирование, классификация, обнаружение аномалий, рассуждения и под надписи, ограничивая весь потенциал современных достижений в искусственном интеллекте.

Salesforce AI Research рассмотрело эти проблемы, предлагая комплексный подход к использованию синтетических данных для улучшения TSFM и TSLLMS. Их недавнее исследование «Расширение возможностей временных рядов с помощью синтетических данных» представляет собой новую стратегию использования синтетических данных для улучшения обучения модели, оценки и тонкой настройки, сосредоточенности на смягчении смещений, увеличении разнообразия наборов данных и обогащении контекстной информации. Разрабатывая инновационные рамки генерации данных и включив синтетические наборы данных, Salesforce AI стремится продвигать практическое применение TSFM и TSLLMS, особенно в конфиденциальных областях, таких как здравоохранение и финансы, где обмен данными в значительной степени регулируется.

Технический краеугольный камень методологии Salesforce AI Research включает в себя различные подходы генерации синтетических данных, каждый из которых занимается конкретными аспектами динамики временных рядов, таких как тенденции, сезонные модели и характеристики шума. Например, метод прогнозирования сочетает в себе линейно-экспоненциальные тенденции и периодические сезоны с распределенным в Weibull, эффективно имитируя реалистичные, но разнообразные сценарии. Точно так же TimesFM объединяет кусочные линейные тенденции и модели авторегрессии скользящего среднего (ARMA) с периодическими моделями. Другой инновационный метод, Kernelsynth от Chronos, использует гауссовые процессы (GPS) в сочетании с ядрами линейной, периодической и радиальной базисной функции (RBF) для генерации богатых синтетических наборов данных. Эти методы позволяют контролируемому, но разнообразному созданию синтетических данных, которое помогает в захвате полного спектра реалистичного поведения временных рядов.

Результаты команды Salesforce подчеркивают существенные преимущества, полученные из синтетических данных на нескольких этапах разработки модели. В предварительной подготовке синтетические наборы данных обеспечивали четкие улучшения производительности, особенно продемонстрированные в таких моделях, как прогноз, Mamba4cast и Timesfm. Например, прогноз, предварительно предварительно проведенный полностью на синтетических данных, показал значительные улучшения в сценариях прогнозирования с нулевым выстрелом, в то время как Chronos обнаружил оптимальный прирост производительности, смешивая около 10% синтетических данных с реальными наборами данных, помимо которых дополнительные синтетические данные могут потенциально разрушить производительность из-за менее разнообразных представлений. Кроме того, синтетические данные также сыграли решающую роль в оценке, позволяя исследователям точно оценить возможности модели, понимать внутренние представления и выявлять пробелы в изученных закономерности. Момент использовал синтетически сгенерированные синусоидальные волны для оценки внутренних встраиваний и чувствительности модели к вариациям характеристик временных рядов, демонстрируя ее эффективность в захвате тонких тенденций и частот.

В документе также рассматриваются текущие ограничения в использовании синтетических данных, выявляя области для будущего улучшения. Одним из критических пробелов является отсутствие методов систематической интеграции для синтетических наборов данных, что позволяет предположить необходимость стратегически идентификации структурированных структур для идентификации и заполнения отсутствующих схем данных реального мира. Другим отмеченным ограничением является господство статистических методов, что вызвало призыв к изучению генеративных методов, основанных на данных, таких как диффузионные модели, для улучшения реализма. Исследователи Salesforce дополнительно подчеркивают неиспользованный потенциал в использовании синтетических данных на этапах тонкой настройки для более эффективного и адаптивного устранения конкретных пробелов в области или моделей.

В заключение, исследования Salesforce AI демонстрируют, что синтетические данные предлагают мощный набор инструментов для преодоления проблем, связанных с данными в анализе временных рядов. Систематически интегрируя высококачественные синтетические наборы данных в различные этапы разработки моделей, TSFMS и TSLLM могут достичь улучшенного обобщения, снижения смещений и повышения производительности в разных аналитических задачах. Несмотря на существующие ограничения, такие как обеспечение реализма и выравнивания, проактивное развитие и изучение методологий генерации синтетических данных указывают на значительный потенциал. Будущие исследования, как предложено Salesforce, должно сосредоточиться на улучшении реализма данных, систематической обращении с пробелами данных и использованию итеративных процессов генерации синтетических данных человека в петле. Эти достижения могут значительно расширить применимость и надежность моделей временных рядов, заложив прочную основу для будущих инноваций в искусственном интеллекте.


Проверить бумага. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 85K+ ML SubredditПолем


Нихил – стажер консультант в Marktechpost. Он получает интегрированную двойную степень в области материалов в Индийском технологическом институте, Харагпур. Нихил является энтузиастом AI/ML, который всегда исследует приложения в таких областях, как биоматериалы и биомедицинская наука. С большим опытом в области материальной науки, он изучает новые достижения и создает возможности для внесения вклад.

Source link

Scroll to Top