Поскольку S & P использует глубокий онлайн -лом, ансамблевое обучение и снежную архитектуру, чтобы собрать в 5 раз больше данных о МСП


Присоединяйтесь к нашим ежедневным и еженедельным информационным бюллетеням для последних обновлений и эксклюзивного контента в индустрии AI-лидирования. Узнать больше


Инвестиционный мир имеет серьезную проблему, когда речь идет о данных о малых и средних предприятиях (МСП). Это не имеет ничего общего с качеством или точностью данных – это отсутствие каких -либо данных.

Оценка кредита МСП была удивительно сложной, потому что небольшие корпоративные финансовые данные не являются общедоступными и, следовательно, очень трудно получить доступ.

S & P Global Market Intelligence, Отдел S & P Global и ведущий поставщик кредитного рейтинга и ссылок, утверждает, что решили эту долгую проблему. Техническая команда компании построила платформу RiskGauge, A-Operated, которая в противном случае носит данные с более чем 200 миллионов веб-сайтов, обрабатывает ее с несколькими алгоритмами и вызывает риски.

Построенная на снежной архитектуре, платформа увеличила покрытие S & P MSE в 5x.

«Нашей целью было расширение и эффективность», – пояснил Муди Хади, новая разработка продукта S & P Glogbal Glowal Solutions. «Проект улучшил точность и охват данных, принося пользу клиентам».

Базовая архитектура риска

Антипартийное управление кредитами по существу оценивает доверие и риск компании на основе нескольких факторов, включая средства, вероятность дефолта и рискованного аппетита. S & P Global Market Intelligence дает эту информацию для институциональных инвесторов, банков, страховых компаний, управляющих активами и других.

«Большие и финансовые корпоративные организации предоставляют поставщикам, но им нужно знать, сколько одолжить, как часто их контролировать, какова будет продолжительность кредита», – пояснил Хади. «Они полагаются на третьи стороны, чтобы прийти с доверенным кредитным рейтингом».

Но в течение долгого времени был разрыв в покрытии МСП. Хади отметил, что, хотя крупные общественные компании, такие как IBM, Microsoft, Amazon, Google и остальные, обязаны распространять свои квартальные средства, SME не имеет такой обязанности, что ограничивает финансовую прозрачность. Из инвестиционных перспектив, учитывайте, что в Соединенных Штатах насчитывается около 10 миллионов малых и баллов, по сравнению с около 60 000 государственных компаний.

S & P Global Market Intelligence утверждает, что в настоящее время все охватывает: ранее у компании были данные только около 2 миллионов, но она рискует до 10 миллионов.

Платформа, которая вступила в производство в январе, основана на системе, созданной командой HADI, которая прочно описывает данные из неструктурированного веб-контента, объединяет ее с анонимными сторонними базами данных и применяет машинное обучение (ML) и расширенные алгоритмы для генерации кредитных баллов.

Компания использует снегопад для проведения корпоративных страниц и обработки их в прочности (сегментеры рынка), которые затем питаются в Riskgauge.

Бал данных платформы состоит из:

  • Ползание/онлайн -скребки
  • Предварительный слой
  • Шахтеры
  • Попечители
  • Riskgauge выигрыш

В частности, команда HADI использует хранилища данных и снегопад в середине предварительной обработки, добычи и медицинской промышленности.

В конце этого процесса МСП отмечаются на основе комбинации финансового, коммерческого и рыночного риска; 1 – самый высокий, 100 самых низких. Инвесторы также получают отчеты о фондах, на основе рисков, твердости, отчетов о бизнес -кредитах, исторической деятельности и ключевых событиях. Они также могут сравнить компании со своими сверстниками.

Поскольку S & P собирает ценные данные компании

Хади объяснил, что RiskGauge использует многослойный процесс лома, который разворачивает различные детали веб-домена компании, такие как базовые «свяжитесь с нами», и целевые страницы и новости. Шахтеры спускают несколько слоев URL, чтобы очистить соответствующие данные.

«Как вы можете себе представить, человек не может этого сделать», – сказал Хади. «Это будет много времени для человека, особенно когда вы имеете дело с 200 миллионами веб -страниц». Кто, как он заметил, приводит к нескольким терабайтам из информации о веб -сайте.

Как только данные собираются, следующим шагом является запуск алгоритмов, которые удаляют все, что не является текстом; Хади отметил, что система не заинтересована в JavaScript или даже тегах HTML. Данные очищаются, поэтому он становится читаемым человеком, а не кодом. Позже он загружается в снегопаде, и несколько майнеров данных расположены против страниц.

Алгоритмы ансамбля имеют решающее значение для прогнозирующего процесса; Эти типы алгоритмов объединяют прогнозы нескольких отдельных моделей (базовые модели или «слабые студенты», которые по сути немного лучше, чем случайные догадки) для проверки корпоративной информации, такой как имя, описание бизнеса, сектор, местоположение и оперативная деятельность. Система также учитывает любую полярность в чувствах вокруг объявлений, раскрытых на сайте.

«После того, как мы ползем на веб -сайте, алгоритмы достигли различных компонентов нарисованных страниц, и они голосуют и возвращаются с рекомендацией», – объяснил Хади. «В этом процессе нет человека в курсе, алгоритмы по существу конкурируют друг с другом. Это помогает с эффективностью повысить наше покрытие».

После этой первоначальной нагрузки система управляет активностью веб -сайта, автоматически работает еженедельно. Он не обновляет информацию еженедельно; Только когда он обнаруживает изменения, Хади добавил. Когда вы выполняете последующее сканирование, хэш -блокировка отслеживает целевую страницу предыдущего полза, а система генерирует еще один ключ; Если они идентичны, никаких изменений не было внесено, и никаких действий не требуется. Однако, если хэш -кейки не совпадают, система будет вызвана для обновления компаний.

Это непрерывное очищение важно, чтобы гарантировать, что система остается как можно более обновленной. «Если они часто обновляют сайт, это говорит нам, что они живы, верно?», – заметил Хади.

Проблемы с скоростью обработки, гигантскими базами данных, грязными сайтами

Конечно, были проблемы, чтобы выиграть при создании системы, особенно из -за огромного размера баз данных и необходимости быстрой обработки. Команда Хади должна была пойти на компромиссы, чтобы сбалансировать точность и скорость.

«Мы продолжали оптимизировать различные алгоритмы, чтобы работать быстрее», – объяснил он. «И настроенные; некоторые алгоритмы, которые у нас были, были действительно хорошими, имели высокую точность, высокую точность, высокий отзыв, но они были компьютеризированы слишком дороги».

Веб -сайты не всегда соответствуют стандартным форматам, требующим гибких методов лома.

«Вы много слышите о проектировании веб -сайтов с такими упражнениями, потому что, когда мы начали, мы подумали:« Эй, каждый сайт должен соответствовать Sitemap или XML », – сказал Хади. «И угадай, что? Никто не следует за этим».

По словам Хади, они не хотели затвердеть код или включать автоматизацию процесса робота (RPA), потому что веб -сайты так широко различаются, и они знали, что наиболее важная информация, которую им нужна была в тексте. Это привело к созданию системы, которая только приносит необходимые веб -компоненты, затем очищает ее для фактического текста и отбрасывает код и любой JavaScript или TypeScript.

Как отметил Хади, «самые большие проблемы были в отношении производительности и конфигурации, а также тот факт, что веб -сайты не являются чистыми».


Source link
Scroll to Top