Дилемма данных ИИ: конфиденциальность, регулирование и будущее этического ИИ

Решения, основанные на ИИ, быстро принимаются в различных отраслях, услугах и продуктах каждый день. Тем не менее, их эффективность полностью зависит от качества данных, на которых они обучены – аспект, часто неправильно понятый или упускаемый из виду в процессе создания набора данных.

По мере того, как органы по защите данных увеличивают анализ того, как технологии ИИ совпадают с правилами конфиденциальности и защиты данных, компании сталкиваются с растущим давлением, чтобы найти, аннотировать и уточнить наборы данных в соответствии с соответствующими и этическими способами.

Есть ли действительно этический подход к созданию наборов данных ИИ? Каковы самые большие этические проблемы компаний и как они их решают? А как развивающиеся правовые рамки влияют на доступность и использование учебных данных? Давайте рассмотрим эти вопросы.

Конфиденциальность данных и ИИ

По своей природе ИИ требует много персональных данных для выполнения задач. Это вызвало обеспокоенность по поводу сбора, сохранения и использования этой информации. Многие законы во всем мире регулируют и ограничивают использование личных данных, от GDPR и недавно введенного Закона об ИИ в Европе в HIPAA в США, который регулирует доступ к данным пациентов в медицинской отрасли.

Ссылка на то, как строгие законы о защите данных являются во всем мире / DLA Piper

Например, четырнадцать штатов США в настоящее время имеют всеобъемлющие законы о конфиденциальности данных, при этом еще шесть подходят для вступления в силу в 2025 году и начале 2026 года. Новая администрация дала представление о сдвиге своего подхода к обеспечению соблюдения конфиденциальности данных на федеральном уровне. Ключевым направлением является регулирование ИИ, подчеркивая развитие инноваций, а не наложение ограничений. Этот сдвиг включает в себя отмену предыдущих исполнительных распоряжений на ИИ и представление новых директив для руководства своей разработкой и применением.

Законодательство о защите данных развивается в различных странах: в Европе законы более строгие, в то время как в Азии или Африке они, как правило, менее строгие.

Тем не менее, личная информация (PII), такая как изображения лица, официальные документы, такие как паспорта или любые другие конфиденциальные личные данные, в некоторой степени ограничивается в большинстве стран. В соответствии с торговлей ООН и разработкой, сбор, использование и обмен личной информацией третьим лицам без уведомления или согласия потребителей является серьезной проблемой для большинства мира. 137 из 194 стран имеют правила, обеспечивающие защиту данных и конфиденциальность. В результате большинство глобальных компаний принимают обширные меры предосторожности, чтобы избежать использования PII для модельного обучения, поскольку такие правила, как в ЕС, строго запрещают такую ​​практику, заканчивая редкими исключениями, обнаруженными в сильно регулируемых нишах, таких как правоохранительные органы.

Со временем законы о защите данных становятся все более полными и во всем мире соблюдаются. Компании адаптируют свою практику, чтобы избежать юридических проблем и соответствовать возникающим юридическим и этическим требованиям.

Какие методы используют компании для получения данных?

Таким образом, при изучении вопросов защиты данных для моделей обучения очень важно, чтобы понять, где компании получают эти данные. Есть три основных и первичных источника данных.

Этот метод позволяет собирать данные с краудсорсинговых платформ, запасов носителей и наборов данных с открытым исходным кодом.

Важно отметить, что общественные акционерные СМИ подлежат различным соглашениям о лицензировании. Даже лицензия на коммерческое использование часто явно заявляет, что контент не может использоваться для модельного обучения. Эти ожидания отличаются платформой по платформе и требуют, чтобы предприятия подтвердили свою способность использовать контент способами, которые им необходимо.

Даже когда компании по искусству получают контент на законных основаниях, они все равно могут столкнуться с некоторыми проблемами. Быстрое продвижение модели ИИ обеспечило гораздо опередившие правовые рамки, что означает, что правила и правила, связанные с данными обучения ИИ, все еще развиваются. В результате компании должны оставаться в курсе юридических событий и тщательно пересмотреть соглашения о лицензировании, прежде чем использовать контент акций для обучения искусственному интеллекту.

Один из самых безопасных методов подготовки наборов данных включает в себя создание уникального контента, такого как съемки людей в контролируемых средах, таких как студии или наружные места. Перед участием люди подписывают форму согласия для использования своего PII, указывая, какие данные собираются, как и где они будут использоваться, и кто будет к ним. Это обеспечивает полную юридическую защиту и придает компаниям уверенность в том, что они не столкнутся с претензиями на незаконное использование данных.

Основным недостатком этого метода является его стоимость, особенно когда данные создаются для кромков или крупномасштабных проектов. Тем не менее, крупные компании и предприятия все чаще продолжают использовать этот подход как минимум по двум причинам. Во -первых, это обеспечивает полное соблюдение всех стандартов и юридических норм. Во -вторых, он предоставляет компаниям, полностью адаптированные для их конкретных сценариев и потребностей, гарантируя наивысшую точность в обучении модели.

  • Синтетическое генерация данных

Использование программных инструментов для создания изображений, текста или видео на основе данного сценария. Тем не менее, синтетические данные имеют ограничения: они генерируются на основе предопределенных параметров и не имеют естественной изменчивости реальных данных.

Этот недостаток может негативно повлиять на модели искусственного интеллекта. Несмотря на то, что это не имеет значения для всех случаев и не всегда происходит, все еще важно помнить «обрушение модели»-точка, в которой чрезмерная зависимость от синтетических данных приводит к снижению модели, что приводит к некачественным результатам.

Синтетические данные по -прежнему могут быть очень эффективными для основных задач, таких как распознавание общих паттернов, идентификация объектов или различение фундаментальных визуальных элементов, таких как лица.

Тем не менее, это не лучший вариант, когда компании должна полностью обучить модель с нуля или справляться с редкими или очень специфическими сценариями.

Наиболее показательные ситуации возникают в среде в кабине, таких как водитель, отвлеченный ребенком, кто-то, кто утомлен за рулем, или даже случаи безрассудного вождения. Эти точки данных обычно не доступны в общедоступных наборах данных – и они не должны быть – поскольку они связаны с реальными людьми в частных условиях. Поскольку модели ИИ полагаются на учебные данные для создания синтетических выходов, они изо всех сил пытаются представлять сценарии, с которыми они никогда не сталкивались точно.

Когда синтетические данные не выполняются, созданы данные – собранные через контролируемые среды с реальными субъектами – становится решением.

Поставщики решений для данных, такие как Keymakr, размещают камеры в автомобили, нанимают актеров и рекордные действия, такие как забота о ребенке, питье из бутылки или показ признаков усталости. Актеры подписывают контракты, явно согласившись на использование своих данных для обучения ИИ, обеспечивая соблюдение законов о конфиденциальности.

Обязанности в процессе создания набора данных

Каждый участник процесса, от клиента до аннотационной компании, имеет конкретные обязанности, изложенные в их соглашении. Первым шагом является заключение договора, в котором подробно описывается характер отношений, включая положения о неразглашении и интеллектуальной собственности.

Давайте рассмотрим первый вариант работы с данными, а именно, когда он создается с нуля. Права интеллектуальной собственности гласит, что любые данные, которые создает поставщик, принадлежат компании по найму, что означает, что она создана от их имени. Это также означает, что поставщик должен убедиться, что данные получаются на законных основаниях и должным образом.

Как компания Data Solutions, KeyMakr обеспечивает соблюдение данных, сначала проверяя юрисдикцию, в которой создаются данные, получая надлежащее согласие от всех вовлеченных лиц и гарантируя, что данные могут быть юридически использованы для обучения ИИ.

Также важно отметить, что после того, как данные используются для обучения модели искусственного интеллекта, становится почти невозможным определить, какие конкретные данные способствовали модели, потому что ИИ смешивает все это вместе. Таким образом, конкретный выход не имеет тенденции к его выводу, особенно при обсуждении миллионов изображений.

В связи с тем, что эта область все еще устанавливает четкие руководящие принципы для распределения обязанностей. Это похоже на сложности, окружающие автомобили с самостоятельным вождением, где вопросы об ответственности-будь то водитель, производитель или компания-разработчик, все еще требуют четкого распространения.

В других случаях, когда поставщик аннотаций получает набор данных для аннотации, он предполагает, что клиент по закону получил данные. Если есть четкие признаки того, что данные были получены незаконно, поставщик должен сообщить об этом. Однако такие очевидные случаи чрезвычайно редки.

Также важно отметить, что крупные компании, корпорации и бренды, которые ценят их репутацию, очень осторожны с тем, где они получают свои данные, даже если они были созданы не с нуля, а взяты из других юридических источников.

Таким образом, ответственность каждого участника в процессе работы данных зависит от соглашения. Вы можете рассмотреть этот процесс частью более широкой «цепочки устойчивости», где каждый участник играет решающую роль в поддержании юридических и этических стандартов.

Какие заблуждения существуют в задней части развития ИИ?

Основное заблуждение о разработке ИИ заключается в том, что модели искусственного интеллекта работают аналогично поисковым системам, сбору и совокупности информации, чтобы представить пользователям на основе изученных знаний. Однако модели ИИ, особенно языковые модели, часто функционируют на основе вероятностей, а не на подлинном понимании. Они предсказывают слова или термины, основанные на статистической вероятности, используя шаблоны, наблюдаемые в предыдущих данных. ИИ ничего не «знает»; Он экстраполирует, догадывает и корректирует вероятности.

Кроме того, многие предполагают, что обучение ИИ требует огромных наборов данных, но многое из того, что ИИ должен распознать-как собаки, кошки или люди-уже хорошо зарекомендовано. В настоящее время основное внимание уделяется повышению точности и уточнению моделей, а не на переосмыслении возможностей распознавания. Большая часть развития ИИ сегодня вращается вокруг закрытия последних небольших пробелов в точности, а не начинается с нуля.

Этические проблемы и то, как Закон АИ Европейского Союза и смягчение правил США повлияют на мировой рынок ИИ

При обсуждении этики и законности работы с данными также важно четко понять, что определяет «этический» ИИ.

Самая большая этическая задача, с которыми сталкиваются сегодня в ИИ, – это определение того, что считается неприемлемым для ИИ делать или преподавать. Существует широкий консенсус о том, что этический ИИ должен помочь, а не вредить людям и избегать обмана. Тем не менее, системы ИИ могут допускать ошибки или «галлюцинации», что бросает вызов определению, соответствуют ли эти ошибки дезинформация или вред.

Этика AI является основной дебатом с такими организациями, как UNESCO, с участием ключевых принципов, связанных с аудиренностью и отслеживаемостью результатов.

Правовые рамки, окружающие доступ к данным и обучение ИИ, играют важную роль в формировании этического ландшафта ИИ. Страны с меньшим количеством ограничений на использование данных обеспечивают более доступные данные обучения, в то время как страны с более строгими законами о данных ограничивают доступность данных для обучения искусственного интеллекта.

Например, Европа, которая приняла Закон об ИИ, и США, которая отказалась от многих правил ИИ, предлагает контрастные подходы, которые указывают на нынешний глобальный ландшафт.

Закон АИ Европейского Союза значительно влияет на компании, работающие в Европе. Он обеспечивает соблюдение строгой нормативно -правовой базы, что затрудняет использование или разработку определенных моделей искусственного интеллекта. Компании должны получить конкретные лицензии для работы с определенными технологиями, и во многих случаях правила эффективно затрудняют для небольших предприятий выполнять эти правила.

В результате некоторые стартапы могут покинуть Европу или вообще избегать работы там, аналогично воздействию, наблюдаемые с правилами криптовалюты. Крупные компании, которые могут позволить себе инвестиции, необходимые для удовлетворения требований соответствия, могут адаптироваться. Тем не менее, этот акт может вывести инновации ИИ из Европы в пользу таких рынков, как США или Израиль, где правила менее строгие.

Решение США инвестировать основные ресурсы в развитие ИИ с меньшими ограничениями также может иметь недостатки, но пригласить на рынок больше разнообразия. В то время как Европейский союз сосредоточен на безопасности и соответствии нормативно-правовой соответствия, США, вероятно, будут способствовать более рискованному и передовым экспериментам.

Source link

Scroll to Top