Проект Александрия: демократизация научных знаний посредством извлечения структурированных фактов с помощью LLMS

Scientific Publishing значительно расширилась за последние десятилетия, однако доступ к важнейшим исследованиям остается ограниченным для многих, особенно в развивающихся странах, независимых исследователях и небольших академических учреждениях. Растущие затраты на подписку на журналы усугубляют это несоответствие, ограничивая доступность знаний даже в хорошо финансируемых университетах. Несмотря на стремление к открытому доступу (ОА), барьеры сохраняются, о чем свидетельствуют крупномасштабные потери доступа в Германии и США из-за споров с издателями. Это ограничение препятствует научному прогрессу, ведущий исследователей для изучения альтернативных методов для обеспечения научных знаний более доступными при навигации по авторским правам.

Текущие методы доступа к научному контенту в первую очередь включают прямые подписки, институциональный доступ или зависимость от юридически неоднозначных репозиториев. Эти подходы являются либо финансово неустойчивыми, либо юридически спорными. В то время как OA Publishing помогает, это не полностью разрешает кризис доступности. Большие языковые модели (LLMS) предлагают новый путь для извлечения и суммирования знаний из научных текстов, но их использование вызывает проблемы с авторским правом. Задача заключается в отделении фактического содержания от творческих выражений, защищенных в соответствии с законодательством об авторском праве.

Чтобы решить это, исследовательская группа предлагает Проект Александриякоторый вводит Единицы знаний (KU) в качестве структурированного формата для извлечения фактической информации при пропуске стилистических элементов. KUS кодирует ключевые научные идеи-такие как определения, отношения и методологические детали-в структурированной базе данных, гарантируя, что сохраняется только незащитный фактический контент. Эта структура согласуется с юридическими принципами, такими как дихотомия и идеи-экспрессии, которая гласит, что факты не могут быть защищены авторским правом, только их конкретные формулировки и презентация.

Ссылка: https://arxiv.org/pdf/2502.19413

Единицы знаний генерируются с помощью трубопровода LLM, который обрабатывает научные тексты в сегментах размером с абзац, извлекая основные концепции и их отношения. Каждый ку содержит:

  • Сущности: Основные научные концепции, выявленные в тексте.
  • Отношения: Связи между сущностями, включая причинные или определяющие связи.
  • Атрибуты: Конкретные детали, связанные с объектами.
  • Краткое описание контекста: Краткое резюме, обеспечивающая когерентность в нескольких KUS.
  • Предложение Минхаш: Отпечаток пальца, чтобы отслеживать исходный текст, не хранение оригинальной формулировки.

Этот структурированный подход уравновешивает удержание знаний с юридической защитой. Сегментация уровня параграфа обеспечивает оптимальную гранулярность-слишком малая, а информация разбросана; Слишком большой, а производительность LLM разлагается.

С юридической точки зрения, рамка соответствует как законам об авторском праве немецких, так и в США. Немецкий закон явно исключает факты из защиты авторских прав и позволяет интеллектуальному интеллектуальному интеллектуальному анализу данных. Аналогичным образом, доктрина справедливого использования США позволяет трансформирующим использованию, таким как текстовое и интеллектуальный анализ данных, при условии, что они не наносят вреда рыночной стоимости исходной работы. Исследовательская группа демонстрирует, что KUS удовлетворяет эти юридические условия, исключая выразительные элементы, сохраняя фактическое содержание.

Чтобы оценить эффективность KUS, команда провела тесты вопроса с несколькими вариантами ответов (MCQ), используя тезисы и полнотекстовые статьи из биологии, физики, математики и информатики. Результаты показывают, что LLM, использующие KUS, достигают почти той же точности, что и результаты, учитывая оригинальные тексты. Это говорит о том, что подавляющее большинство соответствующей информации сохраняется, несмотря на удаление выразительных элементов. Кроме того, инструменты обнаружения плагиата подтверждают минимальное совпадение между KUS и оригинальными текстами, усиливая юридическую жизнеспособность метода.

Помимо юридических соображений, исследование исследует ограничения существующих альтернатив. Встроения текста, обычно используемые для представления знаний, не в состоянии запечатлеть точные фактические детали, что делает их непригодными для извлечения научных знаний. Прямые методы перефразирования рискуют поддерживать слишком много сходства с исходным текстом, что потенциально нарушает законы об авторском праве. Напротив, KU обеспечивают более структурированный и юридически надежный подход.

В исследовании также рассматривается общая критика. Хотя некоторые утверждают, что разбавление цитирования может быть результатом извлечения знаний в базы данных, прослеживаемые системы атрибуции могут смягчить эту проблему. Другие беспокоятся о том, что нюансы в научных исследованиях могут быть потеряны, но команда подчеркивает, что большинство сложных элементов, таких как математические доказательства, не являются авторским правом с самого начала. Опасения по поводу потенциальных юридических рисков и распространения галлюцинации подтверждаются, с рекомендациями для гибридных систем проверки человека-AI для повышения надежности.

Более широкое влияние свободно доступных научных знаний распространяется на многочисленные сектора. Исследователи могут более эффективно сотрудничать в разных дисциплинах, специалисты здравоохранения могут более эффективно получить доступ к критическим медицинским исследованиям, а педагоги могут разработать высококачественные учебные планы без барьеров затрат. Кроме того, открытые научные знания способствуют общественному доверию и прозрачности, снижая дезинформацию и обеспечивая информированное принятие решений.

Двигаясь вперед, команда определяет несколько направлений исследований, в том числе уточнение фактической точности посредством перекрестных ссылок, разработка образовательных приложений для распространения знаний на основе KU и установление стандартов совместимости для графиков знаний. Они также предлагают интегрировать KUS в более широкую семантическую сеть для научных открытий, используя ИИ для автоматизации и проверки извлечений знаний в масштабе.

Таким образом, Project Alexandria представляет многообещающую основу для того, чтобы сделать научные знания более доступными, одновременно уважая ограничения авторских прав. Систематически извлекая фактический контент из научных текстов и структурируя его в единицы знаний, этот подход обеспечивает юридически жизнеспособное и технически эффективное решение кризиса доступности в научных публикациях. Обширное тестирование демонстрирует свой потенциал для сохранения критической информации без нарушения законов об авторском праве, позиционируя ее как значительный шаг к демократизации доступа к знаниям в научном сообществе.


Проверить бумага и проект. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI


Vineet Kumar – стажер консалтинга в Marktechpost. В настоящее время он преследует свой BS из Индийского технологического института (IIT), Канпур. Он энтузиаст машинного обучения. Он увлечен исследованиями и последними достижениями в области глубокого обучения, компьютерного зрения и связанных с ними областей.

🚨 Рекомендуемая платформа искусственного интеллекта с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)

Source link

Scroll to Top