Быстрый рост веб -контента представляет собой проблему для эффективного извлечения и суммирования соответствующей информации. В этом уроке мы демонстрируем, как использовать FireCRAWL Для сетевого очистка и обработки извлеченных данных с использованием моделей искусственного интеллекта, таких как Google Gemini. Интегрируя эти инструменты в Google Colab, мы создаем сквозной рабочий процесс, который царапает веб-страницы, извлекает значимый контент и генерирует краткие резюме, используя современные языковые модели. Независимо от того, хотите ли вы автоматизировать исследования, извлекать понимание из статей или создать приложения с AI, этот учебник обеспечивает надежное и адаптируемое решение.
!pip install google-generativeai firecrawl-py
Во-первых, мы устанавливаем Google-Generativeai FireCRAWL-PY, который устанавливает две важные библиотеки, необходимые для этого учебника. Google Generativeai предоставляет доступ к API Google Gemini для генерации текста с AI, в то время как FireCrawl-Py позволяет скрепить веб-сайт путем извлечения контента с веб-страниц в структурированном формате.
import os
from getpass import getpass
# Input your API keys (they will be hidden as you type)
os.environ("FIRECRAWL_API_KEY") = getpass("Enter your Firecrawl API key: ")
Затем мы надежно устанавливаем ключ API FireCRAWL в качестве переменной среды в Google Colab. Он использует getPass (), чтобы предложить пользователю для ключа API, не отображая его, обеспечивая конфиденциальность. Хранение ключа в OS.Environ позволяет бесшовную аутентификацию для функций сеанса FireCRAWL на протяжении всего сеанса.
from firecrawl import FirecrawlApp
firecrawl_app = FirecrawlApp(api_key=os.environ("FIRECRAWL_API_KEY"))
target_url = "https://en.wikipedia.org/wiki/Python_(programming_language)"
result = firecrawl_app.scrape_url(target_url)
page_content = result.get("markdown", "")
print("Scraped content length:", len(page_content))
Мы инициализируем FireCRAWL, создав экземпляр FireCrawlApp, используя хранимый ключ API. Затем он царапает содержимое указанной веб -страницы (в данном случае страницу языка программирования Wikipedia Python) и извлекает данные в формате Markdown. Наконец, он печатает длину сокраренного контента, позволяя нам проверить успешный поиск перед дальнейшей обработкой.
import google.generativeai as genai
from getpass import getpass
# Securely input your Gemini API Key
GEMINI_API_KEY = getpass("Enter your Google Gemini API Key: ")
genai.configure(api_key=GEMINI_API_KEY)
Мы инициализируем API Google Gemini, надежно захватывая ключ API с помощью getPass (), предотвращая его отображение в простом тексту. Команда genai.configure (api_key = gemini_api_key) устанавливает клиент API, позволяя беспрепятственно взаимодействовать с AI Google Gemini для создания текста и задач суммирования. Это обеспечивает безопасную аутентификацию перед тем, как вносить запросы на модель искусственного интеллекта.
for model in genai.list_models():
print(model.name)
Мы перечитываем доступные модели в Google Gemini API с использованием genai.list_models () и печатаем их имена. Это помогает пользователям проверить, какие модели доступны с их ключом API, и выбирать соответствующую для таких задач, как генерация текста или суммирование. Если модель не найдена, этот шаг способствует отладке и выбору альтернативы.
model = genai.GenerativeModel("gemini-1.5-pro")
response = model.generate_content(f"Summarize this:\n\n{page_content(:4000)}")
print("Summary:\n", response.text)
Наконец, мы инициализируем модель Gemini 1.5 Pro, используя Genai.GenerativeModel («Gemini-1.5-Pro»), отправляет запрос на создание сводного сохранения содержимого контента. Это ограничивает входной текст 4000 символов, чтобы оставаться в пределах ограничений API. Модель обрабатывает запрос и возвращает краткую резюме, которая затем напечатана, предоставляя структурированный и сгенерированный AI обзор извлеченного контента веб-страницы.
В заключение, комбинируя FireCRAWL и Google Gemini, мы создали автоматический конвейер, который царапает веб -контент и генерирует значимые резюме с минимальными усилиями. В этом учебном пособии продемонстрировалось несколько решений с AI, позволяющим гибкости на основе доступности API и ограничений квот. Независимо от того, работаете ли вы над приложениями NLP, автоматизацией исследований или агрегацией контента, этот подход обеспечивает эффективное извлечение и суммирование данных в масштабе.
Вот Колаб ноутбукПолем Кроме того, не забудьте следовать за нами Twitter и присоединиться к нашему Телеграмма канал и LinkedIn GrукПолем Не забудьте присоединиться к нашему 80K+ ML SubredditПолем
🚨 Познакомьтесь с «Партаном»: разговорная структура ИИ, на первом месте LLM, предназначенную для того, чтобы предоставить разработчикам контроль и точность, которые им нужны, по сравнению с их агентами по обслуживанию клиентов AI, используя поведенческие руководящие принципы и надзор за время выполнения. 🔧 🎛 Он работает с использованием простого в использовании CLI 📟 и нативных SDK клиента в Python и TypeScript 📦.
ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.
Парган: строите надежные агенты, обращенные к клиенту AI с LLMS 💬 ✅ (повышен)