Современные рабочие процессы данных все чаще обременены растущими размерами наборов данных и сложностью распределенной обработки. Многие организации считают, что традиционные системы борются с длительным временем обработки, ограничениями памяти и эффективным управлением распределенными задачами. В этой среде ученые и инженеры по данным часто тратят чрезмерное время на обслуживание системы, а не извлекая информацию из данных. Необходимость в инструменте, который упрощает эти процессы – без жертвы производительности – ясна.
DeepSeek AI недавно выпустил SmallPond, легкую структуру обработки данных, построенная на DuckDB и 3FS. SmallPond стремится расширить эффективную аналитику SQL DuckDB в распределенную обстановку. Связывая DuckDB с 3FS-высокопроизводительной распределенной файловой системой, оптимизированной для современных SSD и сети RDMA-SmallPond предоставляет практическое решение для обработки больших наборов данных без сложности долгосрочных услуг или тяжелой инфраструктуры.
Технические детали и преимущества
SmallPond предназначен для беспрепятственной работы с Python, поддерживая версии с 3,8 по 3.12. Его философия дизайна основана на простоте и модульности. Пользователи могут быстро устанавливать структуру через PIP и начать обработку данных с минимальной настройкой. Одной из ключевых функций является возможность раздела данные вручную. Будь то разделение по количеству файлов, номерам строк или по определенному хэшу столбца, эта гибкость позволяет пользователям адаптировать обработку к своим конкретным данным и инфраструктуре.
Под капотом SmallPond использует DuckDB для его надежной, нативной производительности в выполнении запросов SQL. Структура дополнительно интегрируется с Ray, чтобы обеспечить параллельную обработку между распределенными вычислительными узлами. Эта комбинация не только упрощает масштабирование, но и гарантирует, что рабочие нагрузки могут быть эффективно обрабатываться по нескольким узлам. Кроме того, избегая постоянных услуг, SmallPond уменьшает эксплуатационные накладные расходы, обычно связанные с распределенными системами.
Установка
Python от 3,8 до 3.12 поддерживается.
Быстрый старт
# Download example data
wget https://duckdb.org/data/prices.parquet
import smallpond
# Initialize session
sp = smallpond.init()
# Load data
df = sp.read_parquet("prices.parquet")
# Process data
df = df.repartition(3, hash_by="ticker")
df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)
# Save results
df.write_parquet("output/")
# Show results
print(df.to_pandas())
Производительность и понимание
В тестах на производительность, используя контрольный показатель Grayort, SmallPond продемонстрировал свою емкость, сортируя 110,5TIB данных чуть более 30 минут, достигнув средней пропускной способности 3,66tib в минуту. Эти результаты иллюстрируют, насколько эффективно структура использует комбинированные сильные стороны DuckDB и 3FS как для вычисления, так и для хранения. Такие показатели эффективности обеспечивают уверенность в том, что SmallPond может удовлетворить потребности организаций, занимающихся терабайтами, с петабайтами данных. Характер проекта с открытым исходным кодом также означает, что пользователи и разработчики могут сотрудничать по дальнейшей оптимизации и адаптировать структуру к различным вариантам использования.
Заключение
SmallPond представляет собой измеренный, но значительный шаг вперед в обработке распределенных данных. Он решает основные проблемы, расширяя проверенную эффективность DuckDB в распределенную среду, поддерживаемую высокопроизводительными возможностями 3FS. С акцентом на простоту, гибкость и производительность SmallPond предлагает практический инструмент для ученых и инженеров, которым поручено обработать большие наборы данных. В качестве проекта с открытым исходным кодом он предлагает вклад и постоянное улучшение со стороны сообщества, что делает его ценным дополнением к современным наборам инструментов для разработки данных. Независимо от того, управляя скромными наборами данных или масштабированием до операций на уровне петабайта, SmallPond предоставляет надежную структуру, которая является как эффективной, так и доступной.
Проверить GitHub Repo. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем
🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI
ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.
🚨 Рекомендуемая платформа искусственного интеллекта с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)