DeepSeek AI выпускает SmallPond: легкая структура обработки данных, построенная на DuckDB и 3FS

March 3, 2025

Dr. Ashish V

Современные рабочие процессы данных все чаще обременены растущими размерами наборов данных и сложностью распределенной обработки. Многие организации считают, что традиционные системы борются с длительным временем обработки, ограничениями памяти и эффективным управлением распределенными задачами. В этой среде ученые и инженеры по данным часто тратят чрезмерное время на обслуживание системы, а не извлекая информацию из данных. Необходимость в инструменте, который упрощает эти процессы – без жертвы производительности – ясна.

DeepSeek AI недавно выпустил SmallPond, легкую структуру обработки данных, построенная на DuckDB и 3FS. SmallPond стремится расширить эффективную аналитику SQL DuckDB в распределенную обстановку. Связывая DuckDB с 3FS-высокопроизводительной распределенной файловой системой, оптимизированной для современных SSD и сети RDMA-SmallPond предоставляет практическое решение для обработки больших наборов данных без сложности долгосрочных услуг или тяжелой инфраструктуры.

Технические детали и преимущества

SmallPond предназначен для беспрепятственной работы с Python, поддерживая версии с 3,8 по 3.12. Его философия дизайна основана на простоте и модульности. Пользователи могут быстро устанавливать структуру через PIP и начать обработку данных с минимальной настройкой. Одной из ключевых функций является возможность раздела данные вручную. Будь то разделение по количеству файлов, номерам строк или по определенному хэшу столбца, эта гибкость позволяет пользователям адаптировать обработку к своим конкретным данным и инфраструктуре.

Под капотом SmallPond использует DuckDB для его надежной, нативной производительности в выполнении запросов SQL. Структура дополнительно интегрируется с Ray, чтобы обеспечить параллельную обработку между распределенными вычислительными узлами. Эта комбинация не только упрощает масштабирование, но и гарантирует, что рабочие нагрузки могут быть эффективно обрабатываться по нескольким узлам. Кроме того, избегая постоянных услуг, SmallPond уменьшает эксплуатационные накладные расходы, обычно связанные с распределенными системами.

Установка

Python от 3,8 до 3.12 поддерживается.

Быстрый старт

# Download example data
wget https://duckdb.org/data/prices.parquet

import smallpond

# Initialize session
sp = smallpond.init()

# Load data
df = sp.read_parquet("prices.parquet")

# Process data
df = df.repartition(3, hash_by="ticker")
df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)

# Save results
df.write_parquet("output/")
# Show results
print(df.to_pandas())

Производительность и понимание

В тестах на производительность, используя контрольный показатель Grayort, SmallPond продемонстрировал свою емкость, сортируя 110,5TIB данных чуть более 30 минут, достигнув средней пропускной способности 3,66tib в минуту. Эти результаты иллюстрируют, насколько эффективно структура использует комбинированные сильные стороны DuckDB и 3FS как для вычисления, так и для хранения. Такие показатели эффективности обеспечивают уверенность в том, что SmallPond может удовлетворить потребности организаций, занимающихся терабайтами, с петабайтами данных. Характер проекта с открытым исходным кодом также означает, что пользователи и разработчики могут сотрудничать по дальнейшей оптимизации и адаптировать структуру к различным вариантам использования.

Заключение

SmallPond представляет собой измеренный, но значительный шаг вперед в обработке распределенных данных. Он решает основные проблемы, расширяя проверенную эффективность DuckDB в распределенную среду, поддерживаемую высокопроизводительными возможностями 3FS. С акцентом на простоту, гибкость и производительность SmallPond предлагает практический инструмент для ученых и инженеров, которым поручено обработать большие наборы данных. В качестве проекта с открытым исходным кодом он предлагает вклад и постоянное улучшение со стороны сообщества, что делает его ценным дополнением к современным наборам инструментов для разработки данных. Независимо от того, управляя скромными наборами данных или масштабированием до операций на уровне петабайта, SmallPond предоставляет надежную структуру, которая является как эффективной, так и доступной.

Проверить GitHub Repo. Весь кредит на это исследование направлено на исследователей этого проекта. Кроме того, не стесняйтесь следить за нами Twitter И не забудьте присоединиться к нашему 80K+ ML SubredditПолем

🚨 Рекомендуемое чтение AI Research выпускает Nexus: расширенная система интеграции системы ИИ и стандартов соответствия данными для решения юридических проблем в наборах данных AI

ASIF Razzaq является генеральным директором Marktechpost Media Inc. как дальновидного предпринимателя и инженера, ASIF стремится использовать потенциал искусственного интеллекта для социального блага. Его последнее усилие-запуск медиа-платформы искусственного интеллекта, Marktechpost, которая выделяется благодаря глубокому освещению машинного обучения и новостей о глубоком обучении, которое является технически обоснованным и легко понятным для широкой аудитории. Платформа может похвастаться более чем 2 миллионами ежемесячных просмотров, иллюстрируя свою популярность среди зрителей.

🚨 Рекомендуемая платформа искусственного интеллекта с открытым исходным кодом: «Intellagent-это многоагентная структура с открытым исходным кодом для оценки сложной разговорной системы ИИ» (PROMOTED)

Source link

DeepSeek AI выпускает SmallPond: легкая структура обработки данных, построенная на DuckDB и 3FS

Dr. Ashish V

Технические детали и преимущества

Установка

Быстрый старт

Производительность и понимание

Заключение

You might also enjoy

#IJCAI2025 congratulations to the award winners

Petrol Diesel Ret: पेट्रोल डीजल के दामों में गिरावट आज की नई रेट यहां देखें

Toll Tax Rules 2025: अब इन नियमों के तहत नहीं देना पड़ेगा टोल टैक्स – जानिए पूरी जानकारी

Subscribe Our Newsletter

Deep See K.A.R.T. S.Pace