Arenadata заняла первое место в мире по вкладу в развитие ядра проекта с открытым исходным кодом Greenplum в 2022 г. среди международного сообщества разработчиков. Как показало исследование, проведенное аналитиками компании, доля PR (Pull Request, одобренных запросов на принятие изменений) в Greenplum со стороны Arenadata составляет 44% от числа всех внесенных. На втором месте – китайский технологический конгломерат Alibaba (15%).
Анализ данных
Аналитика Arenadata была основана на исследовании открытой информации с сайтов GitHub и LinkedIn. Были рассмотрены профили контрибьютеров и сопоставлены с представляемыми ими компаниями. В ряде случаев удалось установить только географическую принадлежность автора того или иного PR.
Arenadata не впервые лидирует по числу PR в Greenplum: компания заняла первое место среди мировых контрибьютеров и в 2021 году, однако тогда принадлежность авторов изменений в ядро проекта была менее ясна.
Наиболее важные PR
Эксперты отметили наиболее важные PR, внесенные в комьюнити Greenplum разработчиками Arenadata, за последние пару лет.
- Zstandard (ZSTD) — алгоритм эффективного сжатия данных без дополнительной нагрузки на CPU. Наиболее эффективный алгоритм компрессии, который сегодня реализован в Open Source решениях для Big Data. При последовательном чтении и записи больших объёмов данных это позволяет снизить TCO (total cost of ownership). Arenadata реализовала поддержку ZSTD для колоночных таблиц в Arenadata DB 5 (Enterprise Edition). Позже это обновление появилось в Greenplum 6.0 (и в Arenadata DB 6, соответственно) и стало доступно всему комьюнити проекта Greenplum.
- Фильтр pushdown в PXF (Platform Extension Framework) — это фреймворк, позволяющий Greenplum параллельно обмениваться данными со сторонними системами. Arenadata реализовала в PXF фильтр pushdown для определённых форматов подключений. Pushdown даёт возможность перенести процесс вычислений на сторону системы источника данных. Такой алгоритм позволил многократно ускорить все этапы выполнения запроса на фильтрацию данных. Значимый функционал для Greenplum. Arenadata реализовала с ним много проектов. В частности, те из них, где компания разгружала данные с SAP Hana, из Oracle и реализовывала концепцию виртуального федеративного слоя, в котором обращение к многочисленным внешним системам происходит посредством Greenplum. Реализация pushdown-механизма позволила многократно ускорить фильтрацию данных во внешних запросах за счёт переноса процесса вычислений на сторону системы источника данных.
- Стабилизация Greenplum 6. По определённому стечению обстоятельств у Greenplum 6 было много проблем, связанных с новой функциональностью: обновленный PostgreSQL 9.4, WAL репликация для зеркал, переработанный механизм расширеня кластера, обновленная ORCA с упором на OLTP нагрузку и т. д. Например, REPLICATED таблицы и BITMAP индексы принесли большое количество багов, которые долгое время выстреливали у заказчиков. Специалисты компании исправили многочисленные ошибки и научились быстро решать проблемы, которые мешали нормальной эксплуатации продукта в конкретном кейсе клиента. Arenadata умеет исправлять критические ситуации как на уровне кода ядра самого PostgreSQL, так и на уровне оптимизатора.
- Конфигурационный параметр с таймером. Разработчиками Arenadata был реализован конфигурационный параметр с таймером, который определяет, что клиент отсоединился во время выполнения запроса и прерывает в этом случае выполнение запроса.
Комментарий технического директора
«Для Arenadata важно быть частью сообщества Greenplum и оставаться сопричастной к росту этой Open Source технологии. Развивая собственную СУБД Arenadata DB, построенную на основе Greenplum, мы вносим существенный вклад в развитие проекта с открытым исходным кодом. И то, что мы являемся лидером по количеству PR в ядро Greenplum в мире среди комьюнити говорит о том, что наша работа важна для всего сообщества в целом», — сказал Александр Ермаков, технический директор Arenadata.
Аналитическая, распределенная СУБД Arenadata DB предназначена для хранения и обработки больших объёмов информации — до десятков петабайт. ADB справляется с задачами построения корпоративного хранилища данных (КХД), аналитики с помощью BI-инструментов, ad-hoc-запросов и Data Science уровня предприятия. По мере роста объёма данных можно добавлять новые серверы в кластер.