
VK Tech запустил первый в России облачный Data Lakehouse. Решение позволяет снизить стоимость хранения и обработки данных в десять раз.
Вендор первым в России предоставляет пользователям возможность для построения корпоративного Data Lakehouse на управляемых облачных сервисах. Запуск Data Lakehouse стал возможен благодаря появлению на платформе VK Cloud нового сервиса Cloud Trino для обработки больших данных из разнообразных источников.
Новый подход к анализу данных
Data Lakehouse в VK Cloud – это новый подход к хранению и анализу данных, который сочетает лучшие элементы «озёр данных» (Data Lake) и корпоративного хранилища данных (Data Warehouse). Он позволяет снизить нагрузку на системы хранения данных, удешевить хранение неструктурированных данных и эффективно анализировать их за счет разделения вычислительных узлов и хранилищ данных.
Решение на платформе VK Cloud реализовано на базе S3-совместимого объектного хранилища собственной разработки и высокопроизводительного SQL-движка Cloud Trino на основе Kubernetes. Благодаря использованию доработанных популярных опенсорс-компонентов в составе Data Lakehouse компании могут получить современный стек для работы с крупными проектами. Оплата производится только за фактически потребленные ресурсы, без необходимости приобретения лицензий.
Факторы оптимизации
В результате параллельного подключения к нескольким источникам Cloud Trino позволяет сократить время на ETL-процессы, ускорить обработку сырых данных. Пользователи из различных отделов компаний быстро получат доступ к данным, чтобы легко строить Self-Service-аналитику и получать ценные инсайты в реальном времени.
Использование Cloud Storage (S3) даёт возможность сократить стоимость хранения 1 ГБ данных в облаке – до 3 рублей вместо 35 рублей для Data Warehouse. Облачный Kubernetes в основе Trino даёт гибкость: позволяет оперативно расширять инфраструктуру по мере роста потребностей бизнеса, не перезакладывать инфраструктуру для пиковых нагрузок.
Планы развития
«В 2024 году ежедневно создавалось около 402,89 млн терабайт данных – это 147 зеттабайт данных в год. Прогнозируется, что в 2025 году этот показатель вырастет до 181 зеттабайта. У наших клиентов данные также растут в геометрической прогрессии, а полнота данных и скорость работы с ними обеспечивает конкурентность бизнеса. Мы создаем инструменты, которые позволяют работать с данными быстрее и дешевле, чтобы больше компаний могли повышать эффективность за счет Data Driven-подхода. С появлением нового сервиса Cloud Trino и ранее разработанных инструментов у нас появился первый в России стек технологий по модели as a service для создания современных архитектур Data Lakehouse. В планах сделать его экстремально быстрым, а хранение данных – экстремально дешевым», – рассказал директор по продукту VK Cloud Дмитрий Лазаренко.
Data Lakehouse доступен для построения как на облачной платформе, так на собственной инфраструктуре на базе Private Cloud и VK Data Platform. Инфраструктура публичного облака VK Cloud аттестована по требованиям 152-ФЗ (УЗ-1).