Внедрение в инфраструктуру ведущей российской площадки онлайн-моды Lamoda универсальной Lakehouse-платформы данных Data Ocean Nova вендора
Data Sapience позволит создать высокопроизводительную среду подготовки данных и изолированные песочницы для задач дата-аналитики. Интегратором в проекте выступает GlowByte.
До начала проекта команды Data Science в Lamoda сталкивались с ограничениями инфраструктуры в рамках имеющегося кластера Hadoop. Ключевыми задачами на старте стали перенос главной витрины по продажам для целей отчетности из DWH в Lakehouse-платформу данных Data Ocean Nova и создание первых песочниц данных для команд. Контур MVP предполагал, что платформа данных будет развернута в публичном облаке и интегрирована с корпоративными сервисами Lamoda: доменом аутентификации, службами централизованного мониторинга, GitOps-инфраструктурой и CI-/CD-пайплайнами. Для решения этих задач подошла Lakehouse-архитектура, а в качестве целевого продукта была выбрана Data Ocean Nova.
Data Ocean Nova — универсальная Lakehouse-платформа данных нового поколения, представленная вендором Data Sapience. Продукт решает комплексные задачи массивно-параллельной обработки данных. В том числе позволяет создавать и масштабировать оперативные слои данных в реальном времени, бесшовно работать с CRM- и ML-платформами, предоставлять федеративный доступ к базам данных и выступает в качестве виртуального хранилища. Поддерживает on-premise инсталляцию, частное облако и гибридный сценарий использования, а также Multi-tenant развертывание для создания изолированных сред на базе общей инфраструктуры.
В составе технологического стека платформы, решающего задачи Lamoda, — несколько решений. Распределенная система обработки больших данных Apache Spark позволяет командам работать с терабайтами данных о товарах, пользователях и транзакциях прямо в песочницах, выполняя сложные трансформации и агрегации для подготовки обучающих датасетов. SQL-движок Trino обеспечивает быстрый интерактивный доступ к данным из различных источников (хранилища, базы данных, файловые системы) через единый SQL-интерфейс, позволяя аналитикам исследовать данные без перемещения между средами.
Lakehouse-платформа Data Ocean Nova, объединяя возможности Apache Spark и Trino для задач fashion-индустрии, предлагает единое место для хранения данных с гибкими возможностями организации рабочих пространств. ML-команды взаимодействуют с консолидированной информацией о клиентах, товарах и операциях через мощные аналитические движки. Благодаря работе команды GlowByte и функционалу решения Data Ocean Nova вендора Data Sapience Lamoda получает возможность оперативно масштабировать вычислительные мощности под пиковые нагрузки и одновременно обеспечивать быстрый доступ к данным для экспериментов.
Платформа Data Ocean Nova позволит ускорить процессы работы с данными внутри компании Lamoda, а также обеспечит команды разработчиков необходимым инструментарием для создания новых перспективных продуктов и сервисов на базе ИИ-агентов и AutoML-процессов.