- Как появилась идея создания собственной платформы данных? Что стало отправной точкой?
Все началось с пандемии. Мы работали под крылом крупного интегратора — GlowByte, и пока клиенты перестраивали свои процессы на удаленный формат, у нас появилась возможность больше уделять времени исследовательской работе. Это дало редкую возможность сфокусироваться на R&D и переосмыслении того, как устроен рынок больших данных и что мы сможем в будущем ему предложить.
К тому моменту мы уже много лет занимались аналитикой, хранилищами данных, ML-платформами и все чаще сталкивались с запросом на универсальное, масштабируемое решение, способное объединить гибкость Data Lake с мощью Data Warehouse. Стали изучать, что предлагают российские и зарубежные облачные платформы, потому что уже тогда было понятно: спрос на облака будет только расти. Быстро выяснилось, что в России готовых решений нет. Обсуждали коллаборации с вендорами и облачными провайдерами, но, к сожалению, не нашли понимания.
В итоге появилась идея создать собственную универсальную платформу, которая работала бы и в публичных облаках, и на площадках клиентов. Российский рынок консервативен в вопросах выноса данных в облако, поэтому гибридный режим стал ключевым требованием. Первый прототип мы собрали достаточно быстро, и с 2021 года начали полноценную разработку.
- Что из себя представляет Data Ocean Nova сегодня?
Data Ocean Nova — универсальная Lakehouse-платформа из линейки Data Ocean вендора Data Sapience, которая объединяет лучшие свойства Data Warehouse и Data Lake. Она решает весь спектр задач управления и обработки данных: от построения хранилищ до вычислительной поддержки CRM- и ML-систем, от real-time обработки до реализации Data Mesh.
Сегодня Data Ocean Nova используется как real-time data hub, классическое хранилище, озеро данных и вычислительная платформа для машинного обучения. Именно это и определяет концепцию универсальности платформы: Data Ocean Nova поддерживает вариативность движков и вспомогательные сервисы обслуживания для решения всех задач без дополнительных доработок и проектных решений сбоку. Мы видим, что другие игроки, которые только начинают заходить в сегмент Lakehouse, чаще делают ставку на упрощенную архитектуру. Это с большой вероятностью делает их решения узкоспециализированными.
- Как вы оцениваете зрелость Data Ocean Nova на фоне российских и зарубежных аналогов? На каком этапе развития находится платформа?
Data Ocean Nova — это единственная универсальная Lakehouse-платформа как продукт на российском рынке с реальными промышленными внедрениями. Мы долго вызревали и не выводили платформу в публичное поле, пока не убедились в готовности рынка принять наше решение через первые промышленные успешные истории внедрения.
Сейчас у нас более десятка внедрений, включая крупные компании вроде «Магнита» и «Альфа-Банка». Мы не просто говорим, что можем заменить Greenplum, Teradata или Oracle, — у нас есть кейсы, где это уже реализовано. Причем не просто заменить по функциональности, но и с меньшей стоимостью владения.
В дополнение к Lakehouse-платформе в линейке продуктов Data Ocean есть и интеграционные инструменты: SDI (потоковая обработка и онлайн-загрузка данных) или Flex Loader (пакетная репликация данных).
- Расскажите подробнее, какие задачи решает Data Ocean Flex Loader.
Flex Loader — это инструмент для быстрой и надежной загрузки данных в новое хранилище. Особенно он полезен при миграции: позволяет быстро и качественно перенести данные, отследить изменения, обеспечить доверительную репликацию и начать пользоваться платформой данных за считанные дни. При этом решение гарантирует контроль качества, автоматическую сверку и возможность сохранения истории изменений источника на стороне приемника.
Инструмент умеет работать и с Data Ocean Nova, и со сторонними решениями на базе Greenplum, Hadoop, облачного S3. Благодаря открытой модели метаданных и документированному API он позволяет легко выстраивать интеграции с любым сторонним ПО, например, оркестраторами.
- Какие задачи чаще всего решают заказчики, приходя к вам?
Сейчас основной драйвер — это импортозамещение. Многие компании используют устаревшие решения, которые уже отжили свое, независимо от политической повестки. Но теперь к естественной технологической миграции добавился фактор геополитики. В итоге бизнес ищет российские аналоги, желательно с возможностью замены сразу нескольких компонентов.
И здесь как раз у нас есть преимущество. Data Ocean позволяет заменить «зоопарк» решений одним продуктом. Платформа закрывает сценарии классических хранилищ, real-time обработки, Data lake, поддержки ML — все это в одной коробке.
Второй важный момент — экономический. Благодаря высокой производительности и эффективной архитектуре наша платформа требует меньше оборудования и ресурсов на обслуживание. Это означает меньшую стоимость владения (TCO) и более выгодную эксплуатацию.
- За счет чего достигается высокая производительность и низкая стоимость владения?
Традиционные системы, вроде Teradata или Greenplum, были спроектированы десятки лет назад. Они работают по принципу полного сканирования данных при обработке. Технологии, которые использует Data Sapience, применяют современные оптимизационные техники: bloom-фильтрацию, min-max двухуровневые индексы, динамическую фильтрацию, векторизацию вычислений. Благодаря этому объем данных, которым оперирует вычислительный движок, уменьшается в разы. Идея в том, чтобы не просто прочитать всю информацию с дисковой подсистемы и потом фильтровать, а заранее понять, какие данные нужны аналитическому запросу, и прочитать только эти конкретные файлы, блоки и страницы. Так снижается нагрузка на дисковую систему, экономятся ресурсы оперативной памяти и процессорного времени, что ускоряет выполнение запросов и повышает пропускную способность, так как большее количество SQL-запросов возможно обрабатывать одновременно и за определенный период времени.
К тому же мы не просто используем open source, а вносим значимое количество оптимизаций и изменений в области производительности. Наша модификация open source дает прирост скорости вычислений в два раза в отдельных сценариях использования. Конечно, все это отражается на стоимости владения: меньше оборудования, меньше затрат на обслуживание. Это выгодно отличает Data Sapience от других вендоров, которые просто упаковывают в продукт поддержку open source.
- Как реализована поддержка real-time сценариев, федеративного доступа, Data Mesh?
У Data Ocean есть архитектурная поддержка доменной изоляции вычислительных ресурсов. Каждое подразделение компании (например, розница, риски, финансы) может получить свой объем вычислительных ресурсов и необходимые сервисы для решения конкретных задач. Это и есть Data Mesh, при этом у клиента вся инфраструктура остается общей. Такой подход упрощает сопровождение и снижает нагрузку на команду эксплуатации за счет унификации. Ведь вместо зоопарка нескольких кластеров Greenplum, Hadoop, Clickhouse, Postgres, Oracle для каждого подразделения у вас — одна инсталляция единой системы — Data Ocean Nova.
Федеративный доступ позволяет обращаться к внешним источникам напрямую — не только к данным, загруженным в платформу. Это особенно важно для гибридных сценариев анализа, для профилирования внешних систем, для проектирования систем контроля качества данных.
А real-time сценарии — одно из наших ключевых преимуществ. Линейка продуктов Data Ocean умеет обрабатывать и загружать потоки данных в реальном времени, без необходимости ставить дополнительные системы рядом. Это снижает время принятия для data driven решений и позволяет нашим клиентам иметь конкурентное преимущество в бизнесе.
- А как обстоят дела с безопасностью и соответствием требованиям регуляторов?
Data Sapience изначально проектировала платформу с учетом требований регуляторов. У нас большой опыт доведения западных решений до российского compliance, в частности по линии банковского регулятора — ЦБ. И этот опыт мы перенесли в собственный продукт, адаптируя его сразу же под самые жесткие требования регулирующих органов.
Каждый релиз аудируется на уязвимости. Мы устраняем уязвимости регулярно и проходим проверки на стороне клиента. Есть встроенные механизмы для работы с персональными и чувствительными данными, сервисы детализированного журналирования событий, единая ролевая модель на все компоненты системы.
Все это позволяет Data Ocean Nova уверенно работать в высоконагруженных, чувствительных к безопасности средах: будь то банки, страховые компании или крупные ритейлеры.
- Расскажите о проектах. Кто уже использует Data Ocean и для чего?
В числе наших клиентов — «Альфа-Банк», «Магнит», «Лента», «Burger King Russia», «Lamoda», «Ингосстрах», крупная алкогольная компания, крупные региональные банки, программа лояльности «Апельсин», топ-3 финансовая организация РФ. И это далеко не весь список. Мы представлены практически во всех индустриях, где востребована работа с большими данными.
Например, «Альфа-Банк» сначала использовал нашу платформу как real-time data hub, а сейчас переносит все данные и сервисы со старых систем обработки больших данных в единую платформу на базе нашего решения. «Магнит» — один из самых масштабных кейсов на рынке РФ по внедрению Lakehouse-решений. Они мигрируют с Teradata и Oracle на единую платформу в публичном облаке. Переносят свои сервисы данных в Data Ocean Nova и планируют к концу 2025 вырасти до объемов 1,8 петабайт сжатых данных.
Для ритейла мы уже стали рыночным стандартом. И «Магнит», и «Лента» — еще один крупный ритейлер — завершили первый этап внедрения. Компания «Burger King Russia» использует в публичном облаке нашу систему как озеро данных для вычислений, которые невозможно выполнять на традиционной системе Greenplum. Страховая компания «Ингосстрах» пользуется платформой Data Ocean Nova как вспомогательным решением для подготовки и анализа данных для системы машинного обучения.
- Какие результаты отмечают клиенты?
Снижение стоимости владения, кратный рост производительности и возможность консолидировать данные в одной системе. Например, в «Магните» несколько подразделений работают в изолированных доменах на одной платформе — это серьезно экономит ресурсы.
- А какой проект был самым интересным лично для вас?
Пожалуй, «Магнит» и «Альфа-Банк». Коллеги поверили в нас сразу — в 2023 году, когда мы выпустили первый крупный публичный релиз. Они стали нашими early adopters, если говорить на языке стартапов.
Было много технических вызовов. Мы выступали в новой для себя роли — вендора, а не интегратора. Приходилось многое делать впервые. Например, обучать команды заказчиков. Я лично участвовал в создании учебных курсов по системе, помогал выстраивать процессы поддержки, разрабатывал документацию. Сейчас у нас есть 7-дневная программа для разработчиков и администраторов, мы написали «книгу рецептов» — расширенную документацию по реализации сценариев работы. Компания развивалась бурно, приходилось много нанимать и быстро обучать.
Еще запомнился кейс с крупным банком в Закавказье: миграция классического хранилища данных с Oracle на нашу платформу. Мы выиграли тендер, конкурируя с теми самыми западными вендорами, которых сейчас замещаем в России. Это важный сигнал: наша платформа конкурентоспособна не только локально.
- Как вы планируете развивать платформу в ближайшее время?
Во-первых, self-service функционал. Пользователи смогут самостоятельно подключать источники и загружать данные, создавать и настраивать свои процессы обработки данных, работать с каталогом данных из единого графического интерфейса. По сути, мы поставили себе амбициозную цель — стать интегрированной платформой с точки зрения пользовательского опыта, с поддержкой on-prem и гибридных сценариев.
Во-вторых, производительность. Повторюсь: Data Sapience не только собирает open source, а серьезно дорабатывает компоненты системы. Наши оптимизации позволяют быть в несколько раз быстрее решений, которые клиенты могли бы собрать самостоятельно из open source компонентов или могут предложить альтернативные вендоры, расшиваем узкие места технологий в практических сценариях использования. И мы планируем увеличивать этот разрыв. Производительность напрямую влияет на стоимость владения: меньше оборудования — меньше затрат.
В-третьих, простота использования. Платформа уже управляется через графический интерфейс, но мы идем дальше: хотим сделать установку такой же простой, как инсталляция обычного приложения на персональный компьютер. Никаких командных строк, только интуитивный UI.
Ну и, конечно, ИИ. У нас уже есть ИИ-агенты, помогающие разработчикам и администраторам. В ближайшее время появятся агенты, помогающие с миграцией кода и автоматизацией типовых задач. Но мы стараемся избегать хайпа: делаем только то, что действительно полезно в практическом применении.
- Что, по-вашему, станет следующим этапом эволюции платформ данных в России?
Во-первых, практическое применение ИИ. Появятся новые сервисы и решения, которые автоматизируют миграцию, ускоряют написание кода, повышают эффективность аналитики.
Во-вторых, технологическая трансформация. Аппаратное обеспечение развивается стремительно: 400Gbs-сети, а завтра — 800Gbs-сети, GPU-ускорители, новые классы инфраструктуры. Мы уже сейчас проводим исследования по применению GPU для ускорения аналитических SQL-запросов.
Ну и, в-третьих, я уверен, что архитектурная модель Lakehouse останется с нами надолго. Это не временное явление, а устойчивая парадигма.