Нажмите «принять», если вы соглашаетесь с условиями обработки куки‑файлов/cookie-файлов и данных о поведении на сайте, нужных нам для аналитики. Запретить обработку куки‑файлов/cookie-файлов можно через браузер
Принять
Nova
Flex Loader
SDI
Lakehouse-платформа данных нового поколения: высокая производительность при минимальных затратах
Инструмент для быстрого наполнения хранилища или озера данных на базе GreenPlum, Hadoop или S3
Low-code инструмент для потоковой обработки и репликации данных
UI Deploy — установка и обновление Data Ocean, UI Control — администрирование платформы, UI Explore — пользовательская self-service среда анализа данных
Platform UI
Высокопроизводительное объектное хранилище данных для аналитики
Data Ocean Store
Узнайте больше о решениях Data Ocean
Ответим на все ваши вопросы и поможем определиться с выбором
Пишите нам:

Только полезное и ничего лишнего

Раз в две недели — только ценная аналитика. Самые важные и интересные новости в одном письме.
/
/
Весеннее обновление платформы...

Весеннее обновление платформы данных Data Ocean Nova

13.04.2026
Российский вендор Data Sapience выпустил очередное крупное обновление платформы данных Data Ocean Nova.
Lakehouse-платформа данных Data Ocean Nova получила второе обновление в 2026 году. В релизе 2026.1.0 увеличены возможности процедурного расширения LPSQL для MPP-движков системы: теперь работа с хранимыми процедурами доступна в StarRocks. Значительно расширены федеративные возможности системы: Trino, StarRocks и Impala получили новые коннекторы для эффективной работы с внешними системами. Команда Data Sapience также представила ряд улучшений, направленных на повышение производительности путем внесения изменений во все компоненты платформы и новые сервисы.

Список ключевых изменений релиза 2026.1.0.

*Указаны изменения и улучшения, являющиеся собственной разработкой Data Sapience и не доступные в open source сообществе.

Процедурное расширение Lakehouse Procedure SQL (LPSQL)

  • Поддержка исполнения хранимых процедур в StarRocks
Используйте все возможности LPSQL теперь и в StarRocks;

  • Функционал DBMS_OUTPUT
Переносите ваш опыт разработки из Oracle в Lakehouse;

  • Интеграция с ролевой моделью в Ranger
Безопасная работа кода с валидацией прав исполнителя;

  • Операторы SHOW и DESCRIBE
Удобство работы с метаданными проверочного кода;

  • Возможность использования LPSQL совместно с Keycloak-аутентификацией.

Nova StarRocks

  • Поддержка процедурного языка
Используйте все возможности LPSQL в своих проектах;

  • Поддержка работы JDBC-источников с распределением нагрузки
Подключайте любые внешние JDBC СУБД, читайте и загружайте данные в StarRocks в распределенном режиме ресурсами BE- и CN-узлов;

  • Материализация Query Cache на локальные диски
Сохраните преимущество локального кэширования при экономии ресурсов оперативной памяти;

  • Функционал выгрузки истории запросов и профилей StarRocks на S3-хранилище
Храните всю историю запросов для аудита информационной безопасности,  ретроспективного анализа, обучения AI-функционала.

Nova Trino

  • Trino Teradata коннектор
Выполняйте запросы к Teradata с максимальной производительностью и push-down оптимизацией;

  • Функционал выгрузки истории запросов и профилей Trino на S3-хранилище
Храните всю историю запросов для аудита информационной безопасности, ретроспективного анализа, обучения AI-функционала;

  • Поддержка нескольких Hive Metastore в каталогах при аутентификации через Keycloak;
  • Возможность подключения клиентов без SSL для закрытых контуров;
  • Переход на базовую версию ядра 479.

Nova Impala

  • Улучшенное управление ресурсами
Расширены возможности настройки Admission Control. Обновление параметров ресурсных очередей переведено в асинхронный режим. Повысьте пропускную способность системы за счет оптимального распределения ресурсов в конкурентном режиме работы;

  • Распределенное чтение из JDBC-источников через узлы исполнителей
Работайте с внешними СУБД с максимальной производительностью без узких мест в архитектуре;

  • Параллельная работа DDL-операторов
Повысьте пропускную способность работы с метаданными в Lakehouse;

  • Поддержка Bloom-фильтров для операций Right Join, использование дискового tuple cache
Повысьте производительность сложных аналитических запросов;

  • Исправление ошибок:
+ Устранено лишнее обновление внутренних метаданных при работе с Iceberg-объектами
Повысьте стабильность и производительности работы с метаданными в Lakehouse;
+ Устранены аварийные завершения при некорректных настройках OAuth;
+ Исправлена ошибка, которая приводила к неверным результатам выборки с оператором JOIN при использовании minmax-фильтра для таблиц, секционированных по данному полю;

  • Повышенная стабильность аутентификации и авторизации при работе с Keycloak;
  • Возможность операций time travel с тэгированными запросами;
  • Доработанная конвертация полей с типом timestamp.

Nova Spark

  • Обновление версии DataFusion Comet до 0.12.
Воспользуйтесь преимуществами нативных вычислений;

  • Автоматический расчет размера кэша для Equality Deletes
Размер рассчитывается как доля от доступного объема RAM. Добавлено включение кэширования EQ deletes для чтения по умолчанию. Повысьте производительность платформы при работе с Iceberg;

  • Автоматические retries на уровне PyIceberg при открытии Thrift-транспорта
Помогает при критических сбоях TTransportException, socket.gaierror или OSError, возникающих из-за проблем с сетью или задержками разрешения DNS при обращении к метакаталогу. Повысьте стабильность работы;
  • Возможность запуска ноутбуков Jupyter Lab через API с помощью токенов Keycloak – полная поддержка Platform UI Explore;
  • Интеграция Spark Connect API с KeyCloak;
  • Обновлены базовые компоненты:
+Spark 4.0.1;
+Iceberg 1.10.0.003;
+PyIceberg 0.10.0.002;
+Marimo 0.19.11.001.

Новый сервис Resource Bank (Preview)

  • MVP-версия сервиса для автоматической оптимизации распределения ресурсов
Resource Bank анализирует онлайн-данные о нагрузке на кластеры и позволяет динамически переконфигурировать ресурсные очереди (включая режим dry-run для оценки предлагаемых изменений).

Nova Deploy API

Добавлен новый компонент Nova Deploy API, интегрированный с интерфейсом Platform UI Deploy, который значительно упрощает и ускоряет процесс первичной настройки платформы Data Ocean Nova:
  • Гибкость выбора
Поддерживаются два режима развертывания:Helm и Argo CD. Пользователь сам определяет подходящий инструмент в зависимости от требований инфраструктуры;

  • Принципы GitOps
Независимо от выбранного режима, все итоговые values-файлы сохраняются в GitLab, что обеспечивает версионирование и прозрачность изменений;

  • Управление инфраструктурой
Инструментарий позволяет как автоматически развернуть GitLab и Argo CD в процессе установки, так и подключить уже существующие внешние сервисы;

  • Минимальная настройка
Использование предварительно настроенных шаблонов позволяет начать инсталляцию, указав лишь ключевые переменные.

Tool Storage

Реализован сервис Tool Storage, предоставляющий пользователям возможность загружать необходимые артефакты для работы с платформой Data Ocean Nova в рамках закрытых контуров без выхода в интернет. На текущий момент сервис поддерживает скачивание драйверов.

Объектное хранилище Data Ocean Store

  • Тегирование файлов
Получайте сведения об использовании S3-хранилища прямо с метаданных: кто записал файл в ваше S3-хранилище, с каким ключом и каким приложением;

  • Управление пропускной способностью в разрезе префикса
Управляйте конкурентной работой и на уровне S3 в зависимости от приоритета.

Managed Iceberg Tables

  • Расширенные сценарии обслуживания:
+ список таблиц-исключений для expiring;
+ поддержка тегирования при compaction для оптимизации снапшотов в Landing-слое;

  • Ссылка на Spark UI в ответах API, упрощенный пользовательский интерфейс для работы с API;
  • Повышенные надежность и безопасность работы:
+ возможность выполнения retry при подключении к Hive Metastore и поддержка аутентификации через Keycloak.

MetaAggregator

  • MetaAggregator переведен на режим постоянно работающего сервиса с инкрементальным сбором статистики;
  • Сбор информации о размере таблиц, отличных от Iceberg;
  • Обращения со стороны Trino и StarRocks теперь корректно учитываются в tableQueryCount и показателях Last*;
  • Исправлена ошибка 404 при выполнении запроса GET /cluster_metrics.

Nova Ranger

  • Расширенные возможности UserSync: импорт пользователей из Keycloak и поддержка синхронизации клиентов;
  • Поддержка RLS в S3 Policy Mapper и маскирования данных;
  • Дисковый кэш событий аудита для Ranger Plugin;
  • Настройка таймаута подключения к Data Ocean Store.

AI-сервис оптимизации qModel

  • Полная интеграция движка StarRocks;
  • Обновлённый сценарий переобучения;
  • Оптимизация qModel:
+ изменен алгоритм формирования обучающей выборки;
+ выполнена оптимизация stacking.

HUE

  • Повышенная стабильность аутентификации при совместной работе Hue, Impala и Keycloak;
  • Исправление ошибок:
+ исправлен просмотр файлов в S3 Browser при работе в режиме SubdomainCallingFormat;
+ восстановлена возможность скачивания Server Logs.

Планировщик Airflow

  • Обновление версии до 3;
  • Добавлен DAG для выполнения аналитических задач в изолированных Kubernetes-контейнерах.
С полным списком накопленных изменений и улучшений относительно open source функционала можно ознакомиться на сайте решения.

Вам может быть интересно