Nova
Flex Loader
SDI
Lakehouse-платформа данных нового поколения: высокая производительность при минимальных затратах
Инструмент для быстрого наполнения хранилища или озера данных на базе GreenPlum, Hadoop или S3
Low-code инструмент для потоковой обработки и репликации данных
Программное обеспечение для администрирования кластеров и анализа запросов
Cluster Manager
Узнайте больше о решениях Data Ocean
Ответим на все ваши вопросы и поможем определиться с выбором
Пишите нам:

Только полезное и ничего лишнего

Раз в две недели — только ценная аналитика.
Самые важные и интересные новости в одном письме.
/
/
Data Sapience выпустила очередное обновление...

Data Sapience выпустила очередное обновление Lakehouse-платформы Data Ocean Nova

30.07.2025
В релизе 2025.6.0 обновлены версии сервисов работы с данными и оркестрации, улучшена функциональность вспомогательных платформенных решений и пользовательских front-end клиентских приложений.
Lakehouse-платформа данных Data Ocean Nova получила очередное обновление. В релизе 2025.6.0 была завершена интеграция платформенных сервисов с процессинговым движком StarRocks, расширены возможности федеративных запросов, добавлена поддержка функционала Data Ocean Cluster Manager 2.1, завершены работы по интеграции сервиса YuniKorn, предназначенного для управления ресурсами Spark-приложений, и расширены функциональные возможности платформенных сервисов и пользовательских приложений анализа данных.

Детальный список изменений релиза 2025.6.0.
*Указаны изменения и улучшения, являющиеся собственной разработкой Data Sapience и не доступные в open source сообществе.

Trino
  • Обновлена базовая версия ядра до 476;
  • Добавлена поддержка управления конфигурацией ресурсных групп Trino с помощью Nova Operator;
  • Добавлен парсинг запросов Trino в сервисе Iquery;
  • Адаптирован плагин для Ranger 2.6, а также реализована поддержка логирования в OpenSearch;
  • Улучшена работа с рефералами в LDAP AD;
  • Исправлена ошибка, когда журналируемый SQL-запрос к Trino не отображается в записях OpenSearch;
  • Исправлена ошибка с падением сервиса Trino Profile Parser при обработке логов самого сервиса;
  • Исправлена ошибка чтения Iceberg-таблиц с имеющимися значениями NULL;
  • Исправлено неверное значение параметра ranger.mapping.to-service.name;
  • Trino интегрирован с Iquery: реализован сервис для загрузки запросов из querylog в OpenSearch;
  • Добавлена поддержка нескольких BaseDN для group provider plugin.

StarRocks
  • Добавлена интеграция StarRocks и Hue;
  • Доработана интеграция StarRocks с LDAP;
  • Доработано взаимодействие таблиц с S3 для Hive-каталога;
  • Добавлена поддержка управления конфигурацией ресурсных групп StarRocks с помощью Nova Operator:
  • Добавлены параметры подключения для стабильной работы StarRocks с Hue;
  • В чарт StarRocks добавлены дашборды для мониторинга в Grafana;
  • Реализован маппинг политик Impala в политики StarRocks;
  • Была добавлена поддержка ranger-hive-starrocks-policy-mapper в рамках отдельного чарта ranger-mapper.

Impala.2025.6.0
  • Добавлена поддержка протокола Arrow Flight Sql;
  • Реализован функционал распределенной записи данных из Impala во внешние СУБД по JDBC (например, Postgres, Oracle);
  • Для Apache Arrow реализованы режимы параллельного чтения и записи файлов Parquet;
  • Добавлена поддержка High Availability режима для Catalog и Statestore;
  • Реализовано улучшение инкрементального сбора статистики Iceberg-таблиц;
  • Реализована оптимизация SQL-оператора MERGE;
  • Реализована интеграция с Vault + External Secrets Operator;
  • Добавлена возможность включения\отключения сортировки строк при конкатенации для функции group_concat;
  • Изменение ролевой политики UPDATE;
  • Исправлена ошибка IllegalStateException with Iceberg table with DELETE;
  • Реализована функция по переводу кодировки utf-8 в 1251;
  • Добавлены метрики для отслеживания значения admission slots;
  • Реализовано переопределение настроек бакетов S3;
  • Добавлена поддержка нескольких групп исполнителей и координаторов Impala Daemon, а также поддержка встроенного механизма executor_groups;
  • Исправлена ошибка «IllegalStateException: null» при одновременном выполнении запросов «Show tables» и «Drop tables»;
  • Выполнен backport исправления ошибок из open source:
  • Исправлена ошибка с отсутствующими журналами java;
  • Добавлен hotfix USE_LEGACY_HIVE_TIMESTAMP_CONVERSION.

Spark
  • Устранены найденные уязвимости в образе Spark, pyspark-notebook;
  • Обновлена версия Iceberg до 1.7.2;
  • Добавлено превью пользовательского интерфейса Marimo внутри Jupyter-ноутбуков;
  • Добавлено задание автоматического создания папки для Spark History;
  • Добавлена возможность работать с shuffle в s3;
  • Обновлен автотестовый ноутбук;
  • Добавлен фреймворк работы с сервисом NIM-API;
  • Добавлен Scala-ноутбук;
  • Добавлена возможность проброса любых параметров в sparkConnect;
  • Оптимизирован механизм очистки конкурентного кеша Equality Delete;
  • Разработано приложение парсинга логов Spark History Server;
  • Исправлена ошибка закрытия ThreadPool при использовании S3FileIO;
  • Устранена уязвимость v2-образа (pyspark-notebook, spark);
  • Исправлена ошибка с хранением SSL-сертификатов в Spark Connect;
  • Применена опция remove-dangling-deletes для удаления неактуальных delete-файлов.

Ranger
  • Версия Ranger core обновлена до 2.6;
  • Доработан плагин Ranger Starrocks;
  • Доработан маппинг групп на пользователей;
  • Добавлена возможность создания дополнительных сервисов S3;
  • Добавлена инициализация бина AWS-клиента в режиме работы с MinIO;
  • Исправлены ошибки:
  • подключения к HMS в клиентской библиотеке 3.1.3;
  • получения данных Ranger Audit из OpenSearch;
  • «Invalid value for configuration „authMethod“» при автокомите ресурсов S3;
  • когда сервис MapperHiveToS3 не поднимается при указании спецсимволов для значения ignored.labels в ConfigMap;
  • фильтрации по лейблам ignored.labels при маппинге политик.

Hue
  • Обновление core-версии до актуальной;
  • Добавлена возможность выдавать права через Ranger REST API при создании домашних каталогов;
  • Реализована поддержка указания списка административных групп в values;
  • Добавлена возможность интеграции Hue с Keycloak;
  • Исправлены ошибки:
  • при обращении к qModel с запросом на предсказание потребления памяти из Hue;
  • при выполнении запроса на эндпоинт «/api/token/auth»;
  • при выполнении запроса на эндпоинт «/api/storage/ rmtree» | /api/v1/storage/rmtree;
  • нерабочая текст-ссылка query_id запроса в контент-панели;
  • при выполнении запросов Trino;
  • с зависанием запросов Trino в статусе «waiting»;
  • с отображением Language Reference в правой панели в редакторе Impala.

Cluster Manager
  • Добавлен интерфейс управления очередями YuniKorn;
  • Актуализирован список метрик из Prometheus для Trino;
  • Актуализирован список метрик из Prometheus для Spark;
  • Реализован мониторинг метрик вычислительного движка StarRocks;
  • Выполнен редизайн функционала  мониторинга;
  • Доработана статусная модель для движков, сервисов и всего инстанса Nova;
  • Добавлен функционал получения событий узлов kubernetes;
  • Добавлен функционал получения событий k8s-подов;
  • Добавлен функционал просмотра и редактирования секретов.

Airflow
  • Базовая версия поднята до 2.10.5;
  • Решена проблема с Decimal при векторном чтении.

Nova Iceberg Maintenance Service (NIM)
  • Обновлена версия до 1.1.6.;
  • Добавлено превью нового сервиса NIM-API для вызова обслуживания через API;
  • Реализована функциональность планирования файловых групп, как в Spark;
  • Реализован сервис рекомендаций для выполнения процедуры compaction.

Nova-qmodel
  • Для qModel Server добавлена аутентификация;
  • Для qModel Server реализована работа по защищенному протоколу HTTPS;
  • Для qModel Server добавлена возможность персонализации запросов в сервис Impala;
  • Исправлена ошибка авторизации при выполнении запросов к qModel Server с Basic Authentication;
  • В Grafana реализован отчет по серверу модели;
  • Исправлена ошибка, при которой модель обучалась на недостаточном количестве запросов.

Meta-aggregator
  • Добавлены новые поля данных для анализа Data compaction;
  • Добавлен инкрементальный режим работы;
  • Добавлена интеграция с системой управления миграциями БД;
  • Исправлены ошибки агрегирования данных из HMS и OpenSearch;
  • Исправлена ошибка, вызывающая код ответа 401 при вызове API.

Nova-MinIO
  • Улучшена работа с длинными кириллическими DN;
  • Изменена стратегия обработки политик при маппинге в MinIO;
  • Добавлена поддержка s3:ListMultipartUploadParts и s3:AbortMultipartUpload;
  • MinIO STS: исправлена ошибка при авторизации пользователей с длинными значениями DN в LDAP/AD.

Вам может быть интересно