Lakehouse-платформа данных
Data Ocean Nova получила очередное обновление. В релизе 2025.6.0 была завершена интеграция платформенных сервисов с процессинговым движком StarRocks, расширены возможности федеративных запросов, добавлена поддержка функционала Data Ocean Cluster Manager 2.1, завершены работы по интеграции сервиса YuniKorn, предназначенного для управления ресурсами Spark-приложений, и расширены функциональные возможности платформенных сервисов и пользовательских приложений анализа данных.
Детальный список изменений релиза 2025.6.0. *Указаны изменения и улучшения, являющиеся собственной разработкой Data Sapience и не доступные в open source сообществе.
Trino- Обновлена базовая версия ядра до 476;
- Добавлена поддержка управления конфигурацией ресурсных групп Trino с помощью Nova Operator;
- Добавлен парсинг запросов Trino в сервисе Iquery;
- Адаптирован плагин для Ranger 2.6, а также реализована поддержка логирования в OpenSearch;
- Улучшена работа с рефералами в LDAP AD;
- Исправлена ошибка, когда журналируемый SQL-запрос к Trino не отображается в записях OpenSearch;
- Исправлена ошибка с падением сервиса Trino Profile Parser при обработке логов самого сервиса;
- Исправлена ошибка чтения Iceberg-таблиц с имеющимися значениями NULL;
- Исправлено неверное значение параметра ranger.mapping.to-service.name;
- Trino интегрирован с Iquery: реализован сервис для загрузки запросов из querylog в OpenSearch;
- Добавлена поддержка нескольких BaseDN для group provider plugin.
StarRocks- Добавлена интеграция StarRocks и Hue;
- Доработана интеграция StarRocks с LDAP;
- Доработано взаимодействие таблиц с S3 для Hive-каталога;
- Добавлена поддержка управления конфигурацией ресурсных групп StarRocks с помощью Nova Operator:
- Добавлены параметры подключения для стабильной работы StarRocks с Hue;
- В чарт StarRocks добавлены дашборды для мониторинга в Grafana;
- Реализован маппинг политик Impala в политики StarRocks;
- Была добавлена поддержка ranger-hive-starrocks-policy-mapper в рамках отдельного чарта ranger-mapper.
Impala.2025.6.0- Добавлена поддержка протокола Arrow Flight Sql;
- Реализован функционал распределенной записи данных из Impala во внешние СУБД по JDBC (например, Postgres, Oracle);
- Для Apache Arrow реализованы режимы параллельного чтения и записи файлов Parquet;
- Добавлена поддержка High Availability режима для Catalog и Statestore;
- Реализовано улучшение инкрементального сбора статистики Iceberg-таблиц;
- Реализована оптимизация SQL-оператора MERGE;
- Реализована интеграция с Vault + External Secrets Operator;
- Добавлена возможность включения\отключения сортировки строк при конкатенации для функции group_concat;
- Изменение ролевой политики UPDATE;
- Исправлена ошибка IllegalStateException with Iceberg table with DELETE;
- Реализована функция по переводу кодировки utf-8 в 1251;
- Добавлены метрики для отслеживания значения admission slots;
- Реализовано переопределение настроек бакетов S3;
- Добавлена поддержка нескольких групп исполнителей и координаторов Impala Daemon, а также поддержка встроенного механизма executor_groups;
- Исправлена ошибка «IllegalStateException: null» при одновременном выполнении запросов «Show tables» и «Drop tables»;
- Выполнен backport исправления ошибок из open source:
- Исправлена ошибка с отсутствующими журналами java;
- Добавлен hotfix USE_LEGACY_HIVE_TIMESTAMP_CONVERSION.
Spark- Устранены найденные уязвимости в образе Spark, pyspark-notebook;
- Обновлена версия Iceberg до 1.7.2;
- Добавлено превью пользовательского интерфейса Marimo внутри Jupyter-ноутбуков;
- Добавлено задание автоматического создания папки для Spark History;
- Добавлена возможность работать с shuffle в s3;
- Обновлен автотестовый ноутбук;
- Добавлен фреймворк работы с сервисом NIM-API;
- Добавлен Scala-ноутбук;
- Добавлена возможность проброса любых параметров в sparkConnect;
- Оптимизирован механизм очистки конкурентного кеша Equality Delete;
- Разработано приложение парсинга логов Spark History Server;
- Исправлена ошибка закрытия ThreadPool при использовании S3FileIO;
- Устранена уязвимость v2-образа (pyspark-notebook, spark);
- Исправлена ошибка с хранением SSL-сертификатов в Spark Connect;
- Применена опция remove-dangling-deletes для удаления неактуальных delete-файлов.
Ranger- Версия Ranger core обновлена до 2.6;
- Доработан плагин Ranger Starrocks;
- Доработан маппинг групп на пользователей;
- Добавлена возможность создания дополнительных сервисов S3;
- Добавлена инициализация бина AWS-клиента в режиме работы с MinIO;
- Исправлены ошибки:
- подключения к HMS в клиентской библиотеке 3.1.3;
- получения данных Ranger Audit из OpenSearch;
- «Invalid value for configuration „authMethod“» при автокомите ресурсов S3;
- когда сервис MapperHiveToS3 не поднимается при указании спецсимволов для значения ignored.labels в ConfigMap;
- фильтрации по лейблам ignored.labels при маппинге политик.
Hue- Обновление core-версии до актуальной;
- Добавлена возможность выдавать права через Ranger REST API при создании домашних каталогов;
- Реализована поддержка указания списка административных групп в values;
- Добавлена возможность интеграции Hue с Keycloak;
- Исправлены ошибки:
- при обращении к qModel с запросом на предсказание потребления памяти из Hue;
- при выполнении запроса на эндпоинт «/api/token/auth»;
- при выполнении запроса на эндпоинт «/api/storage/ rmtree» | /api/v1/storage/rmtree;
- нерабочая текст-ссылка query_id запроса в контент-панели;
- при выполнении запросов Trino;
- с зависанием запросов Trino в статусе «waiting»;
- с отображением Language Reference в правой панели в редакторе Impala.
Cluster Manager- Добавлен интерфейс управления очередями YuniKorn;
- Актуализирован список метрик из Prometheus для Trino;
- Актуализирован список метрик из Prometheus для Spark;
- Реализован мониторинг метрик вычислительного движка StarRocks;
- Выполнен редизайн функционала мониторинга;
- Доработана статусная модель для движков, сервисов и всего инстанса Nova;
- Добавлен функционал получения событий узлов kubernetes;
- Добавлен функционал получения событий k8s-подов;
- Добавлен функционал просмотра и редактирования секретов.
Airflow- Базовая версия поднята до 2.10.5;
- Решена проблема с Decimal при векторном чтении.
Nova Iceberg Maintenance Service (NIM)- Обновлена версия до 1.1.6.;
- Добавлено превью нового сервиса NIM-API для вызова обслуживания через API;
- Реализована функциональность планирования файловых групп, как в Spark;
- Реализован сервис рекомендаций для выполнения процедуры compaction.
Nova-qmodel- Для qModel Server добавлена аутентификация;
- Для qModel Server реализована работа по защищенному протоколу HTTPS;
- Для qModel Server добавлена возможность персонализации запросов в сервис Impala;
- Исправлена ошибка авторизации при выполнении запросов к qModel Server с Basic Authentication;
- В Grafana реализован отчет по серверу модели;
- Исправлена ошибка, при которой модель обучалась на недостаточном количестве запросов.
Meta-aggregator- Добавлены новые поля данных для анализа Data compaction;
- Добавлен инкрементальный режим работы;
- Добавлена интеграция с системой управления миграциями БД;
- Исправлены ошибки агрегирования данных из HMS и OpenSearch;
- Исправлена ошибка, вызывающая код ответа 401 при вызове API.
Nova-MinIO- Улучшена работа с длинными кириллическими DN;
- Изменена стратегия обработки политик при маппинге в MinIO;
- Добавлена поддержка s3:ListMultipartUploadParts и s3:AbortMultipartUpload;
- MinIO STS: исправлена ошибка при авторизации пользователей с длинными значениями DN в LDAP/AD.