Nova
Flex Loader
SDI
Lakehouse-платформа данных нового поколения: высокая производительность при минимальных затратах
Инструмент для быстрого наполнения хранилища или озера данных на базе GreenPlum, Hadoop или S3
Low-code инструмент для потоковой обработки и репликации данных
Программное обеспечение для администрирования кластеров и анализа запросов
Cluster Manager
Высокопроизводительное объектное хранилище данных для аналитики
Data Ocean Store
Узнайте больше о решениях Data Ocean
Ответим на все ваши вопросы и поможем определиться с выбором
Пишите нам:

Только полезное и ничего лишнего

Раз в две недели — только ценная аналитика.
Самые важные и интересные новости в одном письме.
/
/
Январское обновление платформы...


Январское обновление платформы данных Data Ocean Nova

16.01.2026
В первые дни нового года команда Data Sapience подготовила сюрприз для своих клиентов: в платформу Data Ocean Nova было добавлено процедурное расширение для MPP-движков.
Lakehouse-платформа данных Data Ocean Nova получила первое обновление в 2026 году. В релизе 2025.8.0 было реализовано процедурное расширение для MPP-движков. С 2026 года пользователи смогут переносить функционал хранимых процедур и свой прикладной опыт с legacy-систем предыдущего поколения в платформу данных Data Ocean Nova.

Детальный список изменений релиза 2025.8.0.
*Указаны изменения и улучшения, являющиеся собственной разработкой Data Sapience и не доступные в open source сообществе.

Lakehouse Procedure SQL (LPSQL)
Промышленный релиз
  • Реализовано сохранение хранимых процедур в мета-хранилище платформы;
  • Добавлен корректный парсинг выражений LPSQL во frontend с флагом включения функциональности;
  • Доработана поддержка оператора SET;
  • В LPSQL добавлена поддержка создания и управления хранимыми процедурами с функциональностью имперсонализации;
  • Добавлена поддержка запуска LPSQL-запросов в backend с возвратом результатов последней операции SELECT;
  • Реализована функция сохранения состояния словаря данных в сессии процедуры с последующей выборкой метаданных для генерации динамического SQL-кода.
Keycloak
  • Исправлена проблема с lookup ресурсов для сервисов Impala, S3, Trino, StarRocks при включенной Keycloak-аутентификации путем добавления shaded Keycloak для HMS Client.
MetaAggregator
  • В API MetaAggregator доработан запрос с эндпоинтом /tables, внесены следующие изменения:
  • в тело ответа добавлены поля для расчета статистики по файловой структуре Iceberg-таблиц: metadata_files_count , manifest_lists_count , manifest_count;
  • для табличных форматов, отличных от Iceberg, в поле partitions теперь возвращается количественное значение вместо флага;
  • для Iceberg-таблиц в тело ответа добавлено поле last_engine_name , указывающее, каким движком (Flink, Spark, Trino, Impala, KafkaConnect или другим) была создана таблица.
Data Ocean Store
  • Реализовано исключение отдельных по выбору бакетов для site replication;
  • Возвращены страницы Site Replication и Tiering в пользовательский веб-интерфейс;
  • Добавлена русификация для страниц управления репликацией и многоуровневым хранением;
  • Улучшена доступность интерфейса для русскоязычных пользователей.
Nova StarRocks 
  • Оптимизирован механизм получения статистики;
  • Реализовано управление ресурсными группами;
  • Настроено управление ресурсными группами через оператор;
  • Добавлен вывод строки подключения к Cluster Manager.
Nova Trino
  • Внесены исправления TrinoProfileParser при получении информации о работающих запросах;
  • Исправлены отсутствующие параметры в конфигурации Trino LDAP;
  • Доработан состав полей в профиле запроса для TrinoProfileParser;
  • Осуществлен переход на базовую 478 версию;
  • Проведена параметризация использования cache.
IQuery
  • Логика работы Impala Profile parser перенесена в сервис Iquery;
  • В индекс добавлено новое поле – queryPlanText, предназначенное для хранения плана запроса в формате JSON;
  • Из индекса удалено поле queryProfileThrift;
  • В чарт добавлен временный флаг includeThriftPlanSummary, регулирующий запись Thrift-структур в индекс.
Audit
  • Добавлена возможность параметризации схем Postgres в базе данных audit.
Nova Spark
  • Обновлена версия Iceberg до 1.10.0.001 для Spark 4.01;
  • Обновлена версия Iceberg до 1.8.1.004 для Spark 3.5.4;
  • Обновлена версия PyIceberg до 0.10.0.001;
  • Интегрирована поддержка каталога Polaris для PyIceberg и калькулятора обслуживания;
  • Интегрирована валидация yaml-файла с конфигурацией;
  • Apache DataFusion Comet изменена версия до 0.9.1.3;
  • Обновлена версия Managed Iceberg Tables до 2.0.6, Managed Iceberg Tables до 2.0.7, обновлены пакеты и скрипты обслуживания;
  • Добавлен логгер процессов обслуживания с поддержкой кастомных обработчиков;
  • Усовершенствован алгоритм расчета ресурсов для охвата большего количества сценариев использования;
  • Добавлен Spark session параметр проверки наличия parquet-файлов после записи в S3. Компактные логгеры запросов к S3;
  • Реализован сервис журналирования состояния запущенных spark-задач и их SQL в opensearch.
Nova Impala
  • Реализован механизм закрепления таблиц в кеше Impala с возможностью исключения определенных каталогов из ротации при исчерпании места;
  • Добавлена возможность отмены запросов в frontend-компоненте Impala;
  • Реализована стандартная авторизация по cookies в OAuth для WebUI в системе Impala с сохранением существующей функциональности;
  • Оптимизированы запросы для подсчета инкрементальной колоночной статистики по Iceberg-таблицам с использованием функций date_trunc вместо from_timestamp для повышения производительности;
  • Добавлена поддержка правил размещения запросов в ресурсных группах Impala и контроля доступа на основе групп пользователей Keycloak;
  • Добавлена JWT-фильтрация по ролям пользователей вместо фильтрации по группам в Impala с разделением ролей на UI- и SQL-роли;
  • Исправлены:
+ проблема с регистрочувствительностью названий колонок в операции MERGE INTO;
+ ошибка, когда в операциях MERGE и UPDATE при партицировании по месяцам используется функция date_trunc_month вместо from_timestamp для повышения производительности;
+ ошибка определения локального IP-адреса, которая приводила к сбоям сетевого соединения при выполнении запросов в Impala;
+ ошибка при создании таблиц Iceberg в Impala 4.5 – добавлена реализация метода isPuffinStatsWritingEnable;
+ ошибка реализации iceberg_cache_in_catalog, которая приводила к большой нагрузке на catalogd и NPE;
+ ошибка в Impala, при которой выдавалось сообщение об ошибке вместо корректного уведомления об отсутствии таблицы;
  • Backport изменений и исправлений из Apache Impala:
+ IMPALA-14391, IMPALA-14383 – исправлена ошибка с завершением процесса при приведении строки с временной меткой, содержащей смещение часового пояса, к типу DATE;
+ IMPALA-14358 – исправлена ошибка, при которой Iceberg-таблица становилась недействительной, если сторонний движок обновлял данные в таблице;
+ IMPALA-14336 – исправлена ошибка, при которой загружались сами таблицы при выводе списка таблиц, что тормозило работу системы;
+ IMPALA-915 – добавлена возможность отмены запросов на уровне фронтенда в Impala;
+ IMPALA-14496 – исправлена ошибка, вызывающая завершение работы Impala при записи нескольких файлов удаления на партицию в рамках одной операции DELETE.

Managed Iceberg Tables
  • Расширены шаблоны для автоматического обслуживания; 
  • Добавлены очереди Yunikorn;
  • Добавлена возможность переопределения конкретного handler;
  • Исправлена ошибка выделения малого количества ресурсов при сильной фрагментации таблицы;
  • Исправлена ошибка в работе скрипта expiring.py, который завершался с ошибкой, если в схеме есть пустая таблица.
HMS
  • Исправлена ошибка, вызывающая долгую работу и задержки в обработке events на Hive и в Catalog.
HUE
  • Добавлена возможность подключения к S3 в режиме pathStyle=false.

Вам может быть интересно