Нажмите «принять», если вы соглашаетесь с условиями обработки куки‑файлов/cookie-файлов и данных о поведении на сайте, нужных нам для аналитики. Запретить обработку куки‑файлов/cookie-файлов можно через браузер
Принять
Nova
Flex Loader
SDI
Lakehouse-платформа данных нового поколения: высокая производительность при минимальных затратах
Инструмент для быстрого наполнения хранилища или озера данных на базе GreenPlum, Hadoop или S3
Low-code инструмент для потоковой обработки и репликации данных
Программное обеспечение для администрирования кластеров и анализа запросов
Cluster Manager
Высокопроизводительное объектное хранилище данных для аналитики
Data Ocean Store
Узнайте больше о решениях Data Ocean
Ответим на все ваши вопросы и поможем определиться с выбором
Пишите нам:

Только полезное и ничего лишнего

Раз в две недели — только ценная аналитика. Самые важные и интересные новости в одном письме.
/
/
Почему Lakehouse нельзя построить без Spark

Почему Lakehouse нельзя построить без Spark

06.03.2026
В блоге Data Sapience на Habr вышла новая статья.
Spark-разработчик Виталий Мартынов и технические лидеры направления разработки Apache Spark платформы Data Ocean Nova Дмитрий Паршин и Евгений Морозов рассказывают:

  • какую роль Spark играет в Lakehouse-подходе;
  • какие задачи он закрывает успешнее других;
  • о его тесной взаимосвязи с Iceberg;
  • почему альтернативы часто не дотягивают до нужного уровня универсальности, масштабируемости и надежности в рамках большой продуктивной среды.

Также расскажем, почему в Data Ocean Nova система Spark используется в качестве движка для обслуживания Iceberg-таблиц и инструмента для миграции данных в Lakehouse.

Вам может быть интересно