Date | Title | Description |
13.05.2025 | TensorStax: Pioneering the Future of Data Engineering with Deterministic AI Agents | In the ever-evolving landscape of technology, data engineering stands as a formidable fortress. It’s complex, rigid, and often unforgiving. Enter TensorStax, a San Francisco-based startup that has just raised $5 million in seed funding to t... |
12.05.2025 | TensorStax gets $5M in funding to automate data engineering with deterministic AI agents
A deterministic approach to data pipeline automation
A bottleneck for AI scalability
Your vote of support is im... | A startup called TensorStax says it’s looking to bring artificial intelligence-powered automation to the unyielding world of data engineering after raising $5 million in seed funding.
Today’s round was led by Glasswing Ventures and saw part... |
12.05.2025 | TensorStax Raises $5Million to Build Deterministic AI Agents for Data Engineers | TensorStax, the autonomous AI agentic platform for data engineering, today announced it has raised $5 million in Seed funding led by Glasswing Ventures, with participation from Bee Partners and S3 Ventures. The investment will accelerate pr... |
02.05.2025 | Astronomer’s $93 Million Bet on Data Pipelines: A New Era for DataOps | In the fast-paced world of technology, data is the new oil. Companies are racing to refine it, to extract insights that drive decisions. Astronomer Inc. is at the forefront of this race, recently securing a hefty $93 million in Series D fun... |
02.05.2025 | Astronomer Secures $93 Million Series D Funding to Deliver Unified DataOps Platform for Enterprise AI | Financing led by Bain Capital Ventures, alongside Salesforce Ventures and all existing investors, with Bosch Ventures seeking to participate, will drive global expansion and accelerate R&D
Astronomer, the company behind Astro, the leadi... |
22.04.2025 | Batch data processing is too slow for real-time AI: How open-source Apache Airflow 3.0 solves the challenge with event-driven data orchestration | Join our daily and weekly newsletters for the latest updates and exclusive content on industry-leading AI coverage. Learn More
Moving data from diverse sources to the right location for AI use is a challenging task. That’s where data orches... |
03.03.2025 | The Case for a Simplified Data Stack | - |
27.02.2025 | Astronomer Releases State of Airflow 2025 Report | Astronomer, the company behind Astro, the leading data orchestration and observability platform powered by Apache Airflow®, today announced the findings from its State of Airflow Report 2025. Based on responses from over 5,000 data practiti... |
07.02.2025 | Как собрать ETL-процессы в Apache Airflow и перестать страдать | Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать ETL-пайплайны, чтобы они легко масштабировались и ... |
17.01.2025 | Создание ETL-движка для репликации данных из Apache Hive в Clickhouse | Представлено создание ETL-движка, который помогает автоматически извлекать, преобразовывать и загружать данные из разных источников. Мы сосредоточились на разработке быстрого инструмента, который использует параллельную обработку и оптимизи... |
16.01.2025 | Как ArgoCD секреты из Vault не расшифровывал, или при чем тут App of Apps | Привет, Хабр! Меня зовут Антон, я DevOps-инженер в YADRO, работаю с платформой машинного обучения. Недавно столкнулся с интересным случаем, над которым мне пришлось поломать голову. Одной из задач нашей команды стало развертывание helm-чарт... |
15.01.2025 | Unleashing the Power of Local Data Analytics with Docker | In the fast-paced world of data analytics, speed and efficiency are king. Imagine being able to set up your entire analytics environment in minutes. Picture a world where you can bypass the bureaucratic hurdles of corporate processes. This ... |
15.01.2025 | BI как подход бизнеса к принятию решений. Пример реализации в логистике | Ипатов Александр
Старший разработчик ГК Юзтех
Привет всем! Я, Ипатов Александр, backend-разработчик в ГК Юзтех. Сегодня хочу поделиться своим опытом создания (в комплексе с элементами ETL, DWH) и использования BI-инструментов, не затрагивая... |
14.01.2025 | Как аналитику развернуть локальный эирфлоу и прокинуть хуки в бд? | Кому можем быть полезна эта статья?
В вашей компании вообще нету эирфлоу или аналога.
У вас есть эирфлоу но тестирование дага можете проводить только на проде, нету стейджа ( деф контура). А если на прод еще и апрув нужен то это вообще сказ... |
05.01.2025 | Как мы деплоим Apache Airflow для промышленного использования в Kubernetes | Что делает инженер, если DAG не выполняется? Проверяет Airflow 50 раз, а потом вспоминает, что забыл поставить @dag над функцией.
Развертывание Apache Airflow в промышленной среде — это сложная задача, требующая учета множества аспектов: от... |
20.12.2024 | Рынок дата-инженеров и прогноз на 2025 | Резюме видеоРынок дата-инженеров
В своих видео и статьях я ни раз говорил о важности данных, не только потому что я работаю дата-инженером, но и также потому что все привыкли работать с данными.
Также стоит сказать, что в связи с событиями ... |
20.12.2024 | Что такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadata | Метаданные или метаинформация – это данные, которые предоставляют информацию о других данных.
Например, текст книги – это сами данные, а главы книги – это уже метаданные. Эту информацию также можно обрабатывать, например, посчитать количест... |
19.12.2024 | Записки разработчика: airflow->symfony-console->bitrix agents | Всем привет, случалось такое, что вам надо поставить кучу агентов битрикса на крон, а потом сидеть и разбираться - сколько они отрабатывают, отрабатывают ли вообще, когда падают или зависают?
Ну конечно случалось. Так вот, чтобы получить ви... |
17.12.2024 | Отход от Airflow: почему Dagster — это оркестратор данных следующего поколения | Мы запустили Dagster, потому что в мире данных наблюдается кризис инструментов и инженерии. Существует драматическое несоответствие между сложностью и критичностью данных и инструментами и процессами, которые существуют для их поддержки.
Да... |
16.12.2024 | Navigating the Depths of Airflow: A Beginner's Guide to PostgreSQL Tables | Airflow is like a conductor orchestrating a symphony of tasks. It schedules and manages workflows, ensuring that each note plays in harmony. But behind this beautiful music lies a complex structure, particularly in its use of PostgreSQL tab... |
14.12.2024 | Navigating the Digital Landscape: Integrating Chatbots with Google Sheets and Migrating to Open-Source BI Tools | In the digital age, businesses are constantly seeking ways to streamline operations and enhance user experiences. Two recent developments highlight this trend: integrating chatbots with Google Sheets and migrating from proprietary business ... |
14.12.2024 | Airflow и устройство некоторых таблиц | Меня зовут Дмитрий и я вляпался в Airflow. Цель этой статьи — помочь начинающим пользователям Airflow ознакомиться с таблицами PostgreSQL. Время узнать насколько глубока аирфлоуольная нора.
Джун наблюдает за тем, как глубоко заберется мидл.... |
13.12.2024 | The Evolution of Airflow and Kubernetes: A New Era in Workflow Management and Container Orchestration | In the world of data engineering and cloud computing, two giants stand tall: Apache Airflow and Kubernetes. Both have transformed how we manage workflows and orchestrate containers. As we look ahead, the latest developments in Airflow and K... |
12.12.2024 | The GPU Revolution: Harnessing Power in the Cloud | In the world of computing, graphics processing units (GPUs) are the unsung heroes. They are not just for gaming anymore. They have become the backbone of modern computing, powering everything from artificial intelligence to data analysis. T... |
11.12.2024 | Миграция с Tableau на опенсорс-версию DataLens: лёгкий путь с препятствиями | Хабр, привет! Я работаю в департаменте бизнес‑аналитики ППР — компании, которая создаёт экосистему сервисов для автопарка. Зимой 2024 года нам пришлось в короткий срок мигрировать на новый для нас BI‑сервис DataLens: подготовить инфраструкт... |
11.12.2024 | Airflow 3 is Coming | Как-то один из самых главных контрибьюторов в Airflow Ярек Потиюк рассказал, что Airflow 3 станет новым золотым стандартом индустрии. Это довольно смелое заявление. Я же считаю, что в Airflow 3 еще многого не хватает, чтобы действительно ст... |
10.12.2024 | Интеграция поддержки Nvidia в контейнерах | Видеокарты играют важную роль в современных компьютерах и используются не только для игр, но и других задач. Видеокарты в современном мире применяются как ускорители вычислений. В них одновременно выполняется множество вычислений, что делае... |
07.12.2024 | The Art of Resilience: Navigating Cloud Architecture and Chaos Engineering | In the world of technology, resilience is the name of the game. As businesses shift to cloud-based solutions, the architecture must adapt. Event-Driven Architecture (EDA) and chaos engineering are two powerful tools in this evolving landsca... |
06.12.2024 | Как должен выглядеть идеальный GitHub для поиска работы | Вступление
Сколько раз вы слышали совет: "Укажи GitHub в резюме для поиска работы"?
Многие думают, что просто создать аккаунт и запушить пару репозиториев будет достаточно, чтобы работодатели будут выстраиваться в очередь. Но на с... |
06.12.2024 | Как уйти в отпуск с помощью EDA: сравниваем подходы в облаке | Event Driven Architecture, или EDA — довольно популярный архитектурный подход, в буквальном переводе «архитектура на основе событий», где мы строим приложение вокруг событий, которые генерируются в системе. В самом распространённом случае, ... |
05.12.2024 | Navigating the Stormy Seas of Data Migration: Lessons Learned | Data migration is like sailing through uncharted waters. It’s fraught with challenges and unexpected storms. Many organizations embark on this journey, hoping to transfer data from one system to another seamlessly. However, the reality ofte... |
05.12.2024 | Интеграция с ClickHouse: 1С vs Apache Airflow. Плюсы и минусы | На связи Никита Скирдин, программист 1С компании «Белый код». Для BI-аналитики необходимо собирать данные из различных систем в централизованное хранилище. Как правило, перед использованием данных для построения графиков, таблиц и т. д. их ... |
04.12.2024 | Как ArgoCD секреты из Vault не расшифровывал или при чём тут App of Apps | Привет, Хабр!
Столкнулся по работе с интересной, на мой взгляд, ситуацией. Многим она может показаться банальной, но мне пришлось достаточно весомое время посидеть, чтобы разобраться.Предыстория
Стояла довольно понятная задача — развернуть ... |
29.11.2024 | Как приготовить DataVault и не испортить Greenplum | Каждый повар в поисках своего фирменного рецепта проходит несколько стадий. Подбор нужных ингредиентов методом проб и ошибок. Неизбежный провал и разочарования. Вторая попытка: замена неподходящих ингредиентов, выбор новых инструментов и, н... |
28.11.2024 | Apache Airflow: нестандартное применение | Привет, Хабр! Я Маша Башан, Python разработчик в команде dBrain. Сегодня расскажу, как в dBrain мы внедрили собственную стратегию тестирования, которая в разы сокращает количество действий работающих с платформой инженеров. Мы уже озвучивал... |
28.11.2024 | 6 open-source-инструментов для разработчика: от интеграции данных до языка программирования | Привет, Хабр! Я Саша Пиманов, ведущий iOS-разработчик в МТС Диджитал. Сегодня хочу поделиться подборкой open-source-инструментов для начинающих и не только разработчиков. Все они предназначены для различных направлений: интеграции данных, с... |
24.11.2024 | Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года | Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs).
Что с помощью его можно делать с данными:
План... |
22.11.2024 | Get 'Big Data on Kubernetes' for FREE and save $31.99! | In today's data-driven world, organizations across different sectors need scalable and efficient solutions for processing large volumes of data.
Kubernetes offers an open-source and cost-effective platform for deploying and managing big dat... |
20.11.2024 | Bridging the Gap: Modern Infrastructure Management in the Age of Automation | In the fast-paced world of technology, infrastructure management is akin to navigating a complex maze. The tools and strategies we use can either lead us to the exit or trap us in endless loops. Recent developments in infrastructure orchest... |
19.11.2024 | Okko Tech Team Митап по инфраструктуре: Pulumi & Airflow | Приглашаем технических специалистов на митап, посвященный современным инструментам управления инфраструктурой. Также вы сможете обсудить с коллегами из индустрии свои кейсы и поделиться опытом использования этих инструментов. Митап будет ин... |
01.11.2024 | Инфраструктура для Data-Engineer DBT | Введение
dbt является мощным фреймворком, который включает в себя два популярных языка: SQL + Python.
При помощи dbt можно создавать разные "слои" данных или выделить dbt только под один слой, к примеру dm.
При помощи понятного и ... |
25.10.2024 | The Data Warehouse: A Crucial Component in the Age of Information | In today's data-driven world, the importance of a Data Warehouse (DWH) cannot be overstated. Think of a DWH as a vast library, where every book represents a piece of data collected from various sources. Just as a library organizes books for... |
24.10.2024 | Что такое DWH? | Дисклеймер
Cтатья написана с целью дать лишь общее представление о DWH, поэтому тут много упрощений и неточностей. Буду рад если исправите меня в комментариях. Спасибо
DWH (Data Warehouse или по русски Хранилище данных) - это специализирова... |
07.10.2024 | Записи докладов с M2 Data Meetup | Привет! В четверг мы провели первый митап по данным в офисе M2. Поговорили о насущном — как строить аналитические платформы данных и как они помогают решать проблемы бизнеса.
В программе было пять технических докладов о разных аспектах рабо... |
01.10.2024 | Cyber Resilience in Action: Lessons from Cyber Polygon 2024 | In the digital age, cyber resilience is not just a buzzword; it’s a necessity. The recent Cyber Polygon 2024 event showcased this reality, bringing together teams from around the globe to test their mettle against simulated cyber threats. A... |
01.10.2024 | The Challenge of Data Duplication in Banking: A Modern Dilemma | In the digital age, data is the lifeblood of any organization. For banks, managing customer information is akin to navigating a labyrinth. Each turn presents new challenges, especially when it comes to data duplication. Imagine two database... |
01.10.2024 | Запастись кофе и таблетками от головной боли — как подготовиться к киберучениям и победить | Держаться на кофе и обезболах, глобально пересматривать тактику в процессе и отстаивать свою позицию до конца. Ребята из Jet CSIRT рассказывают, как их команде SuperJet удалось занять первое место на международном онлайн-тренинге для повыше... |
16.09.2024 | Drag and drop деплой ML-моделей: убираем рутину с помощью web-интерфейса | Привет, Хабр! Мы — DS-ы Павел Парфенов и Максим Шаланкин в команде Финтеха Big Data МТС. У нас много ML-моделей, которые нужно тестировать и внедрять в прод. Все это создает высокий темп разработки c кучей рутинных и ручных операций — от по... |
15.09.2024 | Как с помощью одного сервиса сократить время онбординга разработчиков на 90% | В первой же строке признаюсь, что в заголовке немного лукавство. Дело в том, что разработчики, с которыми я работал и для которых поднимал этот сервис, – начинающие, студенты младших и средних курсов университетов. Многие из них в начале ра... |
10.09.2024 | Опыт перехода с Power Apps и Power Automate на AppSmith. Объясняю «на кошках» | Привет, Хабр!
Я работаю в сфере BI уже несколько лет, и за это время успела познакомиться со множеством инструментов и платформ для анализа и визуализации данных. Среди них, разумеется, популярные no-code BI-платформы: Qlik Sense, Power BI,... |
07.09.2024 | The Art of Data Aggregation: Streamlining Sales Analytics with DataSphere and Airflow | In the world of sales and marketing, data is the lifeblood. Companies grapple with mountains of information, sifting through countless records to make sense of trends and forecasts. Imagine trying to find a needle in a haystack, but the hay... |
04.09.2024 | Агрегация данных для аналитики продаж с помощью DataSphere Jobs и Airflow SDK | В маркетинге и продажах крупных компаний есть несколько аналитических задач, которые требуют регулярной обработки сотен тысяч и миллионов записей из разных источников. Например, это прогнозирование продаж или планирование рекламных кампаний... |
02.09.2024 | Spark Essentials: Руководство по настройке и запуску проектов Spark с помощью Scala и sbt | Введение
В этой статье представлено подробное руководство по инициализации проекта Spark с помощью Scala Build Tool (SBT). Это руководство охватывает все этапы процесса, включая создание проектов, управление зависимостями, локальное тестиро... |
01.09.2024 | Navigating the Data Landscape: A Journey from PostgreSQL to ClickHouse | In the fast-paced world of data engineering, the choice of database can make or break a project. This is a tale of a small team that embarked on a significant migration journey. They transitioned from PostgreSQL to ClickHouse, seeking speed... |
01.09.2024 | The Rise of AI in Content Creation: A New Era of Text Generation and Analysis | In the digital age, content is king. But what happens when the creators of that content are not human? As artificial intelligence (AI) continues to evolve, it is reshaping the landscape of content creation, particularly in text generation a... |
30.08.2024 | Лирика в IT, или как мы научились вытаскивать тексты из песен. Опыт Звука | Для того чтобы пользователи музыкального стриминга могли легко находить песни по тематике и смыслу, а система рекомендаций подсказывала наиболее подходящие песни, необходим процесс извлечения лирики. Это подразумевает автоматизированное изв... |
26.08.2024 | Как небольшой команде переехать на ClickHouse: на какие грабли мы наступили и о каких фишках не знали | Привет, Хабр!
Меня зовут Петр. Я работаю инженером по данным в Okko и обожаю ClickHouse.
Примерно в середине прошлого года мы начали увлекательный процесс переезда хранилища с PostgreSQL (плюс частично HDFS) на ClickHouse. Причин для переез... |
23.08.2024 | ML в маркетинге: тест и мониторинг модели пользовательского негатива | Привет! На связи Алексей, Александр и Алиса. В предыдущей статье мы рассмотрели технические аспекты обучения ML-алгоритма по предсказанию отказа пользователей от рекламы.
Модель определяет пользователей, которых сегодня не стоит беспокоить ... |
15.08.2024 | Do you know where your data comes from? Apache Airflow does and it’s getting updated to advance data orchestration | Join our daily and weekly newsletters for the latest updates and exclusive content on industry-leading AI coverage. Learn More
Getting data from where it is created to where it can be used effectively for data analytics and AI isn’t always ... |
07.08.2024 | Comment | A Comprehensive Guide to LLM Creation | Large Language Models (LLMs) are rapidly transforming how we interact with technology and are shaping the future of the global economy.
Research from McKinsey has found that generative AI features, which underpin LLMs, stand to add up to $4... |
29.07.2024 | Кастомные email-оповещения в Apache Airflow | Пролог
Как ИИ представляет себе "Этакое желание"
Каждый разработчик сталкивался, или непременно столкнется, с ситуацией, когда в бизнес-требованиях видишь “этакое желание”.
Этакое желание (каламбурное определение) – достичь чего-т... |
01.07.2024 | Aqueduct: Как мы экономим железо для МЛ-вычислений | Привет! Меня зовут Олег Бугримов, я руковожу разработкой в команде Data Science SWAT в Авито. Мы занимаемся инженерией для машинного обучения. Одно из направлений - это оптимизация продового инференса. Наша задача чтобы модельки работали бы... |
26.06.2024 | Разработка фреймворка для автоматизации загрузок данных из источников: Case Study для металлургической компании | Всем привет! Меня зовут Амир Розикзода, я Data Engineer в компании “ДЮК Технологии”. Хочу рассказать о кейсе, в котором я участвовал в качестве соавтора под руководством моего коллеги Хуснутдинова Артура, Data Engineer в компании “ДЮК Техно... |
24.06.2024 | Отказоустойчивый деплой приложений в Kubernetes. Принципы, паттерны и приемы | Привет, Хабр! Я исполнительный директор по разработке департамента ML и BD Газпромбанка. Сегодня хочу поговорить с вами о деплое.
По данным, приведенным в Google SRE book, до 70% проблем происходит вследствие изменений в уже работающих сист... |
13.06.2024 | Автопереобучение моделей в Production | Модели машинного обучения становятся критически важными для бизнеса, помогая оптимизировать процессы и принимать более обоснованные решения. Однако их актуальность и точность могут быстро снижаться из-за изменения данных. Автоматическое пер... |
27.05.2024 | Проектирование DWH с помощью Data Vault | Привет, Хабр!
Методология Data Vault была разработана Дэном Линстедом в конце 1990-х годов и предлагает гибкий, масштабируемый и проверяемый способ управления данными. Data Vault сочетает в себе самые лучшие черты нормализованных моделей да... |
27.05.2024 | Быстрая Data Quality проверка на базе алгоритма adversarial validation | Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user... |
24.05.2024 | Миграция Big Data на практике: как мы готовили напильники | Всем привет, меня зовут Алексей Марьин, я IT-лидер стрима «Озеро данных» в ВТБ. До 2019 года мы активно и вполне успешно использовали для анализа и обработки больших данных продукт Oracle Big Data Appliance с Cloudera Hadoop Distribution вн... |
24.05.2024 | Copilot for Microsoft Fabric Now Generally Available | News Copilot for Microsoft Fabric Now Generally Available By Chris PaoliMay 24, 2024
Microsoft's far-reaching Fabric data platform is getting a host of enhancements, including the general availability of its own Copilot AI assistant.
Announ... |
13.05.2024 | Apache NiFi как доступный ETL инструмент: кейс применения + тестовый стенд Docker | Привет! Меня зовут Владимир Ходак, я работаю инженером данных в компании "ДЮК Технологии". В статье расскажу о практических аспектах использования Apache NiFi, опишу преимущества и проблемы, с которыми я столкнулся.
На Хабре есть ... |
07.05.2024 | Рулим запуском Spark-приложений в Airflow с помощью самописного оператора | Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями.
Все Spark-приложения сабмитятся из Docker-конте... |
03.05.2024 | Data сontract: давайте попробуем договориться | У всех свои контракты.
«Единственное, что есть в нашей жизни постоянного, — это изменения» (цитата из книги «Конвоиры зари» Дона Уинслоу). Фраза чуть отредактирована, но не об этом пойдёт речь. Любые изменения касающиеся условий и семантики... |
25.04.2024 | Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы | В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NIFI, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.
С... |
25.04.2024 | Яндекс Data Proc для ML: ускоряем Embedding на Spark | Меня зовут Дмитрий Курганский, я Tech Lead команды MLOps в Банки.ру. Мы работаем над тем, чтобы грамотно организовать и ускорить этапы жизненного цикла ML. В этой статье поделюсь нашим опытом применения Embedding: от запуска Яндекс Data Pro... |
19.04.2024 | Гайд texthero pandas | Упрощенная обработка естественного языка (NLP)
Я всегда нахожусь в поиске новых инструментов, которые помогут мне упростить процедуру обработки естественного языка, поэтому, когда я наткнулся на короткий видеоклип, показывающий функциональн... |
15.04.2024 | Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata | Привет, Хабр!
Мы в билайне любим машинное обучение. В какой-то момент моделей машинного обучения стало так много, что это вынудило нас решать определенные задачи. Я Дмитрий Ермилов, руковожу ML в дирекции по искусственному интеллекту и цифр... |
09.04.2024 | Дашборд управления бизнесом (P&L) в Metabase за 5 дней | Один из важнейших инструментов в моей работе — дашборд с данными о прибылях и убытках компании P&L (он же БДР, он же отчет о финансовых результатах). Он помогает контролировать рентабельность бизнеса, эффективность отделов компании, про... |
09.04.2024 | Интеграция Grist и Metabase | Привет! Меня зовут Александр Ежков, я Backend-разработчик в AGIMA. Занимаюсь созданием и поддержкой внутренних сервисов для компании. А конкретно сейчас — нашей DWH-системой. Мы построили ее из Open-source продуктов. В этой статье расскажу,... |
08.04.2024 | Open source Apache Airflow 2.9 advances data orchestration as AI usage grows | Discover how companies are responsibly integrating AI in production. This invite-only event in SF will explore the intersection of technology and business. Find out how you can attend here.
The open-source Apache Airflow 2.9 release is out ... |
08.04.2024 | Анализ навыков data-специализаций в вакансиях HH.ru | Всем привет!
В этой статье я расскажу вам про мини-проект по анализу навыков, которые указываются в вакансиях на HeadHunter по специализациям:
BI/Data аналитик
Data Science
Продуктовый аналитик
Цель проекта
Основной целью проекта является р... |
04.04.2024 | Автоматизируем сеть Яндекса с Милошем: сервис конфигураций оборудования | Задумывались ли вы о том, как изменить конфигурацию сразу на нескольких сетевых устройствах? Что, если нужно сделать это на всей сети с сотнями и тысячами единиц оборудования? А что, если приходится делать это каждый месяц на железе от пяти... |
03.04.2024 | 3 способа запуска Spark в Kubernetes из Airflow | Приветствую, после того, как я научился запускать spark-submit с мастером в Kubernetes и даже получил ожидаемый результат, пришло время ставить мою задачу на расписание в Airflow. И тут встал вопрос, как это правильно делать. Во всемирной п... |
03.04.2024 | Мониторинг Apache Airflow. Оценка «прожорливости» тасок | Всем привет! Случались ли у вас ситуации, когда количество DAG’ов в вашем Airflow переваливает за 800 и увеличивается на 10-20 DAG’ов в неделю? Согласен, звучит страшно, чувствуешь себя тем героем из Subway Surfers… А теперь представьте, чт... |
21.03.2024 | Что такое MLOps и как мы внедряли каскады моделей | Привет, меня зовут Александр Егоров, я MLOps инженер. В статье расскажу о том, как мы в банке выкатываем огромное количество моделей. Разберем не только пайплайн по выкладке отдельных моделей, но и целые каскады.Как появляется потребность в... |
16.03.2024 | Инженер-аналитик или дата-инженер: Как выбрать нужного специалиста? | Census | Мэдисон — инженер-аналитик, увлекающаяся данными, предпринимательством, писательством и образованием. Ее цель — преподавать так, чтобы это было полезно для каждого, независимо от того, начинает ли он карьеру или уже работает в инженерии 20 ... |
13.03.2024 | Новое электричество, новая нефть, или Как эффективно управлять разрозненными данными | Изображение — Shubham Dhage — Unsplash.com
Последние 10 лет о данных говорят, что это новое электричество, новая нефть, из которых можно извлекать выгоду для компании. Но не все умеют это делать. Если данные просто лежат в старой Oracle Exa... |
23.02.2024 | Алертинг состояния выполения DAG`ов Apache Airflow в Telegram за 1 минуту | Коллеги, здарова! Вряд ли вы попали на эту статью случайно, по этому не будет никаких лирических отступлений и переходим сразу к делу.Notifier
В Apache Airflow существует абстрактный класс BaseNotifier , который предоставляет базовую структ... |
12.02.2024 | Использование Jupyter Notebook для разведочного анализа данных ⬝ Методические рекомендации | Блокноты Jupyter — это, уже довольно давно, один из самых неоднозначных инструментов в среде дата‑сайентистов. Одни яро критикуют Jupyter, другие горячо поддерживают этот проект. Но, тем не менее, многие согласятся с тем, что блокноты Jupyt... |
04.01.2024 | Создание витрины данных для телеком-оператора средствами Apache Airflow | Сегодня с вами участница профессионального сообщества NTA Курляндская Владислава.
В современном мире витрины данных становятся неотъемлемой частью любого бизнеса, так как позволяют прогнозировать будущие изменения. В данном посте я рассмотр... |
06.12.2023 | Astronomer gives boost to Apache Airflow platform data orchestration for AI | Are you ready to bring more awareness to your brand? Consider becoming a sponsor for The AI Impact Tour. Learn more about the opportunities here.
Getting data to and from different systems is often the domain of data orchestration. It is am... |
16.11.2023 | Как автоматизировать проверки данных в Airflow с Great Expectations | Привет! Меня зовут Дима Курганский. Я — MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет особенно интересна тем, кто понимает общие принципы работы с Great Expectations, как минимум базово знаком с составляющими компо... |
22.10.2023 | Airflow в Kubernetes. Часть 1 | Приветствую!
На пути инженера данных часто встречаются задачи связанные с DevOps. Одна из таких - развернуть Airflow в Kubernetes кластере. Если до этого похожего опыта работы не было, то эта задача может показаться не тривиальной. Конечно,... |
04.10.2023 | Kestra is an open source data orchestration platform for complex workflows | Meet Kestra, a startup that has been working on an open source project focused on data orchestration across several services, databases, files, repositories and warehouses. The open source project has attracted thousands of stars on GitHub,... |
01.09.2023 | Как интегрировать данные в Хранилище быстро, качественно и дешево | Всем привет! Меня зовут Алексей, и я уже более 20 лет в ИТ, занимался разработкой, затем системным анализом и управлением проектами, а в последние годы – интеграционными потоками, данными и архитектурой систем. Сейчас я работаю в Quillis н... |
02.08.2023 | Топ самых интересных CVE за июль 2023 года | Внимание! Вся информация, представленная ниже, предназначена только для ознакомительных целей. Автор не несет ответственности за вред, причиненный с помощью предоставленной им информацией.
В этой подборке представлены самые интересные уязви... |
24.07.2023 | Data Engineering: концепции, процессы и инструменты | Data science, машинное обучение и искусственный интеллект — не просто громкие слова: многие организации стремятся их освоить. Но прежде чем создавать интеллектуальные продукты, необходимо собрать и подготовить данные, которые станут топливо... |
07.06.2023 | Кейс внедрение Dbt в Детском Мире | Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире.
На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения Dbt (инструмент для оркестрации Sql витрины). На... |
26.05.2023 | Пишем первый ML-пайплайн на Airflow: подробный туториал | Ждешь, когда обновятся данные, чтобы запустить переобучение модели
В этом туториале мы пошагово разберем, как создать с нуля и запустить локально свой первый пайплайн на Airflow.
Данный пайплайн специально адаптирован под задачи машинного о... |
24.05.2023 | Elementl raises $33M Series B for its data orchestration platform based on Dagster | Elementl, a startup that is building a data platform based on the popular Dagster orchestrator, today announced that it has raised a $33 million Series B round led by Georgian. This round also saw participation from new investors 8VC and Hu... |
22.05.2023 | Как развернуть кластерную версию Apache Airflow: пошаговая инструкция | Примерно год назад в Neoflex стартовал большой проект в одной из крупнейших строительных компаний по созданию ЕХД, в которое предполагалось мигрировать 100+ систем‑источников. Для этого мы выбрали Airflow в качестве оркестратора, но с учето... |