Edit

Apache Spark™

https://spark.apache.org/

Last activity: 17.09.2024

Active

Categories: DataEngineeringLearnScience

Apache Spark is a multi-language engine for executing data engineering, data science, and machine learning on single-node machines or clusters.

Website visits

1M /mo.

Mentions

196

Mentions in press and media 196

Date	Title	Description
18.09.2024	The Rise of Open Source in Russia: A New Era for Machine Learning and Data Analysis	In the vast landscape of technology, open source is a beacon of collaboration. It invites innovation and democratizes access to tools that drive progress. Recently, a study by ITMO University has shed light on the state of open source in Ru...
17.09.2024	ИТМО провёл исследование open source в сферах машинного обучения и анализа данных	Специалисты центра «Сильный ИИ в промышленности» при ИТМО опубликовали результаты исследования особенностей и направления развития опенсорс-сообщества в сфере машинного обучения и анализа данных в России. В лидерах российского опенсорса ока...
13.09.2024	Как мы генерируем GPT-нейросетями миллиарды объявлений на малом количестве GPU. Доклад Яндекса	Привет! Меня зовут Ольга Зайкова, в Яндексе я руковожу группой автоматической генерации рекламы. Сегодня расскажу о соединении тяжёлых процессингов и GPU‑вычислений. Обсудим, как мы реализовали высоконагруженный процессинг, который обрабаты...
13.09.2024	Кто такой и чем занимается дата-инженер	Хабр, привет! Меня зовут Саша Сайков, я дата-инженер в PepsiCo и старший ревьюер на курсах «Инженер данных» и «Инженер машинного обучения» в Яндекс Практикуме. Я хочу рассказать, чем занимаются дата-инженеры, в каких компаниях мы работаем и...
11.09.2024	Oracle unveils Intelligent Data Lake to boost data management	Oracle has announced its plans to introduce Oracle Intelligent Data Lake as a new feature of the Oracle Data Intelligence Platform. This addition aims to simplify the use of data from diverse sources through a unified experience, incorporat...
11.09.2024	“Selvakumar Venkatasubbu: Celebrating IEEE Senior Member Elevation and Cloud Engineering Excellence”	Share Tweet Share Share Email “Cloud technology is not just about infrastructure and scalability, it about enabling innovation that revolutionizes industries. My passion is to create solutions that not only meet today’s demands but also set...
10.09.2024	The Future of Data and AI: Oracle's Intelligent Data Lake and Mobilint's AI Chips	In the fast-paced world of technology, data is the new oil. It fuels decisions, drives innovation, and shapes the future. Two recent announcements from Oracle and Mobilint highlight this truth, showcasing advancements that promise to reshap...
10.09.2024	The Data Revolution: Oracle and GrooperAI Lead the Charge in Intelligent Automation	In the fast-paced world of technology, data is the new oil. Companies are digging deep to extract value from their data reservoirs. Two recent announcements highlight this trend: Oracle's Intelligent Data Lake and GrooperAI's advancements i...
10.09.2024	Navigating the Data Stream: Building an Event Processing System from Scratch	In the age of Big Data, the ability to process and analyze vast streams of information is crucial. Companies are inundated with data from various sources, and the challenge lies in transforming this data into actionable insights. This artic...
10.09.2024	Oracle Introduces Intelligent Data Lake and Generative AI-Powered Analytics for Oracle Data Intelligence Platform	Oracle Intelligent Data Lake will include open data formats, a unified catalog, and modern developer experiences for building rich data intelligence solutions Oracle CloudWorld — Oracle today announced its plans to deliver Oracle Intelligen...
10.09.2024	Как с нуля построить систему обработки событий	Сегодня Александр Шувалов и Юлиян Латыпов поделятся с вами опытом создания системы обработки событий в потоке данных для обогащения информации и выявления аномалий. Если вы ранее не были знакомы с приведенными ниже терминами, рекомендуем пр...
03.09.2024	Big Data в моде: как мы внедрили 1-to-1 персонализацию в каталоге и поиске	Привет, Хабр! Это Сергей Евстафьев и Дана Злочевская из команды ранжирования и поиска Lamoda Tech. Наша задача — помочь пользователю найти то, что ему нужно, и не потеряться в море доступных вариантов. В каталоге Lamoda в наличии более полу...
02.09.2024	Spark Essentials: Руководство по настройке и запуску проектов Spark с помощью Scala и sbt	Введение В этой статье представлено подробное руководство по инициализации проекта Spark с помощью Scala Build Tool (SBT). Это руководство охватывает все этапы процесса, включая создание проектов, управление зависимостями, локальное тестиро...
31.08.2024	Streaming 101 (Основы потоковой обработки)	Три женщины бредут по ручью, собирая пиявок. (источник: Wellcome Library, London) Обработка потоковых данных стала крайне важна в настоящее время. И на это есть веские причины, такие как: Компании жаждут получать данный как можно быстрее, и...
22.08.2024	The Power of "Grok" Series: Simplifying Complex Concepts in Tech	In the vast ocean of technology literature, the "Grok" series from Piter Publishing stands out like a lighthouse. It illuminates the often murky waters of complex subjects such as algorithms, machine learning, and programming. Wit...
21.08.2024	Серия книг “Грокаем” от издательства “Питер”	Привет, Хаброжители! Сегодня вышла новая книга “Грокаем алгоритмы. 2-е издание”, в связи с чем мы решили рассказать о всей серии “Грокаем”. А заодно подарить скидку! Чем хороши “Грокаем”? Каждая книга яркая и оставляющая след. Важная особен...
21.08.2024	Оптимизируем Shuffle в Spark	Привет, Хабр! Меня зовут Сергей Смирнов, я аналитик в продукте CVM в X5 Tech. Я занимаюсь разработкой инструмента анализа A/B экспериментов. Мы ежедневно считаем десятки метрик для сотен экспериментов на десятки миллионов клиентов – это тер...
19.08.2024	Navigating the Data Landscape: Innovations in Data Lineage and Observability	In the world of data, clarity is key. As organizations grapple with vast amounts of information, understanding the flow of data becomes crucial. Data lineage and observability are two concepts that have emerged as essential tools in this qu...
19.08.2024	Как упростить работу с большими данными — поделимся опытом на вебинаре 27 августа	Чтобы упростить и оптимизировать работу с большими данными, все больше компаний используют облачные PaaS-решения — они помогают облегчить работу с big data и получать готовые сервисы буквально за пару кликов. С чем еще связана популярность ...
17.08.2024	Data Lineage из топора	Статья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет ли, и если будет, то когда) — а посмотр...
17.08.2024	Definity: Data Application Observability And Remediation Platform Raises $4.5 Million	definity announced the general availability of its pioneering Data Application Observability & Remediation platform for Spark data analytics environments, marking a significant advancement in data operations. And the company is also ann...
13.08.2024	The Rise of the Sixth Data Platform: A New Era in Data Management	In the fast-paced world of technology, data is the new oil. It fuels decisions, drives innovation, and shapes industries. As we stand on the brink of a new era, the concept of the "sixth data platform" emerges as a beacon of hope ...
09.08.2024	Шестая платформа данных: новое слово в хранении и обработке данных	Скорее всего, в ближайшие 3–5 лет появятся новые интеллектуальные приложения для работы с данными, и для них понадобится новый тип современной платформы. Мы называем ее «шестая платформа данных». Раньше описывали эту концепцию при помощи ме...
09.08.2024	Financial Data Analysts: Making Sense of Big Data in FinTech	Share Tweet Share Share Email Financial technology, or FinTech, data is the new gold. Companies are increasingly relying on vast amounts of data to make informed decisions, drive innovation, and maintain a competitive edge. This influx of d...
08.08.2024	Datadog Announces Second Quarter 2024 Financial Results	Second quarter revenue grew 27% year-over-year to $645 million Strong growth of larger customers, with about 3,390 $100k+ ARR customers, up from about 2,990 a year ago Announced general availability of LLM Observability Announced innovation...
07.08.2024	Почему «утекают» данные в больших языковых моделях. Часть 3	Добрый день, уважаемые читатели. Это третья часть статьи, посвящённой «утечке» конфиденциальных данных на примере больших языковых моделей, реализуемой посредством кибератак. В первых двух частях (раз и два) мы рассмотрели возможные причины...
07.08.2024	Comment \| A Comprehensive Guide to LLM Creation	Large Language Models (LLMs) are rapidly transforming how we interact with technology and are shaping the future of the global economy. Research from McKinsey has found that generative AI features, which underpin LLMs, stand to add up to $4...
03.08.2024	Navigating the Open Data Revolution: The Rise of the Lakehouse Architecture	In the vast ocean of data, organizations are navigating treacherous waters. The emergence of open data stacks is reshaping the landscape, offering a lifeboat against the storm of vendor lock-in. This transformation is not just a trend; it’s...
02.08.2024	The Rise of GenAI: Transforming Startups and Industries in India	In the bustling world of technology, a new wave is crashing ashore. Generative AI, or GenAI, is not just a buzzword; it’s a force reshaping the landscape of startups and industries. The recent Tech Horizon event in Delhi, organized by Inc42...
02.08.2024	Analysts foresee changes ahead as database vendors navigate shifting landscape in compute engines for AI Selecting the right compute engines for enterprise use Shifting landscape for governance layer ...	Data applications are now being built on different platforms for different use cases, and artificial intelligence is one of the key drivers behind which compute engines for AI an enterprise may want to use. Databricks Inc. and Snowflake Inc...
02.08.2024	The essential role of an open data stack in building an open lakehouse [Q&A]	There is a movement underway to bring about a set of intelligent data apps that will require a new type of modern data platform to support them. TheCube Research identifies this as the 'Sixth Data Platform' -- an open, multi-vendor, modular...
01.08.2024	Google Cloud announces new data innovations to support AI applications Google’s Data Cloud brings more AI and data capabilities to customers Your vote of support is important to us and it helps us kee...	Google LLC’s cloud division is rolling out new database and data cloud innovations to support customers building and scaling artificial intelligence applications to ensure that they are grounded in accurate and relevant enterprise informati...
25.07.2024	The Voice of Trust: Navigating the Digital Landscape of AI Assistants	** In the age of technology, trust is a fragile thread. It weaves through our interactions with devices that listen, learn, and respond. Voice assistants like Yandex's "Alice" are at the forefront of this evolution. They promise c...
24.07.2024	Как установить Apache Spark за 10 минут	Пререквизиты: MacOs 1. Открыть Terminal 2. Install Homebrew Выполнить команду: /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" Как итог после установки необходимо выполнить две коман...
19.07.2024	Как вырастить динозавра: масштабирование платформы YTsaurus от 200 до 20 000 хостов. Доклад Яндекса	Привет! Меня зовут Паша Сушин. Уже больше десяти лет я занимаюсь в Яндексе развитием платформы YTsaurus — нашего внутреннего инструмента, который в марте 2023 года вышел в опенсорс и теперь доступен всем на GitHub по лицензии Apache 2.0. Се...
15.07.2024	Вопросы по Apache Spark к собеседованиям для Data Engineer	Spark можно определить как вычислительный движок с открытым исходным кодом, функциональный подход к параллельной обработке данных на компьютерных кластерах, а также как набор библиотек и выполняемых файлов. или как фреймворк для распределён...
15.07.2024	Как Notion проектировал свой data lake, чтобы успевать за быстрым ростом	За последние три года размер данных Notion увеличился в 10 раз из‑за роста количества пользователей и объёмов контента, с которым они работают. Удвоение этого показателя происходило каждые 6–12 месяцев. Нам нужно было справиться со стремите...
28.06.2024	Как упаковать бэкенд-код на Go для аналитики на базе Spark	Всем привет! Меня зовут Ваня Ахлестин, я занимаюсь поддержкой и развитием аналитической платформы кластера Search&Recommendations на базе Spark и Hadoop. Большинство сервисов в хайлоаде, работу которых мы логируем и исследуем, давно пер...
25.06.2024	Почему Starburst Icehouse подходит не всем	Недавно CEO Starburst опубликовал манифест о будущем открытого озера данных. В манифесте он говорит об Icehouse, архитектуре озера данных нового поколения на базе Trino и Iceberg. Глядя на нее, многие разработчики недоумевали: «А чем она от...
21.06.2024	Как эволюционировала платформа управления данными в Яндекс Go. Доклад Яндекса	С 2017 года мы строим и постоянно адаптируем к меняющимся требованиям и внешним факторам платформу управления данными. Для нас это инфраструктура, которая живёт и переиспользуется внутри разных сервисов, которые входят в Яндекс Go: Такси, Е...
20.06.2024	Нужна ли нам Lakehouse архитектура?	Когда озер и хранилищ данных недостаточно. Изображение создано автором.Введение Впервые я услышал термин "Lakehouse" в 2019 году, когда пролистывал документ Dremio. Будучи по своей натуре консервативным человеком, я предположил, ч...
13.06.2024	Автопереобучение моделей в Production	Модели машинного обучения становятся критически важными для бизнеса, помогая оптимизировать процессы и принимать более обоснованные решения. Однако их актуальность и точность могут быстро снижаться из-за изменения данных. Автоматическое пер...
13.06.2024	Соединяя лучшее из двух миров: как мы построили мост между Spark и Greenplum в ITSumma	В этой статье ведущий администратор баз данных ITSumma Алексей Пономаревский расскажет о том, как мы интегрировали популярный фреймворк для распределенной обработки данных Apache Spark с мощной массивно-параллельной базой данных Greenplum. ...
12.06.2024	Databricks open-sources Unity Catalog, challenging Snowflake on interoperability for data workloads	It's time to celebrate the incredible women leading the way in AI! Nominate your inspiring leaders for VentureBeat’s Women in AI Awards today before June 18. Learn More Today, Databricks kicked off its annual Data and AI summit with a long-...
12.06.2024	Introducing Shutterstock ImageAI, Powered by Databricks: An Image Generation Model Built for the Enterprise	New text-to-image diffusion model enables organizations to generate high-fidelity, trusted images SAN FRANCISCO and NEW YORK, June 12, 2024 /PRNewswire/ -- Databricks, the Data and AI company, and Shutterstock, Inc., a leading global creati...
12.06.2024	Introducing Databricks AI/BI: Intelligent Analytics for Real-World Data	SAN FRANCISCO, June 12, 2024 /PRNewswire/ -- Databricks, the Data and AI company, today announced the launch of Databricks AI/BI, a new type of business intelligence (BI) product that aims to democratize analytics and insights for anyone in...
05.06.2024	Databricks Agrees to Acquire Tabular, the Company Founded by the Original Creators of Apache Iceberg	Databricks and Tabular will work together towards a joint vision of the open lakehouse SAN FRANCISCO, June 5, 2024 /PRNewswire/ -- Databricks, the Data and AI company, today announced it has agreed to acquire Tabular, a data management comp...
04.06.2024	Snowflake Data Cloud Summit 2024: The biggest developments announced	Transform 2024 returns this July! Over 400 enterprise leaders will gather in San Francisco from July 9-11 to dive into the advancement of GenAI strategies and engaging in thought-provoking discussions within the community. Find out how you ...
04.06.2024	[Туториал] Пишем собственные Spark Native Functions (Часть 2)	В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1), которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример, как написать свою Spark Native Function ...
28.05.2024	Интеграция PostgreSQL и Hadoop	Привет, Хабр! Представим некое перепутье, где с одной стороны — мощные возможности PostgreSQL, а с другой — необъятные просторы Hadoop. Выбор кажется сложным, но зачем выбирать одно, если можно соединить их и получить лучшее из обоих? Объед...
27.05.2024	Быстрая Data Quality проверка на базе алгоритма adversarial validation	Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user...
24.05.2024	Миграция Big Data на практике: как мы готовили напильники	Всем привет, меня зовут Алексей Марьин, я IT-лидер стрима «Озеро данных» в ВТБ. До 2019 года мы активно и вполне успешно использовали для анализа и обработки больших данных продукт Oracle Big Data Appliance с Cloudera Hadoop Distribution вн...
21.05.2024	Uber перенесла базу данных c 1 трлн записей из DynamoDB в LedgerStore	Uber перенесла все свои данные о платёжных транзакциях из DynamoDB и хранилища BLOB-объектов в новое долгосрочное решение — LedgerStore. Компания стремится сократить расходы на $6 млн ежегодно. Двухфазная фиксация записи для строго согласов...
07.05.2024	Рулим запуском Spark-приложений в Airflow с помощью самописного оператора	Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все Spark-приложения сабмитятся из Docker-конте...
25.04.2024	Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы	В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NIFI, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства. С...
25.04.2024	Как настроить ETL с json’ами в Apache NiFi	Привет, Хабр! Меня зовут Сергей Евсеев, сегодня я расскажу, как в Apache NiFi настраивается ETL-пайплайн на задаче с JSON’ами. В этом мне помогут инструменты Jolt и Avro. Пост пригодится новичкам и тем, кто выбирает инструмент для решения с...
24.04.2024	Эволюция обработки данных: от MapReduce к стриминговому движку	Падение latency-запросов, влезающих в память, после включения движка на 100% пользователей Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это од...
24.04.2024	[Перевод] Почему стоит начать писать собственные Spark Native Functions?	Это мой вольный перевод статьи "Why You Should Start Writing Spark Custom Native Functions", которая вдохновила меня на некоторые собстенные изыскания по данной теме. Их результат я планирую опубликовать позже, а пока выношу на ва...
17.04.2024	Разбираемся с Apache Spark	В сегодняшней статье мы начнем знакомиться с универсальной и высокопроизводительной кластерной вычислительной платформой Apache Spark, научимся разворачивать данное решение и выполнять простейшие программы. При обработке больших объемов дан...
17.04.2024	SPARK для «малышей»	Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»). В прошлой статье мы рассмотрели пример создания Spark-сессий, здесь поговорим о возможностях и функция Spark для обработки данных. И теперь я смо...
15.04.2024	Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata	Привет, Хабр! Мы в билайне любим машинное обучение. В какой-то момент моделей машинного обучения стало так много, что это вынудило нас решать определенные задачи. Я Дмитрий Ермилов, руковожу ML в дирекции по искусственному интеллекту и цифр...
15.04.2024	Перенести проверенную схему бэкапа больших данных из S3 в Yandex Cloud: опыт Битрикс24	Меня зовут Александр, я руковожу направлением больших данных в Битрикс24. Клиенты нашего сервиса хранят миллиарды файлов: от документов до фотографий, — а моя команда предоставляет возможность строить бизнес‑аналитику на основе этого множес...
04.04.2024	Как перезапускать PySpark-приложение и зачем это может понадобиться	Сегодня все крупные компании сохраняют и обрабатывают большие объёмы информации, причём стремятся делать это максимально эффективным для бизнеса способом. Меня зовут Мазаев Роман и я работаю в проекте загрузки данных на платформу SberData. ...
03.04.2024	3 способа запуска Spark в Kubernetes из Airflow	Приветствую, после того, как я научился запускать spark-submit с мастером в Kubernetes и даже получил ожидаемый результат, пришло время ставить мою задачу на расписание в Airflow. И тут встал вопрос, как это правильно делать. Во всемирной п...
27.03.2024	Databricks, cu doi IT-iști de origine română printre fondatori, investește 10 milioane dolari într-un model de inteligență artificială	Compania americană Databricks, cu doi IT-iști de origine română printre fondatori, anunță modelul de inteligență artificială generativă DBRX, în care s-au investit 10 milioane dolari și 8 luni de antrenare. Compania are în prezent peste 6.0...
22.03.2024	Raptoreum partners with MongoDB’s Startup Accelerator program to further development aspirations	MongoDB Raptoreum Startup Accelerator Partnership Raptoreum partners with MongoDB’s Startup Accelerator program to further development aspirations Raptoreum (CET:RTM)LONDON, UK, March 22, 2024 /EINPresswire.com/ -- Who are Raptoreum? Raptor...
21.03.2024	Что такое MLOps и как мы внедряли каскады моделей	Привет, меня зовут Александр Егоров, я MLOps инженер. В статье расскажу о том, как мы в банке выкатываем огромное количество моделей. Разберем не только пайплайн по выкладке отдельных моделей, но и целые каскады.Как появляется потребность в...
19.03.2024	Databricks and NVIDIA Deepen Collaboration to Accelerate Data and AI Workloads with the Data Intelligence Platform	SAN FRANCISCO, March 19, 2024 /PRNewswire/ -- Databricks, the Data and AI company, today announced an expanded collaboration and commitment to deeper technical integrations with NVIDIA during the company's flagship GTC 2024 conference. Toge...
13.03.2024	Новое электричество, новая нефть, или Как эффективно управлять разрозненными данными	Изображение — Shubham Dhage — Unsplash.com Последние 10 лет о данных говорят, что это новое электричество, новая нефть, из которых можно извлекать выгоду для компании. Но не все умеют это делать. Если данные просто лежат в старой Oracle Exa...
12.03.2024	PostgreSQL and Databricks founders join forces for DBOS to create a new type of operating system	Join leaders in Boston on March 27 for an exclusive night of networking, insights, and conversation. Request an invite here. Is it time for a new type of operating system? The founders of DBOS think so. Back in 1986, Michael Stonebraker sta...
07.02.2024	Чего ждать от SIEM-систем на горизонте нескольких лет	Свою первую SIEM-систему я внедрял в 1998-м или 1999-м году (сам термин Gartner ввел только в 2005 году), и тогда от этого класса продуктов ожидать многого было сложно: они собирали события безопасности от систем обнаружения вторжения и ска...
07.02.2024	Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров	Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги. В...
02.01.2024	Выборочное удаление столбцов для повышения эффективности хранения в озерах данных	Введение По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными...
30.11.2023	Exclusive: Voltron Data brings new power to AI with Theseus distributed query engine	Are you ready to bring more awareness to your brand? Consider becoming a sponsor for The AI Impact Tour. Learn more about the opportunities here. The fictional Voltron robot (from the animated science fiction show of the same name) is all a...
29.11.2023	Apache Spark… Это база	Spark можно определить как вычислительный движок с открытым исходным кодом, функциональный подход к параллельной обработке данных на компьютерных кластерах, а также как набор библиотек и выполняемых файлов. Apache Spark is a unified computi...
17.11.2023	Top Big Data Tools for Java Developers in 2023	In the modern era of data-driven decision-making, the abundance of data generated every day has necessitated the development of robust tools for processing, analyzing and deriving insights from these massive datasets. Java developers, with ...
31.10.2023	Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark	Публикуем перевод гайда по Spark UI. Это встроенный инструмент Apache Spark, который предоставляет полный обзор среды Spark: узлов, исполнителей, свойств и параметров среды, выполняемых заданий, планов запросов и многого другого. Кроме теор...
19.10.2023	Обработка больших данных при помощи библиотеки .NET for Apache Spark	Привет Хабр! Сегодня с вами Станевич Антон, участник профессионального сообщества NTA и ваш проводник в мир .NET for Apache Spark. В наше время остро стоит вопрос обработки больших данных, за все годы развития компьютерной инфраструктуры бы...
16.10.2023	Потоковая обработка данных: анализ альтернативных решений	Всем привет! Я Алексей Понаморевский, разработчик решений для платформ сбора и обработки больших данных. Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-green...
06.10.2023	Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI	Привет! Меня зовут Александр Ледовский, я тимлид команды аналитики и DS в Авито. Нередко я вижу ситуацию, когда аналитик работает над задачей и упирается в проблему производительности. Причём она всплывает там, где не ждали. В итоге задачи ...
04.10.2023	Feature engineering и кластерный анализ клиентов на PySpark	Привет, Хабр! Сегодня с вами Смолюк Анастасия и Путилова Елена, участники профессионального сообщества NTA. Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализирова...
24.08.2023	Неструктурированные данные: примеры, инструменты, методики и рекомендации	В современном построенном на данных мире организации накапливают огромные объёмы информации, позволяющие принимать важные решения и выводы. Целых 80% от этой цифровой сокровищницы представляют собой неструктурированные данные, в которых отс...
24.08.2023	Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером	Привет, Хабр! Сегодня рассказываем, чем отличаются подходы к построению распределённых хранилищ данных Data Warehouse (DWH) и Data Lake и в чём специфика задач специалистов, работающих с данными. Этот материал — переработанная версия вебина...
15.08.2023	Обработка больших и очень больших графов: Pregel	Обработка больших и очень больших графов: Введение PregelDISCLAIMER Статья преследует цель реализации алгоритмов обработки графов на Apache Spark, которые в силу своего большого размера невозможно обработать классическими алгоритмами на одн...
11.08.2023	Обработка больших и очень больших графов	TLDR Статья является вводной из цикла статей, посвященных обработке больших и очень больших графов. Приведен обзор основных фреймворков для обработки графов: Pregel, GraphLab и PowerGraph. Описываются способы разбиения графов на части для п...
30.06.2023	Prompt-инженер как новый тренд. Требования и зарплаты у специалистов	Технологические компании со всего мира ищут квалифицированных и эффективных инженеров, которые бы облегчили общение с машиной и составление инструкций. Екатерина Саяпина, Product Owner личного кабинета платформы МТС Exolve, созданной компан...
20.06.2023	Зачем Data-инженеру Spark	Привет, Хабр, меня зовут Дима. В последние пару лет занимаюсь аналитикой, отвечаю за данные в Почте Mail.ru. Развиваю аналитическое хранилище данных и инструменты для работы с ними. Мы плотно работаем со стеком Hadoop, Hive, Spark, Clickhou...
09.06.2023	PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив	Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, строю рекламные аукционы в Авито. В работе мы активно используем Apache Spark. Одна из типовых задач аналитика — посчитать что-то на pySpark, а потом выгрузить это. На...
03.06.2023	Масштабируемая Big Data система в Kubernetes с использованием Spark и Cassandra	В предыдущей статье я рассказал, как организовать систему распределенного машинного обучения на GPU NVidia, используя язык Java с фреймворками Spring, Spark ML, XGBoost, DML в standalone кластере Spark. Особенностью поставленной задачи явля...
31.05.2023	Best Developer Tools of 2023	As technology continues to advance at an unprecedented pace, software development has become more complex and demanding than ever before. In this dynamic landscape, developers rely on a wide array of tools and technologies to streamline the...
31.05.2023	Кластеризация текста в PySpark	Привет, Хабр! На связи участники профессионального сообщества NTA Кухтенко Андрей, Кравец Максим и Сиянов Артем.Навигация по посту Постановка задачи Создание сессии Spark и импорт необходимых модулей Предварительная обработка текста Кластер...
16.05.2023	HPE Ezmeral Software streamlines data, analytics and AI/ML initiatives	Join top executives in San Francisco on July 11-12, to hear how leaders are integrating and optimizing AI investments for success. Learn More Hewlett Packard Enterprise (HPE) is overhauling its Ezmeral software portfolio and simplifying dat...
04.05.2023	PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать	Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, мы строим рекламные аукционы в Авито. Для работы с поисковыми логами мы пользуемся Apache Spark. Я расскажу о моём опыте работы с ним и выделю то, что нужно знать. Эта...
26.04.2023	Databricks and Hugging Face integrate Apache Spark for faster AI model building	Join top executives in San Francisco on July 11-12, to hear how leaders are integrating and optimizing AI investments for success. Learn More Databricks and Hugging Face have collaborated to introduce a new feature that allows users to crea...
13.04.2023	“A really big deal”—Dolly is a free, open source, ChatGPT-style AI model	Enlarge Databricks reader comments 81 with Share this story Share on Facebook Share on Twitter Share on Reddit On Wednesday, Databricks released Dolly 2.0, reportedly the first open source, instruction-following large language model (LLM) f...
07.04.2023	Наиболее распространённые мифы о Scala: сеанс с разоблачением	В этом посте развенчивается ряд очень существенных мифов о языке Scala, которые, как нам известно, циркулируют в блогосфере. Для каждого развенчанного мифа мы представим альтернативную точку зрения, подкреплённую данными из надёжных источни...
08.02.2023	Библиотека ML Tuning: как подобрать гиперпараметры модели GBTRegressor в PySpark	Привет, Хабр! Меня зовут Никита Морозов, я Data Scientist в Сбере. Сегодня поговорим о том, как при помощи библиотеки ML Tuning осуществить подбор гиперпараметров модели GBTRegressor в PySpark. Зачем всё это нужно? Дело в том, что они испол...
31.01.2023	Czech Data SaaS Keboola Gets USD 4.5M from Local Investors to Grow Globally	Prague-based data management platform Keboola brought in USD 4.5M in Seed round The platform is a one-stop shop that provides the convenience of an iPhone for data pipelines The startup will use the new investment to accelerate its internat...
29.12.2022	Pyspark. Анализ больших данных, когда Pandas не достаточно	Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать р...
07.12.2022	Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base table	Автор статьи: Вадим Опольский Luxoft DXC Technology, Scala Big Data разработчик В прошлой статье мы рассмотрели количество партиций, которое по умолчанию создается Apache Spark при инициализации DataFrame, DataSet: созданных на основе Scala...

Apache Spark™

Mentions in press and media 196

Reviews 0