Date | Title | Description |
18.09.2024 | The Rise of Open Source in Russia: A New Era for Machine Learning and Data Analysis | In the vast landscape of technology, open source is a beacon of collaboration. It invites innovation and democratizes access to tools that drive progress. Recently, a study by ITMO University has shed light on the state of open source in Ru... |
17.09.2024 | ИТМО провёл исследование open source в сферах машинного обучения и анализа данных | Специалисты центра «Сильный ИИ в промышленности» при ИТМО опубликовали результаты исследования особенностей и направления развития опенсорс-сообщества в сфере машинного обучения и анализа данных в России. В лидерах российского опенсорса ока... |
13.09.2024 | Как мы генерируем GPT-нейросетями миллиарды объявлений на малом количестве GPU. Доклад Яндекса | Привет! Меня зовут Ольга Зайкова, в Яндексе я руковожу группой автоматической генерации рекламы. Сегодня расскажу о соединении тяжёлых процессингов и GPU‑вычислений. Обсудим, как мы реализовали высоконагруженный процессинг, который обрабаты... |
13.09.2024 | Кто такой и чем занимается дата-инженер | Хабр, привет! Меня зовут Саша Сайков, я дата-инженер в PepsiCo и старший ревьюер на курсах «Инженер данных» и «Инженер машинного обучения» в Яндекс Практикуме. Я хочу рассказать, чем занимаются дата-инженеры, в каких компаниях мы работаем и... |
11.09.2024 | Oracle unveils Intelligent Data Lake to boost data management | Oracle has announced its plans to introduce Oracle Intelligent Data Lake as a new feature of the Oracle Data Intelligence Platform. This addition aims to simplify the use of data from diverse sources through a unified experience, incorporat... |
11.09.2024 | “Selvakumar Venkatasubbu: Celebrating IEEE Senior Member Elevation and Cloud Engineering Excellence” | Share
Tweet
Share
Share
Email
“Cloud technology is not just about infrastructure and scalability, it about enabling innovation that revolutionizes industries. My passion is to create solutions that not only meet today’s demands but also set... |
10.09.2024 | The Future of Data and AI: Oracle's Intelligent Data Lake and Mobilint's AI Chips | In the fast-paced world of technology, data is the new oil. It fuels decisions, drives innovation, and shapes the future. Two recent announcements from Oracle and Mobilint highlight this truth, showcasing advancements that promise to reshap... |
10.09.2024 | The Data Revolution: Oracle and GrooperAI Lead the Charge in Intelligent Automation | In the fast-paced world of technology, data is the new oil. Companies are digging deep to extract value from their data reservoirs. Two recent announcements highlight this trend: Oracle's Intelligent Data Lake and GrooperAI's advancements i... |
10.09.2024 | Navigating the Data Stream: Building an Event Processing System from Scratch | In the age of Big Data, the ability to process and analyze vast streams of information is crucial. Companies are inundated with data from various sources, and the challenge lies in transforming this data into actionable insights. This artic... |
10.09.2024 | Oracle Introduces Intelligent Data Lake and Generative AI-Powered Analytics for Oracle Data Intelligence Platform | Oracle Intelligent Data Lake will include open data formats, a unified catalog, and modern developer experiences for building rich data intelligence solutions
Oracle CloudWorld — Oracle today announced its plans to deliver Oracle Intelligen... |
10.09.2024 | Как с нуля построить систему обработки событий | Сегодня Александр Шувалов и Юлиян Латыпов поделятся с вами опытом создания системы обработки событий в потоке данных для обогащения информации и выявления аномалий.
Если вы ранее не были знакомы с приведенными ниже терминами, рекомендуем пр... |
03.09.2024 | Big Data в моде: как мы внедрили 1-to-1 персонализацию в каталоге и поиске | Привет, Хабр! Это Сергей Евстафьев и Дана Злочевская из команды ранжирования и поиска Lamoda Tech. Наша задача — помочь пользователю найти то, что ему нужно, и не потеряться в море доступных вариантов.
В каталоге Lamoda в наличии более полу... |
02.09.2024 | Spark Essentials: Руководство по настройке и запуску проектов Spark с помощью Scala и sbt | Введение
В этой статье представлено подробное руководство по инициализации проекта Spark с помощью Scala Build Tool (SBT). Это руководство охватывает все этапы процесса, включая создание проектов, управление зависимостями, локальное тестиро... |
31.08.2024 | Streaming 101 (Основы потоковой обработки) | Три женщины бредут по ручью, собирая пиявок. (источник: Wellcome Library, London)
Обработка потоковых данных стала крайне важна в настоящее время. И на это есть веские причины, такие как:
Компании жаждут получать данный как можно быстрее, и... |
22.08.2024 | The Power of "Grok" Series: Simplifying Complex Concepts in Tech | In the vast ocean of technology literature, the "Grok" series from Piter Publishing stands out like a lighthouse. It illuminates the often murky waters of complex subjects such as algorithms, machine learning, and programming. Wit... |
21.08.2024 | Серия книг “Грокаем” от издательства “Питер” | Привет, Хаброжители!
Сегодня вышла новая книга “Грокаем алгоритмы. 2-е издание”, в связи с чем мы решили рассказать о всей серии “Грокаем”.
А заодно подарить скидку!
Чем хороши “Грокаем”? Каждая книга яркая и оставляющая след. Важная особен... |
21.08.2024 | Оптимизируем Shuffle в Spark | Привет, Хабр!
Меня зовут Сергей Смирнов, я аналитик в продукте CVM в X5 Tech. Я занимаюсь разработкой инструмента анализа A/B экспериментов. Мы ежедневно считаем десятки метрик для сотен экспериментов на десятки миллионов клиентов – это тер... |
19.08.2024 | Navigating the Data Landscape: Innovations in Data Lineage and Observability | In the world of data, clarity is key. As organizations grapple with vast amounts of information, understanding the flow of data becomes crucial. Data lineage and observability are two concepts that have emerged as essential tools in this qu... |
19.08.2024 | Как упростить работу с большими данными — поделимся опытом на вебинаре 27 августа | Чтобы упростить и оптимизировать работу с большими данными, все больше компаний используют облачные PaaS-решения — они помогают облегчить работу с big data и получать готовые сервисы буквально за пару кликов. С чем еще связана популярность ... |
17.08.2024 | Data Lineage из топора | Статья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет ли, и если будет, то когда) — а посмотр... |
17.08.2024 | Definity: Data Application Observability And Remediation Platform Raises $4.5 Million | definity announced the general availability of its pioneering Data Application Observability & Remediation platform for Spark data analytics environments, marking a significant advancement in data operations. And the company is also ann... |
13.08.2024 | The Rise of the Sixth Data Platform: A New Era in Data Management | In the fast-paced world of technology, data is the new oil. It fuels decisions, drives innovation, and shapes industries. As we stand on the brink of a new era, the concept of the "sixth data platform" emerges as a beacon of hope ... |
09.08.2024 | Шестая платформа данных: новое слово в хранении и обработке данных | Скорее всего, в ближайшие 3–5 лет появятся новые интеллектуальные приложения для работы с данными, и для них понадобится новый тип современной платформы. Мы называем ее «шестая платформа данных».
Раньше описывали эту концепцию при помощи ме... |
09.08.2024 | Financial Data Analysts: Making Sense of Big Data in FinTech | Share
Tweet
Share
Share
Email
Financial technology, or FinTech, data is the new gold. Companies are increasingly relying on vast amounts of data to make informed decisions, drive innovation, and maintain a competitive edge. This influx of d... |
08.08.2024 | Datadog Announces Second Quarter 2024 Financial Results | Second quarter revenue grew 27% year-over-year to $645 million
Strong growth of larger customers, with about 3,390 $100k+ ARR customers, up from about 2,990 a year ago
Announced general availability of LLM Observability
Announced innovation... |
07.08.2024 | Почему «утекают» данные в больших языковых моделях. Часть 3 | Добрый день, уважаемые читатели. Это третья часть статьи, посвящённой «утечке» конфиденциальных данных на примере больших языковых моделей, реализуемой посредством кибератак. В первых двух частях (раз и два) мы рассмотрели возможные причины... |
07.08.2024 | Comment | A Comprehensive Guide to LLM Creation | Large Language Models (LLMs) are rapidly transforming how we interact with technology and are shaping the future of the global economy.
Research from McKinsey has found that generative AI features, which underpin LLMs, stand to add up to $4... |
03.08.2024 | Navigating the Open Data Revolution: The Rise of the Lakehouse Architecture | In the vast ocean of data, organizations are navigating treacherous waters. The emergence of open data stacks is reshaping the landscape, offering a lifeboat against the storm of vendor lock-in. This transformation is not just a trend; it’s... |
02.08.2024 | The Rise of GenAI: Transforming Startups and Industries in India | In the bustling world of technology, a new wave is crashing ashore. Generative AI, or GenAI, is not just a buzzword; it’s a force reshaping the landscape of startups and industries. The recent Tech Horizon event in Delhi, organized by Inc42... |
02.08.2024 | Analysts foresee changes ahead as database vendors navigate shifting landscape in compute engines for AI
Selecting the right compute engines for enterprise use
Shifting landscape for governance layer
... | Data applications are now being built on different platforms for different use cases, and artificial intelligence is one of the key drivers behind which compute engines for AI an enterprise may want to use.
Databricks Inc. and Snowflake Inc... |
02.08.2024 | The essential role of an open data stack in building an open lakehouse [Q&A] | There is a movement underway to bring about a set of intelligent data apps that will require a new type of modern data platform to support them. TheCube Research identifies this as the 'Sixth Data Platform' -- an open, multi-vendor, modular... |
01.08.2024 | Google Cloud announces new data innovations to support AI applications
Google’s Data Cloud brings more AI and data capabilities to customers
Your vote of support is important to us and it helps us kee... | Google LLC’s cloud division is rolling out new database and data cloud innovations to support customers building and scaling artificial intelligence applications to ensure that they are grounded in accurate and relevant enterprise informati... |
25.07.2024 | The Voice of Trust: Navigating the Digital Landscape of AI Assistants**
** | ** In the age of technology, trust is a fragile thread. It weaves through our interactions with devices that listen, learn, and respond. Voice assistants like Yandex's "Alice" are at the forefront of this evolution. They promise c... |
24.07.2024 | Как установить Apache Spark за 10 минут | Пререквизиты: MacOs
1. Открыть Terminal
2. Install Homebrew
Выполнить команду:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Как итог после установки необходимо выполнить две коман... |
19.07.2024 | Как вырастить динозавра: масштабирование платформы YTsaurus от 200 до 20 000 хостов. Доклад Яндекса | Привет! Меня зовут Паша Сушин. Уже больше десяти лет я занимаюсь в Яндексе развитием платформы YTsaurus — нашего внутреннего инструмента, который в марте 2023 года вышел в опенсорс и теперь доступен всем на GitHub по лицензии Apache 2.0.
Се... |
15.07.2024 | Вопросы по Apache Spark к собеседованиям для Data Engineer | Spark можно определить как вычислительный движок с открытым исходным кодом, функциональный подход к параллельной обработке данных на компьютерных кластерах, а также как набор библиотек и выполняемых файлов.
или как фреймворк для распределён... |
15.07.2024 | Как Notion проектировал свой data lake, чтобы успевать за быстрым ростом | За последние три года размер данных Notion увеличился в 10 раз из‑за роста количества пользователей и объёмов контента, с которым они работают. Удвоение этого показателя происходило каждые 6–12 месяцев. Нам нужно было справиться со стремите... |
28.06.2024 | Как упаковать бэкенд-код на Go для аналитики на базе Spark | Всем привет! Меня зовут Ваня Ахлестин, я занимаюсь поддержкой и развитием аналитической платформы кластера Search&Recommendations на базе Spark и Hadoop.
Большинство сервисов в хайлоаде, работу которых мы логируем и исследуем, давно пер... |
25.06.2024 | Почему Starburst Icehouse подходит не всем | Недавно CEO Starburst опубликовал манифест о будущем открытого озера данных. В манифесте он говорит об Icehouse, архитектуре озера данных нового поколения на базе Trino и Iceberg. Глядя на нее, многие разработчики недоумевали: «А чем она от... |
21.06.2024 | Как эволюционировала платформа управления данными в Яндекс Go. Доклад Яндекса | С 2017 года мы строим и постоянно адаптируем к меняющимся требованиям и внешним факторам платформу управления данными. Для нас это инфраструктура, которая живёт и переиспользуется внутри разных сервисов, которые входят в Яндекс Go: Такси, Е... |
20.06.2024 | Нужна ли нам Lakehouse архитектура? | Когда озер и хранилищ данных недостаточно.
Изображение создано автором.Введение
Впервые я услышал термин "Lakehouse" в 2019 году, когда пролистывал документ Dremio. Будучи по своей натуре консервативным человеком, я предположил, ч... |
13.06.2024 | Автопереобучение моделей в Production | Модели машинного обучения становятся критически важными для бизнеса, помогая оптимизировать процессы и принимать более обоснованные решения. Однако их актуальность и точность могут быстро снижаться из-за изменения данных. Автоматическое пер... |
13.06.2024 | Соединяя лучшее из двух миров: как мы построили мост между Spark и Greenplum в ITSumma | В этой статье ведущий администратор баз данных ITSumma Алексей Пономаревский расскажет о том, как мы интегрировали популярный фреймворк для распределенной обработки данных Apache Spark с мощной массивно-параллельной базой данных Greenplum.
... |
12.06.2024 | Databricks open-sources Unity Catalog, challenging Snowflake on interoperability for data workloads | It's time to celebrate the incredible women leading the way in AI! Nominate your inspiring leaders for VentureBeat’s Women in AI Awards today before June 18. Learn More
Today, Databricks kicked off its annual Data and AI summit with a long-... |
12.06.2024 | Introducing Shutterstock ImageAI, Powered by Databricks: An Image Generation Model Built for the Enterprise | New text-to-image diffusion model enables organizations to generate high-fidelity, trusted images
SAN FRANCISCO and NEW YORK, June 12, 2024 /PRNewswire/ -- Databricks, the Data and AI company, and Shutterstock, Inc., a leading global creati... |
12.06.2024 | Introducing Databricks AI/BI: Intelligent Analytics for Real-World Data | SAN FRANCISCO, June 12, 2024 /PRNewswire/ -- Databricks, the Data and AI company, today announced the launch of Databricks AI/BI, a new type of business intelligence (BI) product that aims to democratize analytics and insights for anyone in... |
05.06.2024 | Databricks Agrees to Acquire Tabular, the Company Founded by the Original Creators of Apache Iceberg | Databricks and Tabular will work together towards a joint vision of the open lakehouse
SAN FRANCISCO, June 5, 2024 /PRNewswire/ -- Databricks, the Data and AI company, today announced it has agreed to acquire Tabular, a data management comp... |
04.06.2024 | Snowflake Data Cloud Summit 2024: The biggest developments announced | Transform 2024 returns this July! Over 400 enterprise leaders will gather in San Francisco from July 9-11 to dive into the advancement of GenAI strategies and engaging in thought-provoking discussions within the community. Find out how you ... |
04.06.2024 | [Туториал] Пишем собственные Spark Native Functions (Часть 2) | В предыдущей своей статье Почему стоит начать писать собственные Spark Native Functions? (Часть 1), которая является переводом и которая вдохновила меня на собственные изыскания, был разобран пример, как написать свою Spark Native Function ... |
28.05.2024 | Интеграция PostgreSQL и Hadoop | Привет, Хабр!
Представим некое перепутье, где с одной стороны — мощные возможности PostgreSQL, а с другой — необъятные просторы Hadoop. Выбор кажется сложным, но зачем выбирать одно, если можно соединить их и получить лучшее из обоих?
Объед... |
27.05.2024 | Быстрая Data Quality проверка на базе алгоритма adversarial validation | Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user... |
24.05.2024 | Миграция Big Data на практике: как мы готовили напильники | Всем привет, меня зовут Алексей Марьин, я IT-лидер стрима «Озеро данных» в ВТБ. До 2019 года мы активно и вполне успешно использовали для анализа и обработки больших данных продукт Oracle Big Data Appliance с Cloudera Hadoop Distribution вн... |
21.05.2024 | Uber перенесла базу данных c 1 трлн записей из DynamoDB в LedgerStore | Uber перенесла все свои данные о платёжных транзакциях из DynamoDB и хранилища BLOB-объектов в новое долгосрочное решение — LedgerStore. Компания стремится сократить расходы на $6 млн ежегодно.
Двухфазная фиксация записи для строго согласов... |
07.05.2024 | Рулим запуском Spark-приложений в Airflow с помощью самописного оператора | Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями.
Все Spark-приложения сабмитятся из Docker-конте... |
25.04.2024 | Greenplum, NiFi и Airflow на страже импортозамещения: но есть нюансы | В статье описывается практическое применение популярных Open-Source технологий в области интеграции, хранения и обработки больших данных: Apache NIFI, Apache Airflow и Greenplum для проекта по аналитике учета вывоза отходов строительства.
С... |
25.04.2024 | Как настроить ETL с json’ами в Apache NiFi | Привет, Хабр! Меня зовут Сергей Евсеев, сегодня я расскажу, как в Apache NiFi настраивается ETL-пайплайн на задаче с JSON’ами. В этом мне помогут инструменты Jolt и Avro. Пост пригодится новичкам и тем, кто выбирает инструмент для решения с... |
24.04.2024 | Эволюция обработки данных: от MapReduce к стриминговому движку | Падение latency-запросов, влезающих в память, после включения движка на 100% пользователей
Yandex Query Language (YQL) — универсальный декларативный язык запросов к системам хранения и обработки данных, разработанный в Яндексе. А ещё это од... |
24.04.2024 | [Перевод] Почему стоит начать писать собственные Spark Native Functions? | Это мой вольный перевод статьи "Why You Should Start Writing Spark Custom Native Functions", которая вдохновила меня на некоторые собстенные изыскания по данной теме. Их результат я планирую опубликовать позже, а пока выношу на ва... |
17.04.2024 | Разбираемся с Apache Spark | В сегодняшней статье мы начнем знакомиться с универсальной и высокопроизводительной кластерной вычислительной платформой Apache Spark, научимся разворачивать данное решение и выполнять простейшие программы. При обработке больших объемов дан... |
17.04.2024 | SPARK для «малышей» | Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»).
В прошлой статье мы рассмотрели пример создания Spark-сессий, здесь поговорим о возможностях и функция Spark для обработки данных. И теперь я смо... |
15.04.2024 | Строим lineage моделей машинного обучения и признаков с помощью OpenMetadata | Привет, Хабр!
Мы в билайне любим машинное обучение. В какой-то момент моделей машинного обучения стало так много, что это вынудило нас решать определенные задачи. Я Дмитрий Ермилов, руковожу ML в дирекции по искусственному интеллекту и цифр... |
15.04.2024 | Перенести проверенную схему бэкапа больших данных из S3 в Yandex Cloud: опыт Битрикс24 | Меня зовут Александр, я руковожу направлением больших данных в Битрикс24. Клиенты нашего сервиса хранят миллиарды файлов: от документов до фотографий, — а моя команда предоставляет возможность строить бизнес‑аналитику на основе этого множес... |
04.04.2024 | Как перезапускать PySpark-приложение и зачем это может понадобиться | Сегодня все крупные компании сохраняют и обрабатывают большие объёмы информации, причём стремятся делать это максимально эффективным для бизнеса способом. Меня зовут Мазаев Роман и я работаю в проекте загрузки данных на платформу SberData. ... |
03.04.2024 | 3 способа запуска Spark в Kubernetes из Airflow | Приветствую, после того, как я научился запускать spark-submit с мастером в Kubernetes и даже получил ожидаемый результат, пришло время ставить мою задачу на расписание в Airflow. И тут встал вопрос, как это правильно делать. Во всемирной п... |
27.03.2024 | Databricks, cu doi IT-iști de origine română printre fondatori, investește 10 milioane dolari într-un model de inteligență artificială | Compania americană Databricks, cu doi IT-iști de origine română printre fondatori, anunță modelul de inteligență artificială generativă DBRX, în care s-au investit 10 milioane dolari și 8 luni de antrenare.
Compania are în prezent peste 6.0... |
22.03.2024 | Raptoreum partners with MongoDB’s Startup Accelerator program to further development aspirations | MongoDB Raptoreum Startup Accelerator Partnership
Raptoreum partners with MongoDB’s Startup Accelerator program to further development aspirations
Raptoreum (CET:RTM)LONDON, UK, March 22, 2024 /EINPresswire.com/ -- Who are Raptoreum?
Raptor... |
21.03.2024 | Что такое MLOps и как мы внедряли каскады моделей | Привет, меня зовут Александр Егоров, я MLOps инженер. В статье расскажу о том, как мы в банке выкатываем огромное количество моделей. Разберем не только пайплайн по выкладке отдельных моделей, но и целые каскады.Как появляется потребность в... |
19.03.2024 | Databricks and NVIDIA Deepen Collaboration to Accelerate Data and AI Workloads with the Data Intelligence Platform | SAN FRANCISCO, March 19, 2024 /PRNewswire/ -- Databricks, the Data and AI company, today announced an expanded collaboration and commitment to deeper technical integrations with NVIDIA during the company's flagship GTC 2024 conference. Toge... |
13.03.2024 | Новое электричество, новая нефть, или Как эффективно управлять разрозненными данными | Изображение — Shubham Dhage — Unsplash.com
Последние 10 лет о данных говорят, что это новое электричество, новая нефть, из которых можно извлекать выгоду для компании. Но не все умеют это делать. Если данные просто лежат в старой Oracle Exa... |
12.03.2024 | PostgreSQL and Databricks founders join forces for DBOS to create a new type of operating system | Join leaders in Boston on March 27 for an exclusive night of networking, insights, and conversation. Request an invite here.
Is it time for a new type of operating system? The founders of DBOS think so.
Back in 1986, Michael Stonebraker sta... |
07.02.2024 | Чего ждать от SIEM-систем на горизонте нескольких лет | Свою первую SIEM-систему я внедрял в 1998-м или 1999-м году (сам термин Gartner ввел только в 2005 году), и тогда от этого класса продуктов ожидать многого было сложно: они собирали события безопасности от систем обнаружения вторжения и ска... |
07.02.2024 | Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров | Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.
В... |
02.01.2024 | Выборочное удаление столбцов для повышения эффективности хранения в озерах данных | Введение
По мере роста Uber объем обрабатываемых данных и количество обращений к ним многократно возросли. Такое быстрое увеличение объема привело к росту затрат на хранение и вычислительные ресурсы. В результате мы столкнулись с различными... |
30.11.2023 | Exclusive: Voltron Data brings new power to AI with Theseus distributed query engine | Are you ready to bring more awareness to your brand? Consider becoming a sponsor for The AI Impact Tour. Learn more about the opportunities here.
The fictional Voltron robot (from the animated science fiction show of the same name) is all a... |
29.11.2023 | Apache Spark… Это база | Spark можно определить как вычислительный движок с открытым исходным кодом, функциональный подход к параллельной обработке данных на компьютерных кластерах, а также как набор библиотек и выполняемых файлов.
Apache Spark is a unified computi... |
17.11.2023 | Top Big Data Tools for Java Developers in 2023 | In the modern era of data-driven decision-making, the abundance of data generated every day has necessitated the development of robust tools for processing, analyzing and deriving insights from these massive datasets. Java developers, with ... |
31.10.2023 | Руководство для начинающих по Spark UI: Как отслеживать и анализировать задания Spark | Публикуем перевод гайда по Spark UI. Это встроенный инструмент Apache Spark, который предоставляет полный обзор среды Spark: узлов, исполнителей, свойств и параметров среды, выполняемых заданий, планов запросов и многого другого. Кроме теор... |
19.10.2023 | Обработка больших данных при помощи библиотеки .NET for Apache Spark | Привет Хабр!
Сегодня с вами Станевич Антон, участник профессионального сообщества NTA и ваш проводник в мир .NET for Apache Spark.
В наше время остро стоит вопрос обработки больших данных, за все годы развития компьютерной инфраструктуры бы... |
16.10.2023 | Потоковая обработка данных: анализ альтернативных решений | Всем привет! Я Алексей Понаморевский, разработчик решений для платформ сбора и обработки больших данных.
Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-green... |
06.10.2023 | Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI | Привет! Меня зовут Александр Ледовский, я тимлид команды аналитики и DS в Авито. Нередко я вижу ситуацию, когда аналитик работает над задачей и упирается в проблему производительности. Причём она всплывает там, где не ждали. В итоге задачи ... |
04.10.2023 | Feature engineering и кластерный анализ клиентов на PySpark | Привет, Хабр!
Сегодня с вами Смолюк Анастасия и Путилова Елена, участники профессионального сообщества NTA.
Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализирова... |
24.08.2023 | Неструктурированные данные: примеры, инструменты, методики и рекомендации | В современном построенном на данных мире организации накапливают огромные объёмы информации, позволяющие принимать важные решения и выводы. Целых 80% от этой цифровой сокровищницы представляют собой неструктурированные данные, в которых отс... |
24.08.2023 | Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером | Привет, Хабр! Сегодня рассказываем, чем отличаются подходы к построению распределённых хранилищ данных Data Warehouse (DWH) и Data Lake и в чём специфика задач специалистов, работающих с данными.
Этот материал — переработанная версия вебина... |
15.08.2023 | Обработка больших и очень больших графов: Pregel | Обработка больших и очень больших графов:
Введение
PregelDISCLAIMER
Статья преследует цель реализации алгоритмов обработки графов на Apache Spark, которые в силу своего большого размера невозможно обработать классическими алгоритмами на одн... |
11.08.2023 | Обработка больших и очень больших графов | TLDR
Статья является вводной из цикла статей, посвященных обработке больших и очень больших графов. Приведен обзор основных фреймворков для обработки графов: Pregel, GraphLab и PowerGraph. Описываются способы разбиения графов на части для п... |
30.06.2023 | Prompt-инженер как новый тренд. Требования и зарплаты у специалистов | Технологические компании со всего мира ищут квалифицированных и эффективных инженеров, которые бы облегчили общение с машиной и составление инструкций. Екатерина Саяпина, Product Owner личного кабинета платформы МТС Exolve, созданной компан... |
20.06.2023 | Зачем Data-инженеру Spark | Привет, Хабр, меня зовут Дима. В последние пару лет занимаюсь аналитикой, отвечаю за данные в Почте Mail.ru. Развиваю аналитическое хранилище данных и инструменты для работы с ними. Мы плотно работаем со стеком Hadoop, Hive, Spark, Clickhou... |
09.06.2023 | PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив | Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, строю рекламные аукционы в Авито. В работе мы активно используем Apache Spark. Одна из типовых задач аналитика — посчитать что-то на pySpark, а потом выгрузить это. На... |
03.06.2023 | Масштабируемая Big Data система в Kubernetes с использованием Spark и Cassandra | В предыдущей статье я рассказал, как организовать систему распределенного машинного обучения на GPU NVidia, используя язык Java с фреймворками Spring, Spark ML, XGBoost, DML в standalone кластере Spark. Особенностью поставленной задачи явля... |
31.05.2023 | Best Developer Tools of 2023 | As technology continues to advance at an unprecedented pace, software development has become more complex and demanding than ever before. In this dynamic landscape, developers rely on a wide array of tools and technologies to streamline the... |
31.05.2023 | Кластеризация текста в PySpark | Привет, Хабр!
На связи участники профессионального сообщества NTA Кухтенко Андрей, Кравец Максим и Сиянов Артем.Навигация по посту
Постановка задачи
Создание сессии Spark и импорт необходимых модулей
Предварительная обработка текста
Кластер... |
16.05.2023 | HPE Ezmeral Software streamlines data, analytics and AI/ML initiatives | Join top executives in San Francisco on July 11-12, to hear how leaders are integrating and optimizing AI investments for success. Learn More
Hewlett Packard Enterprise (HPE) is overhauling its Ezmeral software portfolio and simplifying dat... |
04.05.2023 | PySpark для аналитика. Как правильно просить ресурсы и как понять, сколько нужно брать | Привет! Меня зовут Александр Ледовский. Я тимлид команды аналитики и DS, мы строим рекламные аукционы в Авито. Для работы с поисковыми логами мы пользуемся Apache Spark. Я расскажу о моём опыте работы с ним и выделю то, что нужно знать.
Эта... |
26.04.2023 | Databricks and Hugging Face integrate Apache Spark for faster AI model building | Join top executives in San Francisco on July 11-12, to hear how leaders are integrating and optimizing AI investments for success. Learn More
Databricks and Hugging Face have collaborated to introduce a new feature that allows users to crea... |
13.04.2023 | “A really big deal”—Dolly is a free, open source, ChatGPT-style AI model | Enlarge
Databricks reader comments 81 with
Share this story
Share on Facebook
Share on Twitter
Share on Reddit
On Wednesday, Databricks released Dolly 2.0, reportedly the first open source, instruction-following large language model (LLM) f... |
07.04.2023 | Наиболее распространённые мифы о Scala: сеанс с разоблачением | В этом посте развенчивается ряд очень существенных мифов о языке Scala, которые, как нам известно, циркулируют в блогосфере. Для каждого развенчанного мифа мы представим альтернативную точку зрения, подкреплённую данными из надёжных источни... |
08.02.2023 | Библиотека ML Tuning: как подобрать гиперпараметры модели GBTRegressor в PySpark | Привет, Хабр! Меня зовут Никита Морозов, я Data Scientist в Сбере. Сегодня поговорим о том, как при помощи библиотеки ML Tuning осуществить подбор гиперпараметров модели GBTRegressor в PySpark. Зачем всё это нужно? Дело в том, что они испол... |
31.01.2023 | Czech Data SaaS Keboola Gets USD 4.5M from Local Investors to Grow Globally | Prague-based data management platform Keboola brought in USD 4.5M in Seed round The platform is a one-stop shop that provides the convenience of an iPhone for data pipelines The startup will use the new investment to accelerate its internat... |
29.12.2022 | Pyspark. Анализ больших данных, когда Pandas не достаточно | Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать р... |
07.12.2022 | Количество партиций в Spark DataFrame, DataSet на основе Relational Data Base table | Автор статьи: Вадим Опольский
Luxoft DXC Technology, Scala Big Data разработчик
В прошлой статье мы рассмотрели количество партиций, которое по умолчанию создается Apache Spark при инициализации DataFrame, DataSet:
созданных на основе Scala... |