Date | Title | Description |
30.01.2025 | Векторизация текста в NLP: от слов к числам | Перед началом работы с NLP-моделями текст нужно преобразовать в понятный модели вид. Этот процесс называется векторизацией, и без него невозможно представить современный NLP. По сути, мы превращаем слова, предложения или целые документы в в... |
29.01.2025 | The Evolving Landscape of AI Text Detection and Look-a-Like Pseudolabeling | In the world of artificial intelligence, the line between human and machine-generated text is blurring. As AI models grow more sophisticated, the challenge of distinguishing between the two becomes a game of cat and mouse. This article expl... |
26.01.2025 | Зачем в Look-a-like pseudolabelling (или самый простой метод PU-learning на службе у рекламщиков) | Готовил семинар студентам и почему-то нигде не могу найти этот простой и действенный способ именно в контектсе Look-a-Like (если не прав -- поделитесь, пожалуйста, в комментариях ссылкой).Бизнес-задача
Представьте задачу:
К вам пришел предп... |
02.01.2025 | The Rise of RP2040: A New Era in Embedded Development | In the world of embedded systems, change is a constant. The RP2040 microcontroller from Raspberry Pi has emerged as a beacon of simplicity and power. It’s like a breath of fresh air in a landscape cluttered with complexity. Many developers ... |
31.12.2024 | A-Tune: The Future of Server Optimization with Machine Learning | In the world of server management, performance is king. Imagine a race car. It can only go as fast as its engine allows. Similarly, server applications can only perform as well as their underlying systems permit. Enter A-Tune, a tool that p... |
31.12.2024 | Решение задачи классификации при помощи Deep Learning и классического Machine Learning | Небольшой бенчмарк (вроде этого): генерируем данные, потом тренируем на них нейросеть (DL - deep learning) и статистические модели (ML - machine learning). Оценивать результат будем по точности (Confusion Matrix) и контурному графику Decisi... |
31.12.2024 | Чего ждать от Python в 2025 году — и чем он радовал нас в этом | Предновогодний привет, Хабр! Ну что, самое время подводить итоги и мечтать о прекрасном? А так как у нас стартует год Питона Змеи, поговорим про Python.
Ниже собрали мнения экспертов цифровой экосистемы МТС: обсудили, чем был интересен рели... |
26.12.2024 | A-Tune: тонкая настройка системы с использованием машинного обучения | Привет, Хабр!
Меня зовут Артём, я инженер-программист в департаменте серверных решений. В статье расскажу про новый инструмент для повышения производительности, который получилось портировать и доработать для ОС Astra Linux Special Edition.... |
24.12.2024 | Сравнение алгоритмов градиентного бустинга или история знает только первых… | Всем привет! Данная статья написана по итогам обучения на курсе Otus ML Basic и в ней я проведу сравнение алгоритмов градиентного бустинга. Почему бустинг, спросите вы ? Понятно, что нейронные сети интереснее, но не всегда их применение цел... |
23.12.2024 | Стратификация: как не облажаться с A/B тестами | Привет, Хабр!
Представьте: вы запускаете A/B тест. Цель проста: проверить, работает ли новая кнопка лучше старой. Но тут же возникает мысль: «А вдруг мобильные юзеры и десктопные реагируют по‑разному? А что с новыми пользователями? Их мнени... |
21.12.2024 | Матрица ошибок confusion_matrix() в scikit-learn | Одним из самых наиболее развёрнутых способов оценки качества классификации является применение матрицы ошибок. Матрица ошибок представляет собой квадратную таблицу, в которой отображается количество предсказанных и фактических классов для к... |
14.12.2024 | Navigating the Complexities of Data Clustering and Probability Assessment in Machine Learning | In the vast ocean of data, clustering and probability assessment are two islands that stand out. Each has its own unique landscape, challenges, and tools. Understanding these concepts is crucial for anyone navigating the waters of machine l... |
11.12.2024 | Случайные разрезы данных в задаче кластеризации: коротко | Кластеризация — штука сложная. Вроде все просто: сгруппировать похожее с похожим. Но когда данных вагон, а структура запутаннее клубка проводов за столом, стандартные методы вроде k‑means или DBSCAN начинают сдавать позиции. Особенно больно... |
10.12.2024 | Python-библиотеки, которые упрощают жизнь программиста. Часть 1 | Привет всем! Меня зовут Алексей Жиряков, я техлид backend-команды витрины онлайн-кинотеатра KION. Сегодня хочу поделиться любимыми Python-библиотеками, которые помогают нам оптимизировать работу. Надеюсь, вам они тоже будут полезны. И конеч... |
08.12.2024 | The Dark Side of Open Source: A Supply Chain Attack on Ultralytics | In the world of software development, open source is a double-edged sword. It offers collaboration and innovation but also invites vulnerabilities. Recently, a serious incident shook the open-source community. Ultralytics, a prominent playe... |
08.12.2024 | Метрики качества оценки вероятностей в бинарной классификации: опыт из ФинТеха | Бинарная классификация — одна из самых распространённых задач машинного обучения, встречающаяся во множестве прикладных областей.
Однако, на практике цель таких задач часто выходит за рамки простого предсказания класса. Гораздо более важным... |
08.12.2024 | NLP: когда машины начинают понимать нас (Часть 2) | 1. Введение
В прошлой статье мы с вами изучили теоретические основы обработки естественного языка (NLP) и теперь готовы перейти к практике. В мире NLP выбор подходящего языка программирования и инструментов играет ключевую роль в успешной р... |
06.12.2024 | О векторных базах данных простым языком | Представьте, что управляете онлайн-магазином, предлагающим тысячи товаров.
Чтобы помочь пользователям находить нужные позиции, вы добавили строку поиска. Теперь посетители могут вводить интересующие их запросы, на что вы будете показывать и... |
20.11.2024 | Как LLM может валидировать данные | Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.
В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматич... |
31.10.2024 | The Rise of AutoML: Streamlining Model Management in Banking | In the fast-paced world of finance, data-driven decisions are paramount. As banks like Alfa-Bank embrace machine learning (ML), the need for efficient model management becomes critical. Enter the AutoReTrainable ML Framework (ARTEML), a gam... |
25.10.2024 | Фреймворк ARTEM(L): Как мы автоматизируем обучение и обновление моделей в Альфа-банке | Или как избавить DS от рутинных задач по обучению и обновлению моделей и их дальнейшему передеплою в проде?
Всем привет! Я Настя Бондарева, senior Data Scientist в Хабе Юридических Лиц Альфа-Банка, лидирую инициативу ARTEML (AutoReTrainable... |
24.10.2024 | Государственные перевороты: бармалеи выпрыгивают как черти из табакерки. Не хотите, дети, в Африку сыграть? | На исторических данных за 1991-2019 год покажем, как можно "увидеть" и "выцепить" признаки переворота. С помощью машинного обучения и ансамблевых модели. Ансамбли (конечно, не музыкальные), как показывает практика, – бол... |
23.10.2024 | Книга: «Causal Inference на Python. Причинно-следственные связи в IT-разработке» | Привет, Хаброжители!
Причинно-следственный анализ — одна из важнейших методологий современной науки о данных (data science), однако между теорией и практикой сохраняется большой пробел. Матеуш написал лучшую на сегодняшний день книгу, котор... |
23.10.2024 | Поиск «токсичных» SQL-запросов | Мы, студенты из МИФИ, Даниил и Александр, пришли на стажировку в Сбербанк в департамент SberData, который занимается развитием внутренней корпоративной аналитической платформы (КАП).Это современная платформа с удобными инструментами созданн... |
22.10.2024 | The Rise of Automation: Simplifying Your Digital Workspace with WorkStarter | In the digital age, efficiency is king. Every second counts. Enter WorkStarter, a utility designed to streamline your Windows experience. This tool is like a personal assistant, ready to launch your favorite applications and websites the mo... |
22.10.2024 | Кратко про библиотеку mlfinlab: инструмент для финансового ML | Привет, Хабр!
Сегодня мы рассмотрим такую замечательную библиотеку как mlfinlab.
Если вы пытались применить методы машинного обучения к финансовым данным, то наверняка сталкивались с массой подводных камней: от шумных данных до проблем с ав... |
21.10.2024 | Может ли простейшая нейросеть найти математическую закономерность в данных? | В этой небольшой статье мы научим нейросеть решать задачу умножения перестановок длины 5 (группа ) и визуализируем результаты обучения с помощью методов проекции t-SNE (и понизим размерность PCA) и алгоритма UMAP. Мы убедимся в том, что даж... |
21.10.2024 | Предиктивная аналитика политических кризисов с помощью machine learning (на исторических данных) | Допустим, вы инвестор-финансист, покупающий государственные облигации банановой республики или акции компании по выращиванию и поставке бананов или даже правитель бананового рая – всегда необходимо учитывать не только финансовые, но и полит... |
16.10.2024 | Navigating the Digital Cinema Landscape: A DIY Movie Recommendation System | In the age of streaming, choosing a movie can feel like searching for a needle in a haystack. With countless options available, how do you find that perfect film? This article explores a DIY approach to creating a movie recommendation syste... |
15.10.2024 | Рекомендатель кино или как я писал свое DIY-решение для поиска новых фильмов | Вечер. Пересматриваю «Пятницу 13». Не люблю пересматривать фильмы, даже хорошие. Но выбрать интересное кино из потока новинок сложно. Поэтому мне захотелось написать свой рекомендатор кино. Этим и займусь в выходные.
В статье покажу, что по... |
12.10.2024 | The Evolution and Impact of Text-to-Speech Technology | Text-to-Speech (TTS) technology has transformed the way we interact with machines. It turns written text into spoken words, bridging the gap between human communication and digital interfaces. Imagine a world where machines speak as fluentl... |
12.10.2024 | Линейная регрессия и её регуляризация в Scikit-learn | В этой статье мы рассмотрим модели линейной регрессии, доступные в scikit-learn. Обсудим, что такое регуляризация, на примерах Ridge, Lasso и Elastic Net, а также покажем, как эти методы можно реализовать на Python.
Создание модели линейной... |
11.10.2024 | Что такое технология TTS, как устроена и каких сферах используется синтез речи | Синтез речи — технология, которая преобразует написанный текст в аудиосигнал. Программа анализирует слова и создает звуки, которые имитируют человеческий голос.
Метод называют по-разному: генерация речи, Text-to-Voice (T2V), Text-to-Speech ... |
10.10.2024 | Unlocking the Digital Frontier: Affordable Learning in Data Science and Mobile App Development | In a world driven by technology, the demand for skilled professionals in data science and mobile app development is skyrocketing. The landscape is changing rapidly, and the need for knowledge is more pressing than ever. Fortunately, two rec... |
08.10.2024 | Learn Data Science at Your Own Pace with Over 80 Hours of Training | TL;DR: Unlock 9 data science courses and over 80 hours of content with the 2024 Beginner Data Science Bundle, just $36 (reg. $359).
Looking to dive into the world of data science but not sure where to start? The 2024 Beginner Data Science B... |
07.10.2024 | The Art of Data Preprocessing in Machine Learning: A Crucial Step for Success | In the world of machine learning, data is the lifeblood. But raw data is often messy, like a canvas splattered with paint. Before we can create a masterpiece, we must first clean it up. This process is known as data preprocessing. It’s the ... |
07.10.2024 | Предварительная обработка данных в машинном обучении: инструкция, инструменты, полезные ресурсы для начинающих... | В статье рассказываем, зачем обрабатывать данные перед загрузкой в модель, как провести предобработку и какие инструменты использовать.
Мария Жарова
Data Scientist, Альфа-БанкЧто такое предобработка данных
Предобработка — это подготовка наб... |
06.10.2024 | Kaggle для футболистов: Классификация событий на футбольном поле | Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего п... |
03.10.2024 | Кратко про Ensemble методы с примерами | Привет, Хабр!
Сегодня мы рассмотрим Ensemble методов, которые помогают сделать модели более точными и устойчивыми к переобучению. Рассмотрим три основных подхода: Bagging, Boosting и Stacking, и посмотрим, как их реализовать на Python. Bagg... |
26.09.2024 | Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Начало | В первой главе исследования был описан набор данных с временными рядами о погоде, который мы будем использовать для выполнения задачи прогнозирования температуры, а также были приведены шаги по его предварительной подготовке.
В данной главе... |
25.09.2024 | Unlocking the Future: Affordable Data Solutions for Everyone | In a world where data reigns supreme, having the right tools is crucial. The digital landscape is evolving rapidly. Businesses and individuals alike are searching for ways to harness the power of data science and secure their information. F... |
25.09.2024 | Unlocking Potential: Affordable Tools for the Modern Professional | In today's fast-paced world, efficiency is the name of the game. Professionals need tools that empower them to work smarter, not harder. Two standout offerings have emerged recently: the Afirstsoft AI PDF Editor and the 2024 Data Science &a... |
24.09.2024 | Harness the Power of Data Science & Machine Learning from Home | TL;DR: The 2024 Data Science & Machine Learning Bundle is available for just $39.99 (reg. $269) and includes comprehensive training to build your AI and data science skills.
With most things in life, flexibility is key, and that’s espec... |
19.09.2024 | Топ-5 библиотек для анализа данных на Python | Python — один из самых популярных языков для анализа данных благодаря множеству удобных и эффективных библиотек. Эти инструменты помогают обрабатывать, анализировать и визуализировать данные, делая вашу работу быстрее и проще.
Преподаватель... |
18.09.2024 | The Rise of Open Source in Russia: A New Era for Machine Learning and Data Analysis | In the vast landscape of technology, open source is a beacon of collaboration. It invites innovation and democratizes access to tools that drive progress. Recently, a study by ITMO University has shed light on the state of open source in Ru... |
18.09.2024 | Businesses ignore security when deploying AI | A new report from Orca Security highlights that, as organizations invest in AI innovation, most of them are doing so without regard for security.
The report uncovers a wide range of AI risks, including exposed API keys, overly permissive id... |
17.09.2024 | ИТМО провёл исследование open source в сферах машинного обучения и анализа данных | Специалисты центра «Сильный ИИ в промышленности» при ИТМО опубликовали результаты исследования особенностей и направления развития опенсорс-сообщества в сфере машинного обучения и анализа данных в России. В лидерах российского опенсорса ока... |
13.09.2024 | Пошаговое руководство по созданию синтетических данных в Python | Простое руководство для новичков: как самому генерировать данные для анализа и тестирования
Представьте: вы только что написали модель машинного обучения и вам нужно протестировать её работу в конкретном сценарии. Или вы собираетесь опублик... |
11.09.2024 | Введение в Feature Engineering для начинающих дата-сайентистов и ML-инженеров | Feature Engineering, или генерация признаков — это процесс создания новых признаков (характеристик или фич) из имеющихся данных, чтобы улучшить работу модели машинного обучения. Он может включать преобразование данных, создание новых призна... |
09.09.2024 | Начало работы с растровыми геоданными средствами GDAL/Python | Введение в растровую модель геоданных и работу с ней средствами GDAL в Python. Содержание статьи:
Концепция растровой модели геоданных
Примеры растровых геоданных
Свойства растровых геоданных
Хранение растровых геоданных
Знакомство с GDAL
Ч... |
07.09.2024 | Знакомимся с линейной алгеброй в NumPy | Библиотека NumPy для Python — это основа науки о данных и биоинформатики. При этом, хоть каждому программисту Python и знакомо имя пакета для установки:
pip install numpy
и команда импорта библиотеки:
import numpy as np
в практических задач... |
03.09.2024 | The Rise of Python and the Fall of Passwords: A New Era in Tech | In the ever-evolving landscape of technology, two trends stand out: the dominance of Python and the decline of traditional passwords. These shifts reflect broader changes in how we develop software and secure our digital lives.
Python has b... |
03.09.2024 | Рецензия на книгу “Базовая математика для искусственного интеллекта” | Сегодня обзор новой книги по математическому аппарату ИИ — для всех вовлеченных в анализ данных и построение ML/DL моделей. «Базовая математика для искусственного интеллекта» (Essential Math for AI: Next‑Level Mathematics for Efficient and ... |
02.09.2024 | 55% Python-разработчиков используют Linux-окружение и 22% — редактор Visual Studio Code | Организация Python Software Foundation и компания JetBrains провели ежегодный опрос, который затронул более 25 тысяч разработчиков на языке программирования Python. Они опубликовали результаты своего исследования.
Большинство участников опр... |
02.09.2024 | Как найти иголку в стоге сена? Или обозор Retrieval Algorithms | Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запрос... |
01.09.2024 | The Algorithm Behind Hollywood: How Data Science Shapes Film Success | In the heart of Hollywood, a quiet revolution is underway. The glitz and glamour of the silver screen are now intertwined with the cold logic of algorithms. The film industry, once a realm of artistic expression, is increasingly relying on ... |
30.08.2024 | Гиперпараметрическая оптимизация прокатных характеристик фильма и подбор состава творческой группы | Можно ли подобрать прокатные характеристики фильма (жанр, время, деятельность, возрастной рейтинг и т.п.), а также режиссера, сценариста, актеров, оператора (всю творческую группу) так, чтобы существенно повысить его результаты в прокате? Ж... |
28.08.2024 | Как научить компьютер различать цвета? | Привет, Хабр!
Думаю, все заметили, что технологии компьютерного зрения и искусственного интеллекта появились во многих сферах нашей жизни. Аналитика изображений применяется на производстве, в медицине, в системах управления, в географии.
В ... |
26.08.2024 | Делаем кроссворд про ML с помощью Монте-Карло и ChatGPT | Привет Хабр! Меня зовут Илья и сегодня мы поговорим про кроссворды.
Если когда-то будет противостояние человечества и машин, то последнее что позволит нам, кожаным мешкам, отличить своих собратьев от бездушных киборгов - это искусство соста... |
23.08.2024 | Пайплайн распознавания транспортных средств: как это работает | Привет, Хабр! С вами Анастасия Белозерова, руководитель исследовательских проектов в области транспорта в VisionLabs. В прошлом посте я рассказала, какие задачи можно решить с помощью видеоаналитики. А сегодня объясню, как устроен наш пайпл... |
22.08.2024 | Кластеризация: зачем и как объединять Gaussian Mixture и DBSCAN? | Кластеризация – одно из самых распространенных применений методов машинного обучения без учителя. Задача кластеризации возникает, когда вам нужно разделить данные (или объекты, описываемые каждый неким набором параметров/координат) на групп... |
20.08.2024 | Bridging the Gap: Machine Learning and Data Transfer in Mobile Development | In the world of mobile development, two concepts stand out: machine learning and efficient data transfer. Both are crucial for creating responsive, intelligent applications. Let’s dive into how these elements intertwine, focusing on Android... |
19.08.2024 | Автоматизация управления ML-экспериментами с помощью СI/CD | TL;DR
Использование рабочих процессов CI/CD (Continuous Integration/Continuous Deployment (Delivery), непрерывная интеграция/непрерывное развёртывание (непрерывная доставка)) для проведения ML‑экспериментов (Machine Learning, машинное обуче... |
19.08.2024 | Мечтают ли Андроиды о нейропроцессорных модулях? Перенос модели TensorFlow Lite в мобильное приложение | Несмотря на то, что искусственный интеллект – наиболее хайповая тема в современных ИТ, и учитывая тот факт, что предыдущая мега-история с Internet of Things и Edge Computing до сих пор не забылась, я удивился, что отсутствуют внятные обучал... |
14.08.2024 | Как и зачем считать сбалансированный precision score | Precision score – это одна из метрик, оценивающих качество решения задачи бинарной классификации в машинном обучении. Она давно себя зарекомендовала: это одно интерпретируемое и легко вычисляемое число, оценивающее качество алгоритма. Слове... |
13.08.2024 | Navigating the Waters of Machine Learning: A Dive into Practical Applications and Feature Selection | In the vast ocean of data science, machine learning (ML) and artificial intelligence (AI) are the ships steering us toward new horizons. As the tide of technology rises, engineers and developers must learn to navigate these waters. The rece... |
13.08.2024 | The Rise of the Sixth Data Platform: A New Era in Data Management | In the fast-paced world of technology, data is the new oil. It fuels decisions, drives innovation, and shapes industries. As we stand on the brink of a new era, the concept of the "sixth data platform" emerges as a beacon of hope ... |
12.08.2024 | Рецензия на книгу “Прикладное машинное обучение и искусственный интеллект для инженеров” Джеффа Просиза | Хорошая новость — все больше книг по машинному и глубокому обучению теперь доступны и в русском переводе. Очередная рецензия будет на книгу «Прикладное машинное обучение и искусственный интеллект для инженеров» (Applied Machine Learning and... |
09.08.2024 | Financial Data Analysts: Making Sense of Big Data in FinTech | Share
Tweet
Share
Share
Email
Financial technology, or FinTech, data is the new gold. Companies are increasingly relying on vast amounts of data to make informed decisions, drive innovation, and maintain a competitive edge. This influx of d... |
08.08.2024 | Рекурсивный отбор признаков. Динамический шаг в танце feature selection | Об авторе
Приветствую вас! Меня зовут Эрик, хочу поделиться личным опытом и знаниями. Я практикующий дата-сайентист с опытом участия и судейства в чемпионатах по прогнозированию, а также аналитик-исследователь, которому нравится искать, нах... |
01.08.2024 | Введение в MLflow | MLflow - это инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этом руководстве мы посмотрим, как организовать эксперименты и запуски, оптимизировать гиперпа... |
29.07.2024 | Navigating the Future of Video Content Search with AI | In the vast ocean of digital content, finding the right video can feel like searching for a needle in a haystack. The explosion of short video platforms has transformed how we consume media. By 2026, the market for short videos is projected... |
24.07.2024 | Дата-сайентистам: рецензия на книгу “Машинное обучение с PyTorch и Scikit-Learn” | Это случилось: в русском переводе вышла самая объемная из когда-либо издававшихся книг по машинному и глубокому обучению. "Machine Learning with PyTorch and Scikit-Learn" Себастьяна Рашки и его соавторов — это огромное, почти на 8... |
19.07.2024 | Анализ негативных комментариев TRUE CRIME | Привет! Я тут активно пытаюсь охватить разные области в сфере Data Science и решила, что было бы классно покопаться c обработкой естественного языка (NLP) на примере комментариев YouTube. Так как после работы я часто смотрю видео Саши Сулим... |
15.07.2024 | Использование моделей EfficientNet для классификации изображений | Искусственные нейронные сети (ИНС) — мощный инструмент в области компьютерного зрения, особенно в задачах классификации изображений. Эта область применения была одной из первых, для которой ИНС были разработаны. Например, перцептрон Розенбл... |
10.07.2024 | 10 библиотек Python для машинного обучения — подборка для начинающих | Составили список самых важных библиотек Python для машинного обучения и рассказали, для каких задач они могут быть полезны начинающим ML-инженерам и специалистам по Data Science. Собрать подборку помог Кирилл Симонов — ML-разработчик компан... |
01.07.2024 | Машинное обучение для чайников | Машинное обучение? Это не так сложно. В этой статье я разберу основные принципы и их реализацию.
Для погружения рассмотрим:
основную парадигму обучения -- обучение с учителем (Supervised Learning);
математические основы машинного обучения н... |
28.06.2024 | Основы теории вероятностей для будущих программистов и дата-аналитиков | Теория вероятностей — важный инструмент, который помогает создавать случайные числа для симуляций и криптографии, улучшать алгоритмы и структуры данных, а еще — разрабатывать точные модели для машинного обучения.
Вместе с Ильей Котовым, спе... |
27.06.2024 | Interlock Launches ThreatSlayer Web3 Security Extension and Incentivized Crowdsourced Internet Security Community | Fairfield, CT, USA, June 27th, 2024, Chainwire
Uses blockchain and Web3 to incentivize users
to participate and share essential threat data
Interlock today announced a Web3, incentivized crowdsourced internet security community that aims to... |
25.06.2024 | Обнаружение вторжений с применением технологий машинного обучения. Часть 1 | Привет Хабр! Меня зовут Татьяна Ошуркова, я главный аналитик департамента ИТ корпоративного, инвестиционного и депозитарного бизнеса Росбанка и автор телеграм-канала IT Talks.
Совсем недавно я провела несколько вебинаров на тему использован... |
19.06.2024 | SARIMAX vs Экспоненциальное сглаживание: Когда простота побеждает | В прошлом посте я рассказывала про свои мучения с моделькой ARIMA. Здесь же я расскажу о следующей серии издевательств над временными рядами, SARIMAX и экспоненциальным сглаживанием.
Для начала хочу исправить косяки прошлой статьи и прогово... |
17.06.2024 | NLP, Catboost и тематическое моделирование: создаем модель для прогнозирования цен с использованием новостей | Привет, Хабр! Меня зовут Иван, я Data Science специалист SimbirSoft. Я расскажу, как на одном из проектов мы занимались прогнозированием на месяц вперед с помощью методов NLP, Catboost и тематического моделирования на новостном потоке.
Один... |
15.06.2024 | Мои мысли о Python in Excel | 22 августа 2023 года компания Microsoft выпустила предварительную версию «Python in Excel». Я разработчик xlwings и автор книги O’Reilly Python for Excel, поэтому мне, разумеется, стало интересно её потестировать. Не следует судить книгу по... |
14.06.2024 | Лучшие библиотеки Python для Data Science в 2024 году | Python — один из самых распространенных языков программирования в Data Science (третье место в опросе разработчиков StackOverflow). Популярность языка обусловлена наличием множества пакетов, которые можно использовать для решения различных ... |
14.06.2024 | Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство | Одним из критически важных шагов при создании хорошей модели является правильный выбор метрики для оценки её качества, поскольку неправильный выбор может привести к неверным выводам и, как следствие, к принятию не самых оптимальных решений.... |
12.06.2024 | Временные ряды и ARIMA: Как предсказывать будущее без хрустального шара | Часть 1
Что такое временной ряд, модель ARIMA и как к ней подбирать параметры.
Временной ряд — собранный в разные моменты времени статистический материал о значении каких-либо параметров (в простейшем случае одного) исследуемого процесса. (... |
07.06.2024 | Где лучше всего пробовать идеи для обучающихся систем? | Для того, чтобы разобраться в сложной и объемной теме машинного обучения, попробовать свои силы и отточить навыки, оптимально подходит библиотека scikit-learn (sklearn). Это среда языка Python, она реализует множество различных алгоритмов о... |
05.06.2024 | Мечтает ли GPT-4o о сегментации картинок...? | Всем привет, Меня зовут Богдан Печёнкин. Многие Меня знают как соавтора Симулятора DS на Karpov.Courses. Сейчас Я фаундер стартапа Vibe AI – это AI Dating Copilot для парней и девушек, который помогает в переписках на сайтах знакомств и в м... |
03.06.2024 | Сравниваем DBSCAN и OPTICS | Привет, Хабр)
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
Кстати, я веду телеграм-канал по ML, в котором описываю интересные фреймворки, библиотеки, open-source ин... |
27.05.2024 | Быстрая Data Quality проверка на базе алгоритма adversarial validation | Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user... |
10.05.2024 | Методы оптимизации в машинном и глубоком обучении. От простого к сложному | В данной статье представлен обзор различных популярных (и не только) оптимизаторов, которые применяются в машинном и глубоком обучении, в частности для обучения нейронных сетей. Мы рассмотрим их основную идею и ключевые особенности, переход... |
04.05.2024 | Главные отличия PCA от UMAP и t-SNE | Здесь будет рассказано о главных отличиях самого старого и базового алгоритма снижения размерности - PCA от его популярных современных коллег - UMAP и t-SNE. Предполагается, что читатель уже предварительно что-то слышал про эти алгоритмы, п... |
29.04.2024 | Как обнаружить и устранить мультиколлинеарность с помощью Statsmodels в Питоне | Привет, Хабр!
Мультиколлинеарность возникает, когда в модели множественной регрессии одна из независимых переменных может быть линейно предсказана с помощью других независимых переменных с высокой степенью точности. Это явление приводит к т... |
23.04.2024 | Разбираемся в ROC и AUC | Привет, Хабр!
В машинном обучение очень важны метрики оценки эффективности моделей. Среди таких метрик есть: кривые ROC и показатель AUC. Они позволяют оценивать бинарные классификаторы.
Кривая ROC – это график, который иллюстрирует произво... |
20.04.2024 | NumPy для самых маленьких | Математика везде в нашей жизни, но в программировании, а особенно ML ее два раза больше. Обычно Питон берут в пример самого "научного" языка программирования из-за математических фреймворков. Как не Питон может помочь оперировать ... |
19.04.2024 | Гайд texthero pandas | Упрощенная обработка естественного языка (NLP)
Я всегда нахожусь в поиске новых инструментов, которые помогут мне упростить процедуру обработки естественного языка, поэтому, когда я наткнулся на короткий видеоклип, показывающий функциональн... |
18.04.2024 | T-test. Зависимость от независимости | Привет, Хабр! Теме А/Б-тестирования посвящено достаточно много статей, и вот держите ещё одну. Тема экспериментов для выявления эффективности внедрения доработок популярна не только последний год и она, скорее всего, освещена уже со всех во... |
17.04.2024 | Определение жанра фильма по описанию | Автор статьи: Олег Блохин
Выпускник OTUS
В ходе поиска темы проектной работы, которой должен был завершиться курс Machine Learning. Professional, я решил поэкспериментировать с данными о фильмах, мультфильмах, сериалах и прочей схожей проду... |
14.04.2024 | Оптимизация гиперпараметров за 5 секунд? | Пока люди с вычислительными машинами в пустую тратят время на перебор гиперпарамтеров нейронок внутри библиотек Scikit-learn – настоящие гении тайм-менеджмента выбирают TPE и Optuna.
В этой статье мы рассмотрим самые популярные методы оптим... |
09.04.2024 | Разворачиваем ML модель с использованием ONNX на Android в километре над землей | В свободное от работы время я летаю на параплане. Это такая штука, внешне похожая на парашют, но способная пролетать сотни километров маршрутов и висеть в воздухе часами. И это безо всякого мотора!
Парим в потоке на берегу Камы
Полет происх... |