Edit

scikit-learn

http://scikit-learn.org/

Last activity: 30.01.2025

Active

Categories: ComputerLearnSoftware

Open Source library for Machine Learning in Python.

Website visits

2.5M /mo.

Mentions

234

Location: France, Ile-of-France, Paris

Employees: 11-50

Twitter

Facebook

Instagram

Mentions in press and media 234

Date	Title	Description
30.01.2025	Векторизация текста в NLP: от слов к числам	Перед началом работы с NLP-моделями текст нужно преобразовать в понятный модели вид. Этот процесс называется векторизацией, и без него невозможно представить современный NLP. По сути, мы превращаем слова, предложения или целые документы в в...
29.01.2025	The Evolving Landscape of AI Text Detection and Look-a-Like Pseudolabeling	In the world of artificial intelligence, the line between human and machine-generated text is blurring. As AI models grow more sophisticated, the challenge of distinguishing between the two becomes a game of cat and mouse. This article expl...
26.01.2025	Зачем в Look-a-like pseudolabelling (или самый простой метод PU-learning на службе у рекламщиков)	Готовил семинар студентам и почему-то нигде не могу найти этот простой и действенный способ именно в контектсе Look-a-Like (если не прав -- поделитесь, пожалуйста, в комментариях ссылкой).Бизнес-задача Представьте задачу: К вам пришел предп...
02.01.2025	The Rise of RP2040: A New Era in Embedded Development	In the world of embedded systems, change is a constant. The RP2040 microcontroller from Raspberry Pi has emerged as a beacon of simplicity and power. It’s like a breath of fresh air in a landscape cluttered with complexity. Many developers ...
31.12.2024	A-Tune: The Future of Server Optimization with Machine Learning	In the world of server management, performance is king. Imagine a race car. It can only go as fast as its engine allows. Similarly, server applications can only perform as well as their underlying systems permit. Enter A-Tune, a tool that p...
31.12.2024	Решение задачи классификации при помощи Deep Learning и классического Machine Learning	Небольшой бенчмарк (вроде этого): генерируем данные, потом тренируем на них нейросеть (DL - deep learning) и статистические модели (ML - machine learning). Оценивать результат будем по точности (Confusion Matrix) и контурному графику Decisi...
31.12.2024	Чего ждать от Python в 2025 году — и чем он радовал нас в этом	Предновогодний привет, Хабр! Ну что, самое время подводить итоги и мечтать о прекрасном? А так как у нас стартует год Питона Змеи, поговорим про Python. Ниже собрали мнения экспертов цифровой экосистемы МТС: обсудили, чем был интересен рели...
26.12.2024	A-Tune: тонкая настройка системы с использованием машинного обучения	Привет, Хабр! Меня зовут Артём, я инженер-программист в департаменте серверных решений. В статье расскажу про новый инструмент для повышения производительности, который получилось портировать и доработать для ОС Astra Linux Special Edition....
24.12.2024	Сравнение алгоритмов градиентного бустинга или история знает только первых…	Всем привет! Данная статья написана по итогам обучения на курсе Otus ML Basic и в ней я проведу сравнение алгоритмов градиентного бустинга. Почему бустинг, спросите вы ? Понятно, что нейронные сети интереснее, но не всегда их применение цел...
23.12.2024	Стратификация: как не облажаться с A/B тестами	Привет, Хабр! Представьте: вы запускаете A/B тест. Цель проста: проверить, работает ли новая кнопка лучше старой. Но тут же возникает мысль: «А вдруг мобильные юзеры и десктопные реагируют по‑разному? А что с новыми пользователями? Их мнени...
21.12.2024	Матрица ошибок confusion_matrix() в scikit-learn	Одним из самых наиболее развёрнутых способов оценки качества классификации является применение матрицы ошибок. Матрица ошибок представляет собой квадратную таблицу, в которой отображается количество предсказанных и фактических классов для к...
14.12.2024	Navigating the Complexities of Data Clustering and Probability Assessment in Machine Learning	In the vast ocean of data, clustering and probability assessment are two islands that stand out. Each has its own unique landscape, challenges, and tools. Understanding these concepts is crucial for anyone navigating the waters of machine l...
11.12.2024	Случайные разрезы данных в задаче кластеризации: коротко	Кластеризация — штука сложная. Вроде все просто: сгруппировать похожее с похожим. Но когда данных вагон, а структура запутаннее клубка проводов за столом, стандартные методы вроде k‑means или DBSCAN начинают сдавать позиции. Особенно больно...
10.12.2024	Python-библиотеки, которые упрощают жизнь программиста. Часть 1	Привет всем! Меня зовут Алексей Жиряков, я техлид backend-команды витрины онлайн-кинотеатра KION. Сегодня хочу поделиться любимыми Python-библиотеками, которые помогают нам оптимизировать работу. Надеюсь, вам они тоже будут полезны. И конеч...
08.12.2024	The Dark Side of Open Source: A Supply Chain Attack on Ultralytics	In the world of software development, open source is a double-edged sword. It offers collaboration and innovation but also invites vulnerabilities. Recently, a serious incident shook the open-source community. Ultralytics, a prominent playe...
08.12.2024	Метрики качества оценки вероятностей в бинарной классификации: опыт из ФинТеха	Бинарная классификация — одна из самых распространённых задач машинного обучения, встречающаяся во множестве прикладных областей. Однако, на практике цель таких задач часто выходит за рамки простого предсказания класса. Гораздо более важным...
08.12.2024	NLP: когда машины начинают понимать нас (Часть 2)	1. Введение В прошлой статье мы с вами изучили теоретические основы обработки естественного языка (NLP) и теперь готовы перейти к практике. В мире NLP выбор подходящего языка программирования и инструментов играет ключевую роль в успешной р...
06.12.2024	О векторных базах данных простым языком	Представьте, что управляете онлайн-магазином, предлагающим тысячи товаров. Чтобы помочь пользователям находить нужные позиции, вы добавили строку поиска. Теперь посетители могут вводить интересующие их запросы, на что вы будете показывать и...
20.11.2024	Как LLM может валидировать данные	Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании. В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматич...
31.10.2024	The Rise of AutoML: Streamlining Model Management in Banking	In the fast-paced world of finance, data-driven decisions are paramount. As banks like Alfa-Bank embrace machine learning (ML), the need for efficient model management becomes critical. Enter the AutoReTrainable ML Framework (ARTEML), a gam...
25.10.2024	Фреймворк ARTEM(L): Как мы автоматизируем обучение и обновление моделей в Альфа-банке	Или как избавить DS от рутинных задач по обучению и обновлению моделей и их дальнейшему передеплою в проде? Всем привет! Я Настя Бондарева, senior Data Scientist в Хабе Юридических Лиц Альфа-Банка, лидирую инициативу ARTEML (AutoReTrainable...
24.10.2024	Государственные перевороты: бармалеи выпрыгивают как черти из табакерки. Не хотите, дети, в Африку сыграть?	На исторических данных за 1991-2019 год покажем, как можно "увидеть" и "выцепить" признаки переворота. С помощью машинного обучения и ансамблевых модели. Ансамбли (конечно, не музыкальные), как показывает практика, – бол...
23.10.2024	Книга: «Causal Inference на Python. Причинно-следственные связи в IT-разработке»	Привет, Хаброжители! Причинно-следственный анализ — одна из важнейших методологий современной науки о данных (data science), однако между теорией и практикой сохраняется большой пробел. Матеуш написал лучшую на сегодняшний день книгу, котор...
23.10.2024	Поиск «токсичных» SQL-запросов	Мы, студенты из МИФИ, Даниил и Александр, пришли на стажировку в Сбербанк в департамент SberData, который занимается развитием внутренней корпоративной аналитической платформы (КАП).Это современная платформа с удобными инструментами созданн...
22.10.2024	The Rise of Automation: Simplifying Your Digital Workspace with WorkStarter	In the digital age, efficiency is king. Every second counts. Enter WorkStarter, a utility designed to streamline your Windows experience. This tool is like a personal assistant, ready to launch your favorite applications and websites the mo...
22.10.2024	Кратко про библиотеку mlfinlab: инструмент для финансового ML	Привет, Хабр! Сегодня мы рассмотрим такую замечательную библиотеку как mlfinlab. Если вы пытались применить методы машинного обучения к финансовым данным, то наверняка сталкивались с массой подводных камней: от шумных данных до проблем с ав...
21.10.2024	Может ли простейшая нейросеть найти математическую закономерность в данных?	В этой небольшой статье мы научим нейросеть решать задачу умножения перестановок длины 5 (группа ) и визуализируем результаты обучения с помощью методов проекции t-SNE (и понизим размерность PCA) и алгоритма UMAP. Мы убедимся в том, что даж...
21.10.2024	Предиктивная аналитика политических кризисов с помощью machine learning (на исторических данных)	Допустим, вы инвестор-финансист, покупающий государственные облигации банановой республики или акции компании по выращиванию и поставке бананов или даже правитель бананового рая – всегда необходимо учитывать не только финансовые, но и полит...
16.10.2024	Navigating the Digital Cinema Landscape: A DIY Movie Recommendation System	In the age of streaming, choosing a movie can feel like searching for a needle in a haystack. With countless options available, how do you find that perfect film? This article explores a DIY approach to creating a movie recommendation syste...
15.10.2024	Рекомендатель кино или как я писал свое DIY-решение для поиска новых фильмов	Вечер. Пересматриваю «Пятницу 13». Не люблю пересматривать фильмы, даже хорошие. Но выбрать интересное кино из потока новинок сложно. Поэтому мне захотелось написать свой рекомендатор кино. Этим и займусь в выходные. В статье покажу, что по...
12.10.2024	The Evolution and Impact of Text-to-Speech Technology	Text-to-Speech (TTS) technology has transformed the way we interact with machines. It turns written text into spoken words, bridging the gap between human communication and digital interfaces. Imagine a world where machines speak as fluentl...
12.10.2024	Линейная регрессия и её регуляризация в Scikit-learn	В этой статье мы рассмотрим модели линейной регрессии, доступные в scikit-learn. Обсудим, что такое регуляризация, на примерах Ridge, Lasso и Elastic Net, а также покажем, как эти методы можно реализовать на Python. Создание модели линейной...
11.10.2024	Что такое технология TTS, как устроена и каких сферах используется синтез речи	Синтез речи — технология, которая преобразует написанный текст в аудиосигнал. Программа анализирует слова и создает звуки, которые имитируют человеческий голос. Метод называют по-разному: генерация речи, Text-to-Voice (T2V), Text-to-Speech ...
10.10.2024	Unlocking the Digital Frontier: Affordable Learning in Data Science and Mobile App Development	In a world driven by technology, the demand for skilled professionals in data science and mobile app development is skyrocketing. The landscape is changing rapidly, and the need for knowledge is more pressing than ever. Fortunately, two rec...
08.10.2024	Learn Data Science at Your Own Pace with Over 80 Hours of Training	TL;DR: Unlock 9 data science courses and over 80 hours of content with the 2024 Beginner Data Science Bundle, just $36 (reg. $359). Looking to dive into the world of data science but not sure where to start? The 2024 Beginner Data Science B...
07.10.2024	The Art of Data Preprocessing in Machine Learning: A Crucial Step for Success	In the world of machine learning, data is the lifeblood. But raw data is often messy, like a canvas splattered with paint. Before we can create a masterpiece, we must first clean it up. This process is known as data preprocessing. It’s the ...
07.10.2024	Предварительная обработка данных в машинном обучении: инструкция, инструменты, полезные ресурсы для начинающих...	В статье рассказываем, зачем обрабатывать данные перед загрузкой в модель, как провести предобработку и какие инструменты использовать. Мария Жарова Data Scientist, Альфа-БанкЧто такое предобработка данных Предобработка — это подготовка наб...
06.10.2024	Kaggle для футболистов: Классификация событий на футбольном поле	Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего п...
03.10.2024	Кратко про Ensemble методы с примерами	Привет, Хабр! Сегодня мы рассмотрим Ensemble методов, которые помогают сделать модели более точными и устойчивыми к переобучению. Рассмотрим три основных подхода: Bagging, Boosting и Stacking, и посмотрим, как их реализовать на Python. Bagg...
26.09.2024	Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Начало	В первой главе исследования был описан набор данных с временными рядами о погоде, который мы будем использовать для выполнения задачи прогнозирования температуры, а также были приведены шаги по его предварительной подготовке. В данной главе...
25.09.2024	Unlocking the Future: Affordable Data Solutions for Everyone	In a world where data reigns supreme, having the right tools is crucial. The digital landscape is evolving rapidly. Businesses and individuals alike are searching for ways to harness the power of data science and secure their information. F...
25.09.2024	Unlocking Potential: Affordable Tools for the Modern Professional	In today's fast-paced world, efficiency is the name of the game. Professionals need tools that empower them to work smarter, not harder. Two standout offerings have emerged recently: the Afirstsoft AI PDF Editor and the 2024 Data Science &a...
24.09.2024	Harness the Power of Data Science & Machine Learning from Home	TL;DR: The 2024 Data Science & Machine Learning Bundle is available for just $39.99 (reg. $269) and includes comprehensive training to build your AI and data science skills. With most things in life, flexibility is key, and that’s espec...
19.09.2024	Топ-5 библиотек для анализа данных на Python	Python — один из самых популярных языков для анализа данных благодаря множеству удобных и эффективных библиотек. Эти инструменты помогают обрабатывать, анализировать и визуализировать данные, делая вашу работу быстрее и проще. Преподаватель...
18.09.2024	The Rise of Open Source in Russia: A New Era for Machine Learning and Data Analysis	In the vast landscape of technology, open source is a beacon of collaboration. It invites innovation and democratizes access to tools that drive progress. Recently, a study by ITMO University has shed light on the state of open source in Ru...
18.09.2024	Businesses ignore security when deploying AI	A new report from Orca Security highlights that, as organizations invest in AI innovation, most of them are doing so without regard for security. The report uncovers a wide range of AI risks, including exposed API keys, overly permissive id...
17.09.2024	ИТМО провёл исследование open source в сферах машинного обучения и анализа данных	Специалисты центра «Сильный ИИ в промышленности» при ИТМО опубликовали результаты исследования особенностей и направления развития опенсорс-сообщества в сфере машинного обучения и анализа данных в России. В лидерах российского опенсорса ока...
13.09.2024	Пошаговое руководство по созданию синтетических данных в Python	Простое руководство для новичков: как самому генерировать данные для анализа и тестирования Представьте: вы только что написали модель машинного обучения и вам нужно протестировать её работу в конкретном сценарии. Или вы собираетесь опублик...
11.09.2024	Введение в Feature Engineering для начинающих дата-сайентистов и ML-инженеров	Feature Engineering, или генерация признаков — это процесс создания новых признаков (характеристик или фич) из имеющихся данных, чтобы улучшить работу модели машинного обучения. Он может включать преобразование данных, создание новых призна...
09.09.2024	Начало работы с растровыми геоданными средствами GDAL/Python	Введение в растровую модель геоданных и работу с ней средствами GDAL в Python. Содержание статьи: Концепция растровой модели геоданных Примеры растровых геоданных Свойства растровых геоданных Хранение растровых геоданных Знакомство с GDAL Ч...
07.09.2024	Знакомимся с линейной алгеброй в NumPy	Библиотека NumPy для Python — это основа науки о данных и биоинформатики. При этом, хоть каждому программисту Python и знакомо имя пакета для установки: pip install numpy и команда импорта библиотеки: import numpy as np в практических задач...
03.09.2024	The Rise of Python and the Fall of Passwords: A New Era in Tech	In the ever-evolving landscape of technology, two trends stand out: the dominance of Python and the decline of traditional passwords. These shifts reflect broader changes in how we develop software and secure our digital lives. Python has b...
03.09.2024	Рецензия на книгу “Базовая математика для искусственного интеллекта”	Сегодня обзор новой книги по математическому аппарату ИИ — для всех вовлеченных в анализ данных и построение ML/DL моделей. «Базовая математика для искусственного интеллекта» (Essential Math for AI: Next‑Level Mathematics for Efficient and ...
02.09.2024	55% Python-разработчиков используют Linux-окружение и 22% — редактор Visual Studio Code	Организация Python Software Foundation и компания JetBrains провели ежегодный опрос, который затронул более 25 тысяч разработчиков на языке программирования Python. Они опубликовали результаты своего исследования. Большинство участников опр...
02.09.2024	Как найти иголку в стоге сена? Или обозор Retrieval Algorithms	Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запрос...
01.09.2024	The Algorithm Behind Hollywood: How Data Science Shapes Film Success	In the heart of Hollywood, a quiet revolution is underway. The glitz and glamour of the silver screen are now intertwined with the cold logic of algorithms. The film industry, once a realm of artistic expression, is increasingly relying on ...
30.08.2024	Гиперпараметрическая оптимизация прокатных характеристик фильма и подбор состава творческой группы	Можно ли подобрать прокатные характеристики фильма (жанр, время, деятельность, возрастной рейтинг и т.п.), а также режиссера, сценариста, актеров, оператора (всю творческую группу) так, чтобы существенно повысить его результаты в прокате? Ж...
28.08.2024	Как научить компьютер различать цвета?	Привет, Хабр! Думаю, все заметили, что технологии компьютерного зрения и искусственного интеллекта появились во многих сферах нашей жизни. Аналитика изображений применяется на производстве, в медицине, в системах управления, в географии. В ...
26.08.2024	Делаем кроссворд про ML с помощью Монте-Карло и ChatGPT	Привет Хабр! Меня зовут Илья и сегодня мы поговорим про кроссворды. Если когда-то будет противостояние человечества и машин, то последнее что позволит нам, кожаным мешкам, отличить своих собратьев от бездушных киборгов - это искусство соста...
23.08.2024	Пайплайн распознавания транспортных средств: как это работает	Привет, Хабр! С вами Анастасия Белозерова, руководитель исследовательских проектов в области транспорта в VisionLabs. В прошлом посте я рассказала, какие задачи можно решить с помощью видеоаналитики. А сегодня объясню, как устроен наш пайпл...
22.08.2024	Кластеризация: зачем и как объединять Gaussian Mixture и DBSCAN?	Кластеризация – одно из самых распространенных применений методов машинного обучения без учителя. Задача кластеризации возникает, когда вам нужно разделить данные (или объекты, описываемые каждый неким набором параметров/координат) на групп...
20.08.2024	Bridging the Gap: Machine Learning and Data Transfer in Mobile Development	In the world of mobile development, two concepts stand out: machine learning and efficient data transfer. Both are crucial for creating responsive, intelligent applications. Let’s dive into how these elements intertwine, focusing on Android...
19.08.2024	Автоматизация управления ML-экспериментами с помощью СI/CD	TL;DR Использование рабочих процессов CI/CD (Continuous Integration/Continuous Deployment (Delivery), непрерывная интеграция/непрерывное развёртывание (непрерывная доставка)) для проведения ML‑экспериментов (Machine Learning, машинное обуче...
19.08.2024	Мечтают ли Андроиды о нейропроцессорных модулях? Перенос модели TensorFlow Lite в мобильное приложение	Несмотря на то, что искусственный интеллект – наиболее хайповая тема в современных ИТ, и учитывая тот факт, что предыдущая мега-история с Internet of Things и Edge Computing до сих пор не забылась, я удивился, что отсутствуют внятные обучал...
14.08.2024	Как и зачем считать сбалансированный precision score	Precision score – это одна из метрик, оценивающих качество решения задачи бинарной классификации в машинном обучении. Она давно себя зарекомендовала: это одно интерпретируемое и легко вычисляемое число, оценивающее качество алгоритма. Слове...
13.08.2024	Navigating the Waters of Machine Learning: A Dive into Practical Applications and Feature Selection	In the vast ocean of data science, machine learning (ML) and artificial intelligence (AI) are the ships steering us toward new horizons. As the tide of technology rises, engineers and developers must learn to navigate these waters. The rece...
13.08.2024	The Rise of the Sixth Data Platform: A New Era in Data Management	In the fast-paced world of technology, data is the new oil. It fuels decisions, drives innovation, and shapes industries. As we stand on the brink of a new era, the concept of the "sixth data platform" emerges as a beacon of hope ...
12.08.2024	Рецензия на книгу “Прикладное машинное обучение и искусственный интеллект для инженеров” Джеффа Просиза	Хорошая новость — все больше книг по машинному и глубокому обучению теперь доступны и в русском переводе. Очередная рецензия будет на книгу «Прикладное машинное обучение и искусственный интеллект для инженеров» (Applied Machine Learning and...
09.08.2024	Financial Data Analysts: Making Sense of Big Data in FinTech	Share Tweet Share Share Email Financial technology, or FinTech, data is the new gold. Companies are increasingly relying on vast amounts of data to make informed decisions, drive innovation, and maintain a competitive edge. This influx of d...
08.08.2024	Рекурсивный отбор признаков. Динамический шаг в танце feature selection	Об авторе Приветствую вас! Меня зовут Эрик, хочу поделиться личным опытом и знаниями. Я практикующий дата-сайентист с опытом участия и судейства в чемпионатах по прогнозированию, а также аналитик-исследователь, которому нравится искать, нах...
01.08.2024	Введение в MLflow	MLflow - это инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этом руководстве мы посмотрим, как организовать эксперименты и запуски, оптимизировать гиперпа...
29.07.2024	Navigating the Future of Video Content Search with AI	In the vast ocean of digital content, finding the right video can feel like searching for a needle in a haystack. The explosion of short video platforms has transformed how we consume media. By 2026, the market for short videos is projected...
24.07.2024	Дата-сайентистам: рецензия на книгу “Машинное обучение с PyTorch и Scikit-Learn”	Это случилось: в русском переводе вышла самая объемная из когда-либо издававшихся книг по машинному и глубокому обучению. "Machine Learning with PyTorch and Scikit-Learn" Себастьяна Рашки и его соавторов — это огромное, почти на 8...
19.07.2024	Анализ негативных комментариев TRUE CRIME	Привет! Я тут активно пытаюсь охватить разные области в сфере Data Science и решила, что было бы классно покопаться c обработкой естественного языка (NLP) на примере комментариев YouTube. Так как после работы я часто смотрю видео Саши Сулим...
15.07.2024	Использование моделей EfficientNet для классификации изображений	Искусственные нейронные сети (ИНС) — мощный инструмент в области компьютерного зрения, особенно в задачах классификации изображений. Эта область применения была одной из первых, для которой ИНС были разработаны. Например, перцептрон Розенбл...
10.07.2024	10 библиотек Python для машинного обучения — подборка для начинающих	Составили список самых важных библиотек Python для машинного обучения и рассказали, для каких задач они могут быть полезны начинающим ML-инженерам и специалистам по Data Science. Собрать подборку помог Кирилл Симонов — ML-разработчик компан...
01.07.2024	Машинное обучение для чайников	Машинное обучение? Это не так сложно. В этой статье я разберу основные принципы и их реализацию. Для погружения рассмотрим: основную парадигму обучения -- обучение с учителем (Supervised Learning); математические основы машинного обучения н...
28.06.2024	Основы теории вероятностей для будущих программистов и дата-аналитиков	Теория вероятностей — важный инструмент, который помогает создавать случайные числа для симуляций и криптографии, улучшать алгоритмы и структуры данных, а еще — разрабатывать точные модели для машинного обучения. Вместе с Ильей Котовым, спе...
27.06.2024	Interlock Launches ThreatSlayer Web3 Security Extension and Incentivized Crowdsourced Internet Security Community	Fairfield, CT, USA, June 27th, 2024, Chainwire Uses blockchain and Web3 to incentivize users to participate and share essential threat data Interlock today announced a Web3, incentivized crowdsourced internet security community that aims to...
25.06.2024	Обнаружение вторжений с применением технологий машинного обучения. Часть 1	Привет Хабр! Меня зовут Татьяна Ошуркова, я главный аналитик департамента ИТ корпоративного, инвестиционного и депозитарного бизнеса Росбанка и автор телеграм-канала IT Talks. Совсем недавно я провела несколько вебинаров на тему использован...
19.06.2024	SARIMAX vs Экспоненциальное сглаживание: Когда простота побеждает	В прошлом посте я рассказывала про свои мучения с моделькой ARIMA. Здесь же я расскажу о следующей серии издевательств над временными рядами, SARIMAX и экспоненциальным сглаживанием. Для начала хочу исправить косяки прошлой статьи и прогово...
17.06.2024	NLP, Catboost и тематическое моделирование: создаем модель для прогнозирования цен с использованием новостей	Привет, Хабр! Меня зовут Иван, я Data Science специалист SimbirSoft. Я расскажу, как на одном из проектов мы занимались прогнозированием на месяц вперед с помощью методов NLP, Catboost и тематического моделирования на новостном потоке. Один...
15.06.2024	Мои мысли о Python in Excel	22 августа 2023 года компания Microsoft выпустила предварительную версию «Python in Excel». Я разработчик xlwings и автор книги O’Reilly Python for Excel, поэтому мне, разумеется, стало интересно её потестировать. Не следует судить книгу по...
14.06.2024	Лучшие библиотеки Python для Data Science в 2024 году	Python — один из самых распространенных языков программирования в Data Science (третье место в опросе разработчиков StackOverflow). Популярность языка обусловлена наличием множества пакетов, которые можно использовать для решения различных ...
14.06.2024	Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство	Одним из критически важных шагов при создании хорошей модели является правильный выбор метрики для оценки её качества, поскольку неправильный выбор может привести к неверным выводам и, как следствие, к принятию не самых оптимальных решений....
12.06.2024	Временные ряды и ARIMA: Как предсказывать будущее без хрустального шара	Часть 1 Что такое временной ряд, модель ARIMA и как к ней подбирать параметры. Временной ряд — собранный в разные моменты времени статистический материал о значении каких-либо параметров (в простейшем случае одного) исследуемого процесса. (...
07.06.2024	Где лучше всего пробовать идеи для обучающихся систем?	Для того, чтобы разобраться в сложной и объемной теме машинного обучения, попробовать свои силы и отточить навыки, оптимально подходит библиотека scikit-learn (sklearn). Это среда языка Python, она реализует множество различных алгоритмов о...
05.06.2024	Мечтает ли GPT-4o о сегментации картинок...?	Всем привет, Меня зовут Богдан Печёнкин. Многие Меня знают как соавтора Симулятора DS на Karpov.Courses. Сейчас Я фаундер стартапа Vibe AI – это AI Dating Copilot для парней и девушек, который помогает в переписках на сайтах знакомств и в м...
03.06.2024	Сравниваем DBSCAN и OPTICS	Привет, Хабр) Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним Поехали! Кстати, я веду телеграм-канал по ML, в котором описываю интересные фреймворки, библиотеки, open-source ин...
27.05.2024	Быстрая Data Quality проверка на базе алгоритма adversarial validation	Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user...
10.05.2024	Методы оптимизации в машинном и глубоком обучении. От простого к сложному	В данной статье представлен обзор различных популярных (и не только) оптимизаторов, которые применяются в машинном и глубоком обучении, в частности для обучения нейронных сетей. Мы рассмотрим их основную идею и ключевые особенности, переход...
04.05.2024	Главные отличия PCA от UMAP и t-SNE	Здесь будет рассказано о главных отличиях самого старого и базового алгоритма снижения размерности - PCA от его популярных современных коллег - UMAP и t-SNE. Предполагается, что читатель уже предварительно что-то слышал про эти алгоритмы, п...
29.04.2024	Как обнаружить и устранить мультиколлинеарность с помощью Statsmodels в Питоне	Привет, Хабр! Мультиколлинеарность возникает, когда в модели множественной регрессии одна из независимых переменных может быть линейно предсказана с помощью других независимых переменных с высокой степенью точности. Это явление приводит к т...
23.04.2024	Разбираемся в ROC и AUC	Привет, Хабр! В машинном обучение очень важны метрики оценки эффективности моделей. Среди таких метрик есть: кривые ROC и показатель AUC. Они позволяют оценивать бинарные классификаторы. Кривая ROC – это график, который иллюстрирует произво...
20.04.2024	NumPy для самых маленьких	Математика везде в нашей жизни, но в программировании, а особенно ML ее два раза больше. Обычно Питон берут в пример самого "научного" языка программирования из-за математических фреймворков. Как не Питон может помочь оперировать ...
19.04.2024	Гайд texthero pandas	Упрощенная обработка естественного языка (NLP) Я всегда нахожусь в поиске новых инструментов, которые помогут мне упростить процедуру обработки естественного языка, поэтому, когда я наткнулся на короткий видеоклип, показывающий функциональн...
18.04.2024	T-test. Зависимость от независимости	Привет, Хабр! Теме А/Б-тестирования посвящено достаточно много статей, и вот держите ещё одну. Тема экспериментов для выявления эффективности внедрения доработок популярна не только последний год и она, скорее всего, освещена уже со всех во...
17.04.2024	Определение жанра фильма по описанию	Автор статьи: Олег Блохин Выпускник OTUS В ходе поиска темы проектной работы, которой должен был завершиться курс Machine Learning. Professional, я решил поэкспериментировать с данными о фильмах, мультфильмах, сериалах и прочей схожей проду...
14.04.2024	Оптимизация гиперпараметров за 5 секунд?	Пока люди с вычислительными машинами в пустую тратят время на перебор гиперпарамтеров нейронок внутри библиотек Scikit-learn – настоящие гении тайм-менеджмента выбирают TPE и Optuna. В этой статье мы рассмотрим самые популярные методы оптим...
09.04.2024	Разворачиваем ML модель с использованием ONNX на Android в километре над землей	В свободное от работы время я летаю на параплане. Это такая штука, внешне похожая на парашют, но способная пролетать сотни километров маршрутов и висеть в воздухе часами. И это безо всякого мотора! Парим в потоке на берегу Камы Полет происх...

scikit-learn

Mentions in press and media 234

Reviews 0