Date | Title | Description |
31.10.2024 | The Rise of AutoML: Streamlining Model Management in Banking | In the fast-paced world of finance, data-driven decisions are paramount. As banks like Alfa-Bank embrace machine learning (ML), the need for efficient model management becomes critical. Enter the AutoReTrainable ML Framework (ARTEML), a gam... |
25.10.2024 | Фреймворк ARTEM(L): Как мы автоматизируем обучение и обновление моделей в Альфа-банке | Или как избавить DS от рутинных задач по обучению и обновлению моделей и их дальнейшему передеплою в проде?
Всем привет! Я Настя Бондарева, senior Data Scientist в Хабе Юридических Лиц Альфа-Банка, лидирую инициативу ARTEML (AutoReTrainable... |
24.10.2024 | Государственные перевороты: бармалеи выпрыгивают как черти из табакерки. Не хотите, дети, в Африку сыграть? | На исторических данных за 1991-2019 год покажем, как можно "увидеть" и "выцепить" признаки переворота. С помощью машинного обучения и ансамблевых модели. Ансамбли (конечно, не музыкальные), как показывает практика, – бол... |
23.10.2024 | Книга: «Causal Inference на Python. Причинно-следственные связи в IT-разработке» | Привет, Хаброжители!
Причинно-следственный анализ — одна из важнейших методологий современной науки о данных (data science), однако между теорией и практикой сохраняется большой пробел. Матеуш написал лучшую на сегодняшний день книгу, котор... |
23.10.2024 | Поиск «токсичных» SQL-запросов | Мы, студенты из МИФИ, Даниил и Александр, пришли на стажировку в Сбербанк в департамент SberData, который занимается развитием внутренней корпоративной аналитической платформы (КАП).Это современная платформа с удобными инструментами созданн... |
22.10.2024 | The Rise of Automation: Simplifying Your Digital Workspace with WorkStarter | In the digital age, efficiency is king. Every second counts. Enter WorkStarter, a utility designed to streamline your Windows experience. This tool is like a personal assistant, ready to launch your favorite applications and websites the mo... |
22.10.2024 | Кратко про библиотеку mlfinlab: инструмент для финансового ML | Привет, Хабр!
Сегодня мы рассмотрим такую замечательную библиотеку как mlfinlab.
Если вы пытались применить методы машинного обучения к финансовым данным, то наверняка сталкивались с массой подводных камней: от шумных данных до проблем с ав... |
21.10.2024 | Предиктивная аналитика политических кризисов с помощью machine learning (на исторических данных) | Допустим, вы инвестор-финансист, покупающий государственные облигации банановой республики или акции компании по выращиванию и поставке бананов или даже правитель бананового рая – всегда необходимо учитывать не только финансовые, но и полит... |
21.10.2024 | Может ли простейшая нейросеть найти математическую закономерность в данных? | В этой небольшой статье мы научим нейросеть решать задачу умножения перестановок длины 5 (группа ) и визуализируем результаты обучения с помощью методов проекции t-SNE (и понизим размерность PCA) и алгоритма UMAP. Мы убедимся в том, что даж... |
16.10.2024 | Navigating the Digital Cinema Landscape: A DIY Movie Recommendation System | In the age of streaming, choosing a movie can feel like searching for a needle in a haystack. With countless options available, how do you find that perfect film? This article explores a DIY approach to creating a movie recommendation syste... |
15.10.2024 | Рекомендатель кино или как я писал свое DIY-решение для поиска новых фильмов | Вечер. Пересматриваю «Пятницу 13». Не люблю пересматривать фильмы, даже хорошие. Но выбрать интересное кино из потока новинок сложно. Поэтому мне захотелось написать свой рекомендатор кино. Этим и займусь в выходные.
В статье покажу, что по... |
12.10.2024 | The Evolution and Impact of Text-to-Speech Technology | Text-to-Speech (TTS) technology has transformed the way we interact with machines. It turns written text into spoken words, bridging the gap between human communication and digital interfaces. Imagine a world where machines speak as fluentl... |
12.10.2024 | Линейная регрессия и её регуляризация в Scikit-learn | В этой статье мы рассмотрим модели линейной регрессии, доступные в scikit-learn. Обсудим, что такое регуляризация, на примерах Ridge, Lasso и Elastic Net, а также покажем, как эти методы можно реализовать на Python.
Создание модели линейной... |
11.10.2024 | Что такое технология TTS, как устроена и каких сферах используется синтез речи | Синтез речи — технология, которая преобразует написанный текст в аудиосигнал. Программа анализирует слова и создает звуки, которые имитируют человеческий голос.
Метод называют по-разному: генерация речи, Text-to-Voice (T2V), Text-to-Speech ... |
10.10.2024 | Unlocking the Digital Frontier: Affordable Learning in Data Science and Mobile App Development | In a world driven by technology, the demand for skilled professionals in data science and mobile app development is skyrocketing. The landscape is changing rapidly, and the need for knowledge is more pressing than ever. Fortunately, two rec... |
08.10.2024 | Learn Data Science at Your Own Pace with Over 80 Hours of Training | TL;DR: Unlock 9 data science courses and over 80 hours of content with the 2024 Beginner Data Science Bundle, just $36 (reg. $359).
Looking to dive into the world of data science but not sure where to start? The 2024 Beginner Data Science B... |
07.10.2024 | The Art of Data Preprocessing in Machine Learning: A Crucial Step for Success | In the world of machine learning, data is the lifeblood. But raw data is often messy, like a canvas splattered with paint. Before we can create a masterpiece, we must first clean it up. This process is known as data preprocessing. It’s the ... |
07.10.2024 | Предварительная обработка данных в машинном обучении: инструкция, инструменты, полезные ресурсы для начинающих... | В статье рассказываем, зачем обрабатывать данные перед загрузкой в модель, как провести предобработку и какие инструменты использовать.
Мария Жарова
Data Scientist, Альфа-БанкЧто такое предобработка данных
Предобработка — это подготовка наб... |
06.10.2024 | Kaggle для футболистов: Классификация событий на футбольном поле | Всем привет! В конце 2022 года закончилось соревнование DFL - Bundesliga Data Shootout. Так как мне интересен футбол и в целом спортивная аналитика, то я решил поучаствовать в этом соревновании. Целью данной статьи является описание моего п... |
03.10.2024 | Кратко про Ensemble методы с примерами | Привет, Хабр!
Сегодня мы рассмотрим Ensemble методов, которые помогают сделать модели более точными и устойчивыми к переобучению. Рассмотрим три основных подхода: Bagging, Boosting и Stacking, и посмотрим, как их реализовать на Python. Bagg... |
26.09.2024 | Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Начало | В первой главе исследования был описан набор данных с временными рядами о погоде, который мы будем использовать для выполнения задачи прогнозирования температуры, а также были приведены шаги по его предварительной подготовке.
В данной главе... |
25.09.2024 | Unlocking the Future: Affordable Data Solutions for Everyone | In a world where data reigns supreme, having the right tools is crucial. The digital landscape is evolving rapidly. Businesses and individuals alike are searching for ways to harness the power of data science and secure their information. F... |
25.09.2024 | Unlocking Potential: Affordable Tools for the Modern Professional | In today's fast-paced world, efficiency is the name of the game. Professionals need tools that empower them to work smarter, not harder. Two standout offerings have emerged recently: the Afirstsoft AI PDF Editor and the 2024 Data Science &a... |
24.09.2024 | Harness the Power of Data Science & Machine Learning from Home | TL;DR: The 2024 Data Science & Machine Learning Bundle is available for just $39.99 (reg. $269) and includes comprehensive training to build your AI and data science skills.
With most things in life, flexibility is key, and that’s espec... |
19.09.2024 | Топ-5 библиотек для анализа данных на Python | Python — один из самых популярных языков для анализа данных благодаря множеству удобных и эффективных библиотек. Эти инструменты помогают обрабатывать, анализировать и визуализировать данные, делая вашу работу быстрее и проще.
Преподаватель... |
18.09.2024 | The Rise of Open Source in Russia: A New Era for Machine Learning and Data Analysis | In the vast landscape of technology, open source is a beacon of collaboration. It invites innovation and democratizes access to tools that drive progress. Recently, a study by ITMO University has shed light on the state of open source in Ru... |
18.09.2024 | Businesses ignore security when deploying AI | A new report from Orca Security highlights that, as organizations invest in AI innovation, most of them are doing so without regard for security.
The report uncovers a wide range of AI risks, including exposed API keys, overly permissive id... |
17.09.2024 | ИТМО провёл исследование open source в сферах машинного обучения и анализа данных | Специалисты центра «Сильный ИИ в промышленности» при ИТМО опубликовали результаты исследования особенностей и направления развития опенсорс-сообщества в сфере машинного обучения и анализа данных в России. В лидерах российского опенсорса ока... |
13.09.2024 | Пошаговое руководство по созданию синтетических данных в Python | Простое руководство для новичков: как самому генерировать данные для анализа и тестирования
Представьте: вы только что написали модель машинного обучения и вам нужно протестировать её работу в конкретном сценарии. Или вы собираетесь опублик... |
11.09.2024 | Введение в Feature Engineering для начинающих дата-сайентистов и ML-инженеров | Feature Engineering, или генерация признаков — это процесс создания новых признаков (характеристик или фич) из имеющихся данных, чтобы улучшить работу модели машинного обучения. Он может включать преобразование данных, создание новых призна... |
09.09.2024 | Начало работы с растровыми геоданными средствами GDAL/Python | Введение в растровую модель геоданных и работу с ней средствами GDAL в Python. Содержание статьи:
Концепция растровой модели геоданных
Примеры растровых геоданных
Свойства растровых геоданных
Хранение растровых геоданных
Знакомство с GDAL
Ч... |
07.09.2024 | Знакомимся с линейной алгеброй в NumPy | Библиотека NumPy для Python — это основа науки о данных и биоинформатики. При этом, хоть каждому программисту Python и знакомо имя пакета для установки:
pip install numpy
и команда импорта библиотеки:
import numpy as np
в практических задач... |
03.09.2024 | The Rise of Python and the Fall of Passwords: A New Era in Tech | In the ever-evolving landscape of technology, two trends stand out: the dominance of Python and the decline of traditional passwords. These shifts reflect broader changes in how we develop software and secure our digital lives.
Python has b... |
03.09.2024 | Рецензия на книгу “Базовая математика для искусственного интеллекта” | Сегодня обзор новой книги по математическому аппарату ИИ — для всех вовлеченных в анализ данных и построение ML/DL моделей. «Базовая математика для искусственного интеллекта» (Essential Math for AI: Next‑Level Mathematics for Efficient and ... |
02.09.2024 | Как найти иголку в стоге сена? Или обозор Retrieval Algorithms | Появление трансформеров, а впоследствии LLM (Large Language Models) привело к активному распространению чат-ботов и различных ассистентов помогающих в получении информации или генерации контента. Но несмотря на то что LLM способны по запрос... |
02.09.2024 | 55% Python-разработчиков используют Linux-окружение и 22% — редактор Visual Studio Code | Организация Python Software Foundation и компания JetBrains провели ежегодный опрос, который затронул более 25 тысяч разработчиков на языке программирования Python. Они опубликовали результаты своего исследования.
Большинство участников опр... |
01.09.2024 | The Algorithm Behind Hollywood: How Data Science Shapes Film Success | In the heart of Hollywood, a quiet revolution is underway. The glitz and glamour of the silver screen are now intertwined with the cold logic of algorithms. The film industry, once a realm of artistic expression, is increasingly relying on ... |
30.08.2024 | Гиперпараметрическая оптимизация прокатных характеристик фильма и подбор состава творческой группы | Можно ли подобрать прокатные характеристики фильма (жанр, время, деятельность, возрастной рейтинг и т.п.), а также режиссера, сценариста, актеров, оператора (всю творческую группу) так, чтобы существенно повысить его результаты в прокате? Ж... |
28.08.2024 | Как научить компьютер различать цвета? | Привет, Хабр!
Думаю, все заметили, что технологии компьютерного зрения и искусственного интеллекта появились во многих сферах нашей жизни. Аналитика изображений применяется на производстве, в медицине, в системах управления, в географии.
В ... |
26.08.2024 | Делаем кроссворд про ML с помощью Монте-Карло и ChatGPT | Привет Хабр! Меня зовут Илья и сегодня мы поговорим про кроссворды.
Если когда-то будет противостояние человечества и машин, то последнее что позволит нам, кожаным мешкам, отличить своих собратьев от бездушных киборгов - это искусство соста... |
23.08.2024 | Пайплайн распознавания транспортных средств: как это работает | Привет, Хабр! С вами Анастасия Белозерова, руководитель исследовательских проектов в области транспорта в VisionLabs. В прошлом посте я рассказала, какие задачи можно решить с помощью видеоаналитики. А сегодня объясню, как устроен наш пайпл... |
22.08.2024 | Кластеризация: зачем и как объединять Gaussian Mixture и DBSCAN? | Кластеризация – одно из самых распространенных применений методов машинного обучения без учителя. Задача кластеризации возникает, когда вам нужно разделить данные (или объекты, описываемые каждый неким набором параметров/координат) на групп... |
20.08.2024 | Bridging the Gap: Machine Learning and Data Transfer in Mobile Development | In the world of mobile development, two concepts stand out: machine learning and efficient data transfer. Both are crucial for creating responsive, intelligent applications. Let’s dive into how these elements intertwine, focusing on Android... |
19.08.2024 | Автоматизация управления ML-экспериментами с помощью СI/CD | TL;DR
Использование рабочих процессов CI/CD (Continuous Integration/Continuous Deployment (Delivery), непрерывная интеграция/непрерывное развёртывание (непрерывная доставка)) для проведения ML‑экспериментов (Machine Learning, машинное обуче... |
19.08.2024 | Мечтают ли Андроиды о нейропроцессорных модулях? Перенос модели TensorFlow Lite в мобильное приложение | Несмотря на то, что искусственный интеллект – наиболее хайповая тема в современных ИТ, и учитывая тот факт, что предыдущая мега-история с Internet of Things и Edge Computing до сих пор не забылась, я удивился, что отсутствуют внятные обучал... |
14.08.2024 | Как и зачем считать сбалансированный precision score | Precision score – это одна из метрик, оценивающих качество решения задачи бинарной классификации в машинном обучении. Она давно себя зарекомендовала: это одно интерпретируемое и легко вычисляемое число, оценивающее качество алгоритма. Слове... |
13.08.2024 | Navigating the Waters of Machine Learning: A Dive into Practical Applications and Feature Selection | In the vast ocean of data science, machine learning (ML) and artificial intelligence (AI) are the ships steering us toward new horizons. As the tide of technology rises, engineers and developers must learn to navigate these waters. The rece... |
13.08.2024 | The Rise of the Sixth Data Platform: A New Era in Data Management | In the fast-paced world of technology, data is the new oil. It fuels decisions, drives innovation, and shapes industries. As we stand on the brink of a new era, the concept of the "sixth data platform" emerges as a beacon of hope ... |
12.08.2024 | Рецензия на книгу “Прикладное машинное обучение и искусственный интеллект для инженеров” Джеффа Просиза | Хорошая новость — все больше книг по машинному и глубокому обучению теперь доступны и в русском переводе. Очередная рецензия будет на книгу «Прикладное машинное обучение и искусственный интеллект для инженеров» (Applied Machine Learning and... |
09.08.2024 | Financial Data Analysts: Making Sense of Big Data in FinTech | Share
Tweet
Share
Share
Email
Financial technology, or FinTech, data is the new gold. Companies are increasingly relying on vast amounts of data to make informed decisions, drive innovation, and maintain a competitive edge. This influx of d... |
08.08.2024 | Рекурсивный отбор признаков. Динамический шаг в танце feature selection | Об авторе
Приветствую вас! Меня зовут Эрик, хочу поделиться личным опытом и знаниями. Я практикующий дата-сайентист с опытом участия и судейства в чемпионатах по прогнозированию, а также аналитик-исследователь, которому нравится искать, нах... |
01.08.2024 | Введение в MLflow | MLflow - это инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этом руководстве мы посмотрим, как организовать эксперименты и запуски, оптимизировать гиперпа... |
29.07.2024 | Navigating the Future of Video Content Search with AI | In the vast ocean of digital content, finding the right video can feel like searching for a needle in a haystack. The explosion of short video platforms has transformed how we consume media. By 2026, the market for short videos is projected... |
24.07.2024 | Дата-сайентистам: рецензия на книгу “Машинное обучение с PyTorch и Scikit-Learn” | Это случилось: в русском переводе вышла самая объемная из когда-либо издававшихся книг по машинному и глубокому обучению. "Machine Learning with PyTorch and Scikit-Learn" Себастьяна Рашки и его соавторов — это огромное, почти на 8... |
19.07.2024 | Анализ негативных комментариев TRUE CRIME | Привет! Я тут активно пытаюсь охватить разные области в сфере Data Science и решила, что было бы классно покопаться c обработкой естественного языка (NLP) на примере комментариев YouTube. Так как после работы я часто смотрю видео Саши Сулим... |
15.07.2024 | Использование моделей EfficientNet для классификации изображений | Искусственные нейронные сети (ИНС) — мощный инструмент в области компьютерного зрения, особенно в задачах классификации изображений. Эта область применения была одной из первых, для которой ИНС были разработаны. Например, перцептрон Розенбл... |
10.07.2024 | 10 библиотек Python для машинного обучения — подборка для начинающих | Составили список самых важных библиотек Python для машинного обучения и рассказали, для каких задач они могут быть полезны начинающим ML-инженерам и специалистам по Data Science. Собрать подборку помог Кирилл Симонов — ML-разработчик компан... |
01.07.2024 | Машинное обучение для чайников | Машинное обучение? Это не так сложно. В этой статье я разберу основные принципы и их реализацию.
Для погружения рассмотрим:
основную парадигму обучения -- обучение с учителем (Supervised Learning);
математические основы машинного обучения н... |
28.06.2024 | Основы теории вероятностей для будущих программистов и дата-аналитиков | Теория вероятностей — важный инструмент, который помогает создавать случайные числа для симуляций и криптографии, улучшать алгоритмы и структуры данных, а еще — разрабатывать точные модели для машинного обучения.
Вместе с Ильей Котовым, спе... |
27.06.2024 | Interlock Launches ThreatSlayer Web3 Security Extension and Incentivized Crowdsourced Internet Security Community | Fairfield, CT, USA, June 27th, 2024, Chainwire
Uses blockchain and Web3 to incentivize users
to participate and share essential threat data
Interlock today announced a Web3, incentivized crowdsourced internet security community that aims to... |
25.06.2024 | Обнаружение вторжений с применением технологий машинного обучения. Часть 1 | Привет Хабр! Меня зовут Татьяна Ошуркова, я главный аналитик департамента ИТ корпоративного, инвестиционного и депозитарного бизнеса Росбанка и автор телеграм-канала IT Talks.
Совсем недавно я провела несколько вебинаров на тему использован... |
19.06.2024 | SARIMAX vs Экспоненциальное сглаживание: Когда простота побеждает | В прошлом посте я рассказывала про свои мучения с моделькой ARIMA. Здесь же я расскажу о следующей серии издевательств над временными рядами, SARIMAX и экспоненциальным сглаживанием.
Для начала хочу исправить косяки прошлой статьи и прогово... |
17.06.2024 | NLP, Catboost и тематическое моделирование: создаем модель для прогнозирования цен с использованием новостей | Привет, Хабр! Меня зовут Иван, я Data Science специалист SimbirSoft. Я расскажу, как на одном из проектов мы занимались прогнозированием на месяц вперед с помощью методов NLP, Catboost и тематического моделирования на новостном потоке.
Один... |
15.06.2024 | Мои мысли о Python in Excel | 22 августа 2023 года компания Microsoft выпустила предварительную версию «Python in Excel». Я разработчик xlwings и автор книги O’Reilly Python for Excel, поэтому мне, разумеется, стало интересно её потестировать. Не следует судить книгу по... |
14.06.2024 | Лучшие библиотеки Python для Data Science в 2024 году | Python — один из самых распространенных языков программирования в Data Science (третье место в опросе разработчиков StackOverflow). Популярность языка обусловлена наличием множества пакетов, которые можно использовать для решения различных ... |
14.06.2024 | Метрики оценки качества моделей и анализ ошибок в машинном обучении. Подробное руководство | Одним из критически важных шагов при создании хорошей модели является правильный выбор метрики для оценки её качества, поскольку неправильный выбор может привести к неверным выводам и, как следствие, к принятию не самых оптимальных решений.... |
12.06.2024 | Временные ряды и ARIMA: Как предсказывать будущее без хрустального шара | Часть 1
Что такое временной ряд, модель ARIMA и как к ней подбирать параметры.
Временной ряд — собранный в разные моменты времени статистический материал о значении каких-либо параметров (в простейшем случае одного) исследуемого процесса. (... |
07.06.2024 | Где лучше всего пробовать идеи для обучающихся систем? | Для того, чтобы разобраться в сложной и объемной теме машинного обучения, попробовать свои силы и отточить навыки, оптимально подходит библиотека scikit-learn (sklearn). Это среда языка Python, она реализует множество различных алгоритмов о... |
05.06.2024 | Мечтает ли GPT-4o о сегментации картинок...? | Всем привет, Меня зовут Богдан Печёнкин. Многие Меня знают как соавтора Симулятора DS на Karpov.Courses. Сейчас Я фаундер стартапа Vibe AI – это AI Dating Copilot для парней и девушек, который помогает в переписках на сайтах знакомств и в м... |
03.06.2024 | Сравниваем DBSCAN и OPTICS | Привет, Хабр)
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
Кстати, я веду телеграм-канал по ML, в котором описываю интересные фреймворки, библиотеки, open-source ин... |
27.05.2024 | Быстрая Data Quality проверка на базе алгоритма adversarial validation | Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user... |
10.05.2024 | Методы оптимизации в машинном и глубоком обучении. От простого к сложному | В данной статье представлен обзор различных популярных (и не только) оптимизаторов, которые применяются в машинном и глубоком обучении, в частности для обучения нейронных сетей. Мы рассмотрим их основную идею и ключевые особенности, переход... |
04.05.2024 | Главные отличия PCA от UMAP и t-SNE | Здесь будет рассказано о главных отличиях самого старого и базового алгоритма снижения размерности - PCA от его популярных современных коллег - UMAP и t-SNE. Предполагается, что читатель уже предварительно что-то слышал про эти алгоритмы, п... |
29.04.2024 | Как обнаружить и устранить мультиколлинеарность с помощью Statsmodels в Питоне | Привет, Хабр!
Мультиколлинеарность возникает, когда в модели множественной регрессии одна из независимых переменных может быть линейно предсказана с помощью других независимых переменных с высокой степенью точности. Это явление приводит к т... |
23.04.2024 | Разбираемся в ROC и AUC | Привет, Хабр!
В машинном обучение очень важны метрики оценки эффективности моделей. Среди таких метрик есть: кривые ROC и показатель AUC. Они позволяют оценивать бинарные классификаторы.
Кривая ROC – это график, который иллюстрирует произво... |
20.04.2024 | NumPy для самых маленьких | Математика везде в нашей жизни, но в программировании, а особенно ML ее два раза больше. Обычно Питон берут в пример самого "научного" языка программирования из-за математических фреймворков. Как не Питон может помочь оперировать ... |
19.04.2024 | Гайд texthero pandas | Упрощенная обработка естественного языка (NLP)
Я всегда нахожусь в поиске новых инструментов, которые помогут мне упростить процедуру обработки естественного языка, поэтому, когда я наткнулся на короткий видеоклип, показывающий функциональн... |
18.04.2024 | T-test. Зависимость от независимости | Привет, Хабр! Теме А/Б-тестирования посвящено достаточно много статей, и вот держите ещё одну. Тема экспериментов для выявления эффективности внедрения доработок популярна не только последний год и она, скорее всего, освещена уже со всех во... |
17.04.2024 | Определение жанра фильма по описанию | Автор статьи: Олег Блохин
Выпускник OTUS
В ходе поиска темы проектной работы, которой должен был завершиться курс Machine Learning. Professional, я решил поэкспериментировать с данными о фильмах, мультфильмах, сериалах и прочей схожей проду... |
14.04.2024 | Оптимизация гиперпараметров за 5 секунд? | Пока люди с вычислительными машинами в пустую тратят время на перебор гиперпарамтеров нейронок внутри библиотек Scikit-learn – настоящие гении тайм-менеджмента выбирают TPE и Optuna.
В этой статье мы рассмотрим самые популярные методы оптим... |
09.04.2024 | Разворачиваем ML модель с использованием ONNX на Android в километре над землей | В свободное от работы время я летаю на параплане. Это такая штука, внешне похожая на парашют, но способная пролетать сотни километров маршрутов и висеть в воздухе часами. И это безо всякого мотора!
Парим в потоке на берегу Камы
Полет происх... |
06.04.2024 | Анализ новостей с помощью сегментации и кластеризации временных рядов | В Отусе я прошла курс ML Advanced и открыла для себя интересные темы, связанные с анализом временных рядов, а именно, их сегментацию и кластеризацию. Я решила позаимствовать полученные знания для своей дипломной университетской работы по ив... |
03.04.2024 | AutoML на практике — как делать автоматизацию, а не её иллюзию | Привет, Хабр! Меня зовут Алексей Рязанцев, я Junior Data Scientist в Лаборатории Машинного обучения Альфа-Банка. Свой путь в Лаборатории я начал со стажировки летом-осенью 2023-го года, на которой для меня была интересная задача — разработа... |
30.03.2024 | Линейная регрессия. Основная идея, модификации и реализация с нуля на Python | В машинном и глубоком обучении линейная регрессия занимает особое место, являясь не просто статистическим инструментом, но а также фундаментальным компонентом для многих более сложных концепций. В данной статье рассмотрен не только принцип ... |
28.03.2024 | Логистическая и Softmax-регрессии. Основная идея и реализация с нуля на Python | Начнём с более простого. Логистическая регрессия — линейный бинарный классификатор, основанный на применении сигмоидальной функции к линейной комбинации признаков, результатом которого является вероятность принадлежности к определённому кла... |
28.03.2024 | Как я разрабатывал веб-сервис по бронированию электронных зарядных станций для электромобилей (часть 1) | О себе
Привет всем, на связи Арсений Елисеев, я fullstack-разработчик в одном ИТ-интеграторе! Относительно недавно мы получили заказ на разработку веб-сервиса, который позволял бы нашим клиентам, владельцам электрокаров, строить маршруты и ... |
27.03.2024 | ChatGPT и отзывы на приложение: Анализ тональности для улучшения пользовательского опыта | Автор статьи: Николай Задубровский @Nikolay347, выпускник OTUS.
Исследование выполнено под руководством @mashkka_t (автор канала Mashka про Data Science) в рамках выпускного проекта на курсе Machine Learning в OTUS.
Привет, дорогие читатели... |
24.03.2024 | Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python | Линейный дискриминантный анализ (Linear Discriminant Analysis или LDA) — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерн... |
23.03.2024 | Наивный байесовский классификатор. Основная идея, модификации и реализация с нуля на Python | Наивный байесовский классификатор (Naive Bayes classifier) — вероятностный классификатор на основе формулы Байеса со строгим (наивным) предположением о независимости признаков между собой при заданном классе, что сильно упрощает задачу клас... |
22.03.2024 | Метод опорных векторов (SVM). Подходы, принцип работы и реализация с нуля на Python | Метод опорных векторов (Support Vector Machine или просто SVM) — мощный и универсальный набор алгоритмов для работы с данными любой формы, применяемый не только для задач классификации и регрессии, но и также для выявления аномалий. В данно... |
21.03.2024 | Метод K-ближайших соседей (KNN). Принцип работы, разновидности и реализация с нуля на Python | К-ближайших соседей (K-Nearest Neighbors или просто KNN) — алгоритм классификации и регрессии, основанный на гипотезе компактности, которая предполагает, что расположенные близко друг к другу объекты в пространстве признаков имеют схожие зн... |
20.03.2024 | Дерево решений (CART). От теоретических основ до продвинутых техник и реализации с нуля на Python | Дерево решений CART (Classification and Regressoin Tree) — алгоритм классификации и регрессии, основанный на бинарном дереве и являющийся фундаментальным компонентом случайного леса и бустингов, которые входят в число самых мощных алгоритмо... |
19.03.2024 | Бэггинг и случайный лес. Ключевые особенности и реализация с нуля на Python | Далее пойдёт речь про бэггинг и мой самый любимый алгоритм — случайный лес. Не смотря на то, что это одни из самых первых алгоритмов среди семейства ансамблей, они до сих пор пользуются большой популярностью за счёт своей простоты и эффекти... |
19.03.2024 | Ищем Арнольда Шварценеггера среди мужчин, женщин и детей с помощью нейросети на С++ | Привет, Хабр! Меня зовут Кирилл Колодяжный, я ведущий инженер-программист в YADRO. Помимо основных рабочих задач, включающих исследование проблем производительности СХД, я увлекаюсь машинным обучением. Участвовал в коммерческих проектах, св... |
15.03.2024 | Выжимаем из Random Forest максимум: увеличиваем полноту при 100% точности | Была классическая задача: по табличным данным предсказать некое событие — случится или нет. И как бы я к этим данным ни подбирался, с какого ракурса ни смотрел, результат, увы, не впечатлял. Данных было мало, а то, что было, обладало слабой... |
15.03.2024 | Алгоритмы AdaBoost (SAMME & R2). Принцип работы и реализация с нуля на Python | Следующим мощным алгоритмом машинного обучения является AdaBoost (adaptive boosting), в основе которого лежит концепция бустинга, когда слабые базовые модели последовательно объединяются в одну сильную, исправляя ошибки предшественников.
В ... |
13.03.2024 | Градиентный бустинг. Реализация с нуля на Python и разбор особенностей его модификаций (XGBoost, CatBoost, LightGBM) | На сегодняшний день градиентный бустинг (gradient boosting machine) является одним из основных production-решений при работе с табличными, неоднородными данными, поскольку обладает высокой производительностью и точностью, а если быть точнее... |
12.03.2024 | В поисках самой мощной видеокарты! Тестируем А100 и А6000 Ada на большой языковой модели | Большие языковые модели (LLM) произвели настоящую революцию в мире ML. Все больше компаний стремятся так или иначе извлечь из них пользу. Например, в Selectel мы оцениваем рациональность развертывания частной LLM для помощи сотрудникам техп... |
11.03.2024 | Стекинг и блендинг в ML. Ключевые особенности и реализация с нуля на Python | Среди всех методов ансамблирования особое внимание заслуживают две очень мощные техники, известные как стекинг (stacked generalization) и блендинг, особенность которых заключается в возможности использования прогнозов не только однородных, ... |
09.03.2024 | Nearest-Neighbors (python 3) | Исходный код + Описание команд программы + Описание идеи алгоритма
sklearn.neighbors — это библиотека, которая предоставляет возможности работы с алгоритмами, основанными на соседях (как для случая обучения с учителем, так и для случая обуч... |