Edit

CatBoost

https://catboost.ai/

Last activity: 01.11.2024

Active

CatBoost is an open-source gradient boosting on decision trees library with categorical features support out of the box, successor of the MatrixNet algorithm developed by Yandex.

Followers

2.39K

Website visits

68.3K /mo.

Mentions

Location: Russia, Moscow

Twitter

Mentions in press and media 57

Date	Title	Description
01.11.2024	Как я занял первое место в AI Journey Contest 2023 (трек Personal AI)	Несколько дней назад завершился AI Journey Contest – ежегодное соревнование по машинному обучению от Сбера. В этой статье я расскажу о своем опыте участия в этом соревновании в прошлом году, его особенностях, а также подробно разберу решени...
31.10.2024	The Rise of AutoML: Streamlining Model Management in Banking	In the fast-paced world of finance, data-driven decisions are paramount. As banks like Alfa-Bank embrace machine learning (ML), the need for efficient model management becomes critical. Enter the AutoReTrainable ML Framework (ARTEML), a gam...
31.10.2024	Искусственный интеллект в информационной безопасности: повышаем эффективность и прибыльность бизнеса	Искусственный интеллект уже прочно вошел в арсенал инструментов современного бизнеса. Его применение теперь норма, а не исключение. ИИ эффективно решает задачи классификации, анализа данных и прогнозирования рисков в самых разных отраслях. ...
29.10.2024	Митап по RISC-V в Нижегородском кремле: обсудим оптимизации под архитектуру и средства мониторинга производительности...	Если вы интересуетесь развитием открытой процессорной архитектуры или уже разрабатываете что-то под нее, присоединяйтесь в среду, 6 ноября, к вечернему митапу российского Альянса RISC-V и YADRO. Вместе с экспертами из Syntacore, ННГУ им. Ло...
25.10.2024	Фреймворк ARTEM(L): Как мы автоматизируем обучение и обновление моделей в Альфа-банке	Или как избавить DS от рутинных задач по обучению и обновлению моделей и их дальнейшему передеплою в проде? Всем привет! Я Настя Бондарева, senior Data Scientist в Хабе Юридических Лиц Альфа-Банка, лидирую инициативу ARTEML (AutoReTrainable...
24.10.2024	Продуктовый матчинг на маркетплейсе: что происходит под капотом сравнения товаров	Привет, Хабр! На связи команда продуктового матчинга ecom.tech. Сегодня расскажем вам про машинное обучение под капотом сопоставления товаров на Мегамаркете. Зачем нужен продуктовый матчинг и какие там могут быть сложности – обсуждали в про...
24.10.2024	Государственные перевороты: бармалеи выпрыгивают как черти из табакерки. Не хотите, дети, в Африку сыграть?	На исторических данных за 1991-2019 год покажем, как можно "увидеть" и "выцепить" признаки переворота. С помощью машинного обучения и ансамблевых модели. Ансамбли (конечно, не музыкальные), как показывает практика, – бол...
21.10.2024	Предиктивная аналитика политических кризисов с помощью machine learning (на исторических данных)	Допустим, вы инвестор-финансист, покупающий государственные облигации банановой республики или акции компании по выращиванию и поставке бананов или даже правитель бананового рая – всегда необходимо учитывать не только финансовые, но и полит...
08.10.2024	Учимся на чужих ошибках: как прокачать SIEM с помощью machine learning	Привет, Хабр! В этой статье мы хотим поговорить о применении технологий машинного обучения (machine learning, ML) в SIEM-системах. Разберемся, с какими проблемами и ограничениями сталкиваются операторы, расскажем о нашем модуле BAD и о том,...
03.10.2024	The Art of Search Ranking: Behind the Scenes at Avito	In the bustling digital marketplace of Avito, search ranking is akin to a finely tuned orchestra. Each element plays a crucial role in delivering the right results to users. With millions of listings and thousands of queries per second, the...
30.09.2024	Как работает поисковое ранжирование для миллионов объявлений Авито	Привет! Меня зовут Илья Валяев, я data science team lead поискового ранжирования в Авито. В этой статье рассказываю, как у нас всё устроена система ранжирования, какие технологии используем и как именно улучшаем поисковые выдачи. Статья буд...
28.09.2024	Discovering the Unknown: Yandex Music's New Features to Expand Your Musical Horizons	In the vast ocean of music streaming, finding something fresh can feel like searching for a needle in a haystack. Yandex Music is making waves with two innovative features: "Unknown" and "Trailers." These tools are desig...
25.09.2024	Знакомьтесь, «Незнакомое». Как мы сделали новый режим для Моей волны	Привет! Меня зовут Савва Степурин, я старший разработчик в группе рекомендательных продуктов в Фантехе Яндекса. Сегодня расскажу вам про то, как мы сделали «Незнакомое» для Моей волны — специальный режим для активного поиска музыкальных отк...
18.09.2024	The Rise of Open Source in Russia: A New Era for Machine Learning and Data Analysis	In the vast landscape of technology, open source is a beacon of collaboration. It invites innovation and democratizes access to tools that drive progress. Recently, a study by ITMO University has shed light on the state of open source in Ru...
17.09.2024	ИТМО провёл исследование open source в сферах машинного обучения и анализа данных	Специалисты центра «Сильный ИИ в промышленности» при ИТМО опубликовали результаты исследования особенностей и направления развития опенсорс-сообщества в сфере машинного обучения и анализа данных в России. В лидерах российского опенсорса ока...
13.09.2024	Как мы генерируем GPT-нейросетями миллиарды объявлений на малом количестве GPU. Доклад Яндекса	Привет! Меня зовут Ольга Зайкова, в Яндексе я руковожу группой автоматической генерации рекламы. Сегодня расскажу о соединении тяжёлых процессингов и GPU‑вычислений. Обсудим, как мы реализовали высоконагруженный процессинг, который обрабаты...
03.09.2024	Big Data в моде: как мы внедрили 1-to-1 персонализацию в каталоге и поиске	Привет, Хабр! Это Сергей Евстафьев и Дана Злочевская из команды ранжирования и поиска Lamoda Tech. Наша задача — помочь пользователю найти то, что ему нужно, и не потеряться в море доступных вариантов. В каталоге Lamoda в наличии более полу...
04.08.2024	The Role of Online Data Science Platforms in Promoting Learning: Insights from Kaggle Grandmaster Aravind Pillai	Share Tweet Share Share Email In the rapidly evolving field of data science, continuous learning and skill enhancement are crucial for staying relevant. Online data science platforms, such as Kaggle, provide a conducive environment for lear...
31.07.2024	ML в маркетинге: как модели делают банк более чутким к негативу	Data-driven-привет! 👋 Мы — Алексей, кроссейл-дата-аналитик, и Александр, ML-исследователь-разработчик, — объединились, чтобы поделиться нашим алгоритмом машинного обучения по предсказанию клиентского негатива от маркетинговых коммуникаций. ...
10.07.2024	10 библиотек Python для машинного обучения — подборка для начинающих	Составили список самых важных библиотек Python для машинного обучения и рассказали, для каких задач они могут быть полезны начинающим ML-инженерам и специалистам по Data Science. Собрать подборку помог Кирилл Симонов — ML-разработчик компан...
19.06.2024	«Как искусственные нейросети помогают в поиске любви: опыт использования для фильтрации анкет в дейтинг-приложении...	Девушка мечты ("представление" YandexART) Заметили сколько новостей и статей начало выходить с упоминанием нейросетей и дейтинг приложений в одном тексте? Возможно научить нейросеть фильтровать анкеты в дейтинг сервисе? Помогает э...
17.06.2024	NLP, Catboost и тематическое моделирование: создаем модель для прогнозирования цен с использованием новостей	Привет, Хабр! Меня зовут Иван, я Data Science специалист SimbirSoft. Я расскажу, как на одном из проектов мы занимались прогнозированием на месяц вперед с помощью методов NLP, Catboost и тематического моделирования на новостном потоке. Один...
07.06.2024	Повышаем интерпретируемость SHAP-графиков	Привет, Хабр! В моей работе часто возникают задачи на исследование влияния факторов, на которые мы можем оказывать продуктовое влияние, на целевые метрики сообществ ВКонтакте. Один из возможных способов решения подобных задач — обучение ML‑...
27.05.2024	Быстрая Data Quality проверка на базе алгоритма adversarial validation	Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user...
27.05.2024	Прогнозируем результаты российского кинопроката с помощью ML	Работаем c базовыми и ансамблевыми моделями машинного обучения и персептроном. Выводы: на кино можно зарабатывать , конечно, если кинопроизводители и дистрибьютеры будут эмитировать акции, облигации и иные финансовые инструменты и публикова...
21.05.2024	Умные розетки Сбера как домашняя лаборатория	Привет, друзья! Меня зовут Сергей Лурье, и это мой первый пост на Хабре, в котором я хотел бы рассказать о результатах эксперимента по детектированию активности пользователя с помощью умной розетки Sber SBDV-00123W . Для начала немного пред...
08.05.2024	Удалённое исполнение кода в ML: подходы и инструменты. Доклад Яндекса	Всем привет. На связи Артём Гойлик @ArtoLord и Владислав Волох @Chillintano из команды DataSphere в Yandex Cloud. Мы создаём инфраструктуру для ML‑разработчиков. И сегодня расскажем про одну задачу, которая, как и многие другие, начиналась ...
17.04.2024	Определение жанра фильма по описанию	Автор статьи: Олег Блохин Выпускник OTUS В ходе поиска темы проектной работы, которой должен был завершиться курс Machine Learning. Professional, я решил поэкспериментировать с данными о фильмах, мультфильмах, сериалах и прочей схожей проду...
09.04.2024	Открываем YandexART API и рассказываем, как мы учили нейросеть создавать картинки, которые понравятся людям	В Yandex Cloud с сегодняшнего дня открыт доступ к тестированию YandexART API — нейросети для генерации изображений и анимаций, которая лежит в основе приложения Шедеврум. Протестировать API можно в сервисе Foundation Models, в котором досту...
03.04.2024	AutoML на практике — как делать автоматизацию, а не её иллюзию	Привет, Хабр! Меня зовут Алексей Рязанцев, я Junior Data Scientist в Лаборатории Машинного обучения Альфа-Банка. Свой путь в Лаборатории я начал со стажировки летом-осенью 2023-го года, на которой для меня была интересная задача — разработа...
21.03.2024	Как DDoS-атаки стали для нас рутиной и как ML помогает их отражать	Несколько лет назад увидеть DDoS‑атаку было целым событием. Если такое и случалось, то инцидент тщательно анализировала целая команда специалистов, а каждая извлечённая крупица информации использовалась для обучения моделей, формирования но...
13.03.2024	Градиентный бустинг. Реализация с нуля на Python и разбор особенностей его модификаций (XGBoost, CatBoost, LightGBM)	На сегодняшний день градиентный бустинг (gradient boosting machine) является одним из основных production-решений при работе с табличными, неоднородными данными, поскольку обладает высокой производительностью и точностью, а если быть точнее...
18.01.2024	Recraft's AI graphic design tool secures $12M in Series A funding	AI graphic design generator Recraft today announced $12 million in Series A funding in a round led by Khosla Ventures and former GitHub CEO Nat Friedman. Most generative AI tools only generate raster images, which cover a portion of all pro...
17.01.2024	Can Recraft’s foundational model for graphic design swerve the AI controversy?	Controversy continues to surround the world of AI-generated imagery, and even as AI-generated images used in elections became a source of concern this week at the World Economic Forum, startups continue to plow the new furrow of AI tools fo...
18.12.2023	Как выпустить ML-сервис в прод малыми силами: кейс работы в облаке	Создание ML-модели — сложный и ресурсоёмкий во всех смыслах процесс. Но часто выкатка сервиса на основе модели в прод оказывается ещё сложнее: требует подготовки платформы, выделения ресурсов, настройки программных интерфейсов для передачи ...
09.12.2023	AI Challenge 2023: нейросети, кардиограммы и молодые умы	Церемония награждения победителей AI Challenge Привет, Хабр! Мы - Константин Егоров, Иван Свиридов и Николай Романенко, сотрудники Лаборатории искусственного интеллекта Сбера. В этом году наша команда участвовала в качестве экспертов и моде...
07.12.2023	CatBoost	Добрый день, уважаемые читатели Otus на Хабре! CatBoost – алгоритм, разработанный Yandex это это гармоничное сочетание инноваций и эффективности, особенно когда дело доходит до работы с категориальными данными. Первые шаги CatBoost были сде...
27.07.2023	Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (5 — 3 место)	Недавно закончилось соревнование от американской национальной футбольной лиги (NFL), которая объединилась с AWS, чтобы прокачать системы спортивной видеоаналитики. Организаторы поставили простую, казалось бы, задачу — точно определить, в ка...
30.05.2023	Быстро, точно, градиентно: как наш подход к градиентному бустингу повышает эффективность моделей	Доброго времени суток, уважаемые читатели! Сегодня мы вновь рады приветствовать вас в увлекательном мире дата-сайентистов банка "Открытие". На связи Иван Кондраков, Константин Грушин и Станислав Арешин. Недавно мы поделились с вам...
30.03.2023	Как быстрее узнать, что сервису плохо, или Realtime-детекция разладок с помощью CatBoost	Через любую высоконагруженную систему ежесекундно проходит огромный поток трафика. Релизы, хотфиксы, ddos-атаки, невалидные и ухудшающие эксперименты и многие другие события могут привести к проблемам, которые влияют на пользователей. Поэто...
27.02.2023	Как улучшить точность ML-модели используя разведочный анализ	Привет, Хабр! Меня зовут Кирилл Тобола, я Data Scientist и участник профессионального сообщества NTA. Добро пожаловать в год 2912, где ваши DS навыки понадобятся для решения космической загадки. Мы получили сообщение с корабля на расстоянии...
16.02.2023	Как мы распараллелили CatBoost на Spark	Привет, Хабр! Я занимаюсь инженерией данных в Х5 Tech. В этой статье я решил поделиться проблемами, с которыми столкнулись при распараллеливании CatBoost на Spark, и как мы нашли решение. Возможно, это не rocket science, но если бы со мной ...
31.01.2023	Теория вероятностей в машинном обучении. Часть 1: модель регрессии	В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия...
23.01.2023	DatRet: Реализация Tensorflow для табличных данных	Изображение автора Мой open-source продукт. Rete neurale per la previsione di Dati tabulari. (it.) Простая реализация архитектуры глубокой нейронной сети для табличных данных с автоматической генерацией слоев и послойным сокращением количес...
22.01.2023	Пример ML проекта с Pipelines+Optuna+GBDT	Введение (с чего всё началось) Началось всё с того, что я открыл для себя Kaggle. В частности, я принимаю участие в публичном соревновании Spaceship Titanic. Это более "молодая" версия классического Титаника. На момент написания э...
20.12.2022	Уже уходишь? Или предсказание оттока сотрудников с помощью AI	Вовремя обратить внимание на желание сотрудника сменить работу, понять, что стало причиной и попробовать сохранить кадры – задачи, с которыми очень часто сталкиваются HR и пытаются справиться своими методами. Мы в НОРБИТ нашли техническое р...
19.11.2022	3. Теория информации и ML. Прогноз	Часть 1 – Энтропия Часть 2 – Mutual Information В этой 3-й части мы поговорим про Machine Learning, а именно, про задачу прогноза, в контексте теории информации. Понятие Mututal Information (MI) связано с задачей прогноза. Собственно, задач...
29.08.2022	Как мы сделали распознавание речи нескольких говорящих	В психологии есть понятие эффекта коктейльной вечеринки: человек способен воспринимать полезную для себя информацию даже в ситуации, когда вокруг него много источников речи и шума. Но насколько хорошо с такой задачей справляется искусственн...
16.07.2022	Инструменты анализа временных рядов в ETNA	Меня зовут Саша, я разработчик библиотеки ETNA в Тинькофф. Расскажу про методы EDA в библиотеке ETNA, а также о том, что можно увидеть с их помощью в данных и как использовать для улучшения модели прогнозирования.Условия задачи Попробуем на...
16.06.2022	Как Яндекс Карты с помощью отзывов улучшают поиск организаций	Раньше Карты, Поиск и Алиса отвечали на запросы об организациях, во многом основываясь на данных от самих организаций. Это был нормальный компромисс, но всегда можно сделать лучше. Теперь учитываются ещё и реальные отзывы людей. Тем самым з...
17.05.2022	Категориальные признаки	Не одним One-Hot единым... Привет, хабр! Хотел бы сделать краткий экскурс про работу с категориальными признаками, который часто на просторах интернета обходят стороной. В данной статье я постараюсь расширить базовые понятия по данной темат...
21.01.2022	CatBoost, XGBoost и выразительная способность решающих деревьев	Сейчас существенная часть машинного обучения основана на решающих деревьях и их ансамблях, таких как CatBoost и XGBoost, но при этом не все имеют представление о том, как устроены эти алгоритмы "изнутри". Данный обзор охватывает с...
31.12.2021	Как увеличить точность модели с 80% до 90%+ (мой опыт)	Привет, чемпион! Возможно, перед тобой сейчас стоит задача построить предиктивную модель, или ты просто фармишь Kaggle, и тебе не хватает идей, тогда эта статья будет тебе полезна! Наверное, уже только ленивый не слышал про Data Science и т...
25.07.2021	«От категорий к векторам» или нестандартное кодирование категориальных данных. Часть 1	Привет, Хабр! С вами Артём, аналитик больших данных МегаФона. На работе занимаюсь рекомендательными системами и интересуюсь NLP. Эти две вещи и привели меня к рассматриваемой тут теме, так что садитесь поудобнее, и поехали. Кстати, к статье...
-	ML для оптимизации цен на основе эластичности по цене	Статья подготовлена для конференции Aha'22 и рассказывает про задачу выставления оптимальных цен. Я в последнее время работал над этой задачей в Яндекс Маркете и попробовал выписать ряд вещей, которые мне видятся важными в контексте этой за...
-	Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу	Привет, Хабр. Меня зовут Саша Готманов, я руковожу группой нейросетевых технологий в поиске Яндекса. На YaC 2020 мы впервые рассказали о внедрении трансформера — новой нейросетевой архитектуры для ранжирования веб-страниц. Это наиболее знач...
-	Телеграм бот для тех, кто хочет использовать ML в работе, но не готов писать код	Я работаю менеджером продуктов. В рамках рабочих и личных проектов время от времени делаю аналитику данных. Одни из самых популярных задач для меня во время анализа — поиск зависимостей, прогнозирование, деление клиентов на группы, поиск ан...

CatBoost

Mentions in press and media 57

Reviews 0