Date | Title | Description |
01.11.2024 | Как я занял первое место в AI Journey Contest 2023 (трек Personal AI) | Несколько дней назад завершился AI Journey Contest – ежегодное соревнование по машинному обучению от Сбера. В этой статье я расскажу о своем опыте участия в этом соревновании в прошлом году, его особенностях, а также подробно разберу решени... |
31.10.2024 | The Rise of AutoML: Streamlining Model Management in Banking | In the fast-paced world of finance, data-driven decisions are paramount. As banks like Alfa-Bank embrace machine learning (ML), the need for efficient model management becomes critical. Enter the AutoReTrainable ML Framework (ARTEML), a gam... |
31.10.2024 | Искусственный интеллект в информационной безопасности: повышаем эффективность и прибыльность бизнеса | Искусственный интеллект уже прочно вошел в арсенал инструментов современного бизнеса. Его применение теперь норма, а не исключение. ИИ эффективно решает задачи классификации, анализа данных и прогнозирования рисков в самых разных отраслях.
... |
29.10.2024 | Митап по RISC-V в Нижегородском кремле: обсудим оптимизации под архитектуру и средства мониторинга производительности... | Если вы интересуетесь развитием открытой процессорной архитектуры или уже разрабатываете что-то под нее, присоединяйтесь в среду, 6 ноября, к вечернему митапу российского Альянса RISC-V и YADRO. Вместе с экспертами из Syntacore, ННГУ им. Ло... |
25.10.2024 | Фреймворк ARTEM(L): Как мы автоматизируем обучение и обновление моделей в Альфа-банке | Или как избавить DS от рутинных задач по обучению и обновлению моделей и их дальнейшему передеплою в проде?
Всем привет! Я Настя Бондарева, senior Data Scientist в Хабе Юридических Лиц Альфа-Банка, лидирую инициативу ARTEML (AutoReTrainable... |
24.10.2024 | Продуктовый матчинг на маркетплейсе: что происходит под капотом сравнения товаров | Привет, Хабр! На связи команда продуктового матчинга ecom.tech. Сегодня расскажем вам про машинное обучение под капотом сопоставления товаров на Мегамаркете.
Зачем нужен продуктовый матчинг и какие там могут быть сложности – обсуждали в про... |
24.10.2024 | Государственные перевороты: бармалеи выпрыгивают как черти из табакерки. Не хотите, дети, в Африку сыграть? | На исторических данных за 1991-2019 год покажем, как можно "увидеть" и "выцепить" признаки переворота. С помощью машинного обучения и ансамблевых модели. Ансамбли (конечно, не музыкальные), как показывает практика, – бол... |
21.10.2024 | Предиктивная аналитика политических кризисов с помощью machine learning (на исторических данных) | Допустим, вы инвестор-финансист, покупающий государственные облигации банановой республики или акции компании по выращиванию и поставке бананов или даже правитель бананового рая – всегда необходимо учитывать не только финансовые, но и полит... |
08.10.2024 | Учимся на чужих ошибках: как прокачать SIEM с помощью machine learning | Привет, Хабр! В этой статье мы хотим поговорить о применении технологий машинного обучения (machine learning, ML) в SIEM-системах. Разберемся, с какими проблемами и ограничениями сталкиваются операторы, расскажем о нашем модуле BAD и о том,... |
03.10.2024 | The Art of Search Ranking: Behind the Scenes at Avito | In the bustling digital marketplace of Avito, search ranking is akin to a finely tuned orchestra. Each element plays a crucial role in delivering the right results to users. With millions of listings and thousands of queries per second, the... |
30.09.2024 | Как работает поисковое ранжирование для миллионов объявлений Авито | Привет! Меня зовут Илья Валяев, я data science team lead поискового ранжирования в Авито. В этой статье рассказываю, как у нас всё устроена система ранжирования, какие технологии используем и как именно улучшаем поисковые выдачи. Статья буд... |
28.09.2024 | Discovering the Unknown: Yandex Music's New Features to Expand Your Musical Horizons | In the vast ocean of music streaming, finding something fresh can feel like searching for a needle in a haystack. Yandex Music is making waves with two innovative features: "Unknown" and "Trailers." These tools are desig... |
25.09.2024 | Знакомьтесь, «Незнакомое». Как мы сделали новый режим для Моей волны | Привет! Меня зовут Савва Степурин, я старший разработчик в группе рекомендательных продуктов в Фантехе Яндекса. Сегодня расскажу вам про то, как мы сделали «Незнакомое» для Моей волны — специальный режим для активного поиска музыкальных отк... |
18.09.2024 | The Rise of Open Source in Russia: A New Era for Machine Learning and Data Analysis | In the vast landscape of technology, open source is a beacon of collaboration. It invites innovation and democratizes access to tools that drive progress. Recently, a study by ITMO University has shed light on the state of open source in Ru... |
17.09.2024 | ИТМО провёл исследование open source в сферах машинного обучения и анализа данных | Специалисты центра «Сильный ИИ в промышленности» при ИТМО опубликовали результаты исследования особенностей и направления развития опенсорс-сообщества в сфере машинного обучения и анализа данных в России. В лидерах российского опенсорса ока... |
13.09.2024 | Как мы генерируем GPT-нейросетями миллиарды объявлений на малом количестве GPU. Доклад Яндекса | Привет! Меня зовут Ольга Зайкова, в Яндексе я руковожу группой автоматической генерации рекламы. Сегодня расскажу о соединении тяжёлых процессингов и GPU‑вычислений. Обсудим, как мы реализовали высоконагруженный процессинг, который обрабаты... |
03.09.2024 | Big Data в моде: как мы внедрили 1-to-1 персонализацию в каталоге и поиске | Привет, Хабр! Это Сергей Евстафьев и Дана Злочевская из команды ранжирования и поиска Lamoda Tech. Наша задача — помочь пользователю найти то, что ему нужно, и не потеряться в море доступных вариантов.
В каталоге Lamoda в наличии более полу... |
04.08.2024 | The Role of Online Data Science Platforms in Promoting Learning: Insights from Kaggle Grandmaster Aravind Pillai | Share
Tweet
Share
Share
Email
In the rapidly evolving field of data science, continuous learning and skill enhancement are crucial for staying relevant. Online data science platforms, such as Kaggle, provide a conducive environment for lear... |
31.07.2024 | ML в маркетинге: как модели делают банк более чутким к негативу | Data-driven-привет! 👋 Мы — Алексей, кроссейл-дата-аналитик, и Александр, ML-исследователь-разработчик, — объединились, чтобы поделиться нашим алгоритмом машинного обучения по предсказанию клиентского негатива от маркетинговых коммуникаций.
... |
10.07.2024 | 10 библиотек Python для машинного обучения — подборка для начинающих | Составили список самых важных библиотек Python для машинного обучения и рассказали, для каких задач они могут быть полезны начинающим ML-инженерам и специалистам по Data Science. Собрать подборку помог Кирилл Симонов — ML-разработчик компан... |
19.06.2024 | «Как искусственные нейросети помогают в поиске любви: опыт использования для фильтрации анкет в дейтинг-приложении... | Девушка мечты ("представление" YandexART)
Заметили сколько новостей и статей начало выходить с упоминанием нейросетей и дейтинг приложений в одном тексте? Возможно научить нейросеть фильтровать анкеты в дейтинг сервисе? Помогает э... |
17.06.2024 | NLP, Catboost и тематическое моделирование: создаем модель для прогнозирования цен с использованием новостей | Привет, Хабр! Меня зовут Иван, я Data Science специалист SimbirSoft. Я расскажу, как на одном из проектов мы занимались прогнозированием на месяц вперед с помощью методов NLP, Catboost и тематического моделирования на новостном потоке.
Один... |
07.06.2024 | Повышаем интерпретируемость SHAP-графиков | Привет, Хабр! В моей работе часто возникают задачи на исследование влияния факторов, на которые мы можем оказывать продуктовое влияние, на целевые метрики сообществ ВКонтакте. Один из возможных способов решения подобных задач — обучение ML‑... |
27.05.2024 | Быстрая Data Quality проверка на базе алгоритма adversarial validation | Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user... |
27.05.2024 | Прогнозируем результаты российского кинопроката с помощью ML | Работаем c базовыми и ансамблевыми моделями машинного обучения и персептроном. Выводы: на кино можно зарабатывать , конечно, если кинопроизводители и дистрибьютеры будут эмитировать акции, облигации и иные финансовые инструменты и публикова... |
21.05.2024 | Умные розетки Сбера как домашняя лаборатория | Привет, друзья!
Меня зовут Сергей Лурье, и это мой первый пост на Хабре, в котором я хотел бы рассказать о результатах эксперимента по детектированию активности пользователя с помощью умной розетки Sber SBDV-00123W .
Для начала немного пред... |
08.05.2024 | Удалённое исполнение кода в ML: подходы и инструменты. Доклад Яндекса | Всем привет. На связи Артём Гойлик @ArtoLord и Владислав Волох @Chillintano из команды DataSphere в Yandex Cloud. Мы создаём инфраструктуру для ML‑разработчиков. И сегодня расскажем про одну задачу, которая, как и многие другие, начиналась ... |
17.04.2024 | Определение жанра фильма по описанию | Автор статьи: Олег Блохин
Выпускник OTUS
В ходе поиска темы проектной работы, которой должен был завершиться курс Machine Learning. Professional, я решил поэкспериментировать с данными о фильмах, мультфильмах, сериалах и прочей схожей проду... |
09.04.2024 | Открываем YandexART API и рассказываем, как мы учили нейросеть создавать картинки, которые понравятся людям | В Yandex Cloud с сегодняшнего дня открыт доступ к тестированию YandexART API — нейросети для генерации изображений и анимаций, которая лежит в основе приложения Шедеврум. Протестировать API можно в сервисе Foundation Models, в котором досту... |
03.04.2024 | AutoML на практике — как делать автоматизацию, а не её иллюзию | Привет, Хабр! Меня зовут Алексей Рязанцев, я Junior Data Scientist в Лаборатории Машинного обучения Альфа-Банка. Свой путь в Лаборатории я начал со стажировки летом-осенью 2023-го года, на которой для меня была интересная задача — разработа... |
21.03.2024 | Как DDoS-атаки стали для нас рутиной и как ML помогает их отражать | Несколько лет назад увидеть DDoS‑атаку было целым событием. Если такое и случалось, то инцидент тщательно анализировала целая команда специалистов, а каждая извлечённая крупица информации использовалась для обучения моделей, формирования но... |
13.03.2024 | Градиентный бустинг. Реализация с нуля на Python и разбор особенностей его модификаций (XGBoost, CatBoost, LightGBM) | На сегодняшний день градиентный бустинг (gradient boosting machine) является одним из основных production-решений при работе с табличными, неоднородными данными, поскольку обладает высокой производительностью и точностью, а если быть точнее... |
18.01.2024 | Recraft's AI graphic design tool secures $12M in Series A funding | AI graphic design generator Recraft today announced $12 million in Series A funding in a round led by Khosla Ventures and former GitHub CEO Nat Friedman.
Most generative AI tools only generate raster images, which cover a portion of all pro... |
17.01.2024 | Can Recraft’s foundational model for graphic design swerve the AI controversy? | Controversy continues to surround the world of AI-generated imagery, and even as AI-generated images used in elections became a source of concern this week at the World Economic Forum, startups continue to plow the new furrow of AI tools fo... |
18.12.2023 | Как выпустить ML-сервис в прод малыми силами: кейс работы в облаке | Создание ML-модели — сложный и ресурсоёмкий во всех смыслах процесс. Но часто выкатка сервиса на основе модели в прод оказывается ещё сложнее: требует подготовки платформы, выделения ресурсов, настройки программных интерфейсов для передачи ... |
09.12.2023 | AI Challenge 2023: нейросети, кардиограммы и молодые умы | Церемония награждения победителей AI Challenge
Привет, Хабр!
Мы - Константин Егоров, Иван Свиридов и Николай Романенко, сотрудники Лаборатории искусственного интеллекта Сбера. В этом году наша команда участвовала в качестве экспертов и моде... |
07.12.2023 | CatBoost | Добрый день, уважаемые читатели Otus на Хабре!
CatBoost – алгоритм, разработанный Yandex это это гармоничное сочетание инноваций и эффективности, особенно когда дело доходит до работы с категориальными данными.
Первые шаги CatBoost были сде... |
27.07.2023 | Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (5 — 3 место) | Недавно закончилось соревнование от американской национальной футбольной лиги (NFL), которая объединилась с AWS, чтобы прокачать системы спортивной видеоаналитики.
Организаторы поставили простую, казалось бы, задачу — точно определить, в ка... |
30.05.2023 | Быстро, точно, градиентно: как наш подход к градиентному бустингу повышает эффективность моделей | Доброго времени суток, уважаемые читатели! Сегодня мы вновь рады приветствовать вас в увлекательном мире дата-сайентистов банка "Открытие". На связи Иван Кондраков, Константин Грушин и Станислав Арешин. Недавно мы поделились с вам... |
30.03.2023 | Как быстрее узнать, что сервису плохо, или Realtime-детекция разладок с помощью CatBoost | Через любую высоконагруженную систему ежесекундно проходит огромный поток трафика. Релизы, хотфиксы, ddos-атаки, невалидные и ухудшающие эксперименты и многие другие события могут привести к проблемам, которые влияют на пользователей. Поэто... |
27.02.2023 | Как улучшить точность ML-модели используя разведочный анализ | Привет, Хабр! Меня зовут Кирилл Тобола, я Data Scientist и участник профессионального сообщества NTA.
Добро пожаловать в год 2912, где ваши DS навыки понадобятся для решения космической загадки. Мы получили сообщение с корабля на расстоянии... |
16.02.2023 | Как мы распараллелили CatBoost на Spark | Привет, Хабр! Я занимаюсь инженерией данных в Х5 Tech. В этой статье я решил поделиться проблемами, с которыми столкнулись при распараллеливании CatBoost на Spark, и как мы нашли решение. Возможно, это не rocket science, но если бы со мной ... |
31.01.2023 | Теория вероятностей в машинном обучении. Часть 1: модель регрессии | В данной статье мы подробно рассмотрим вероятностную постановку задачи машинного обучения: что такое распределение данных, дискриминативная модель, i.i.d.-гипотеза и метод максимизации правдоподобия, что такое регрессия Пуассона и регрессия... |
23.01.2023 | DatRet: Реализация Tensorflow для табличных данных | Изображение автора
Мой open-source продукт. Rete neurale per la previsione di Dati tabulari. (it.)
Простая реализация архитектуры глубокой нейронной сети для табличных данных с автоматической генерацией слоев и послойным сокращением количес... |
22.01.2023 | Пример ML проекта с Pipelines+Optuna+GBDT | Введение (с чего всё началось)
Началось всё с того, что я открыл для себя Kaggle. В частности, я принимаю участие в публичном соревновании Spaceship Titanic. Это более "молодая" версия классического Титаника. На момент написания э... |
20.12.2022 | Уже уходишь? Или предсказание оттока сотрудников с помощью AI | Вовремя обратить внимание на желание сотрудника сменить работу, понять, что стало причиной и попробовать сохранить кадры – задачи, с которыми очень часто сталкиваются HR и пытаются справиться своими методами. Мы в НОРБИТ нашли техническое р... |
19.11.2022 | 3. Теория информации и ML. Прогноз | Часть 1 – Энтропия
Часть 2 – Mutual Information
В этой 3-й части мы поговорим про Machine Learning, а именно, про задачу прогноза, в контексте теории информации.
Понятие Mututal Information (MI) связано с задачей прогноза. Собственно, задач... |
29.08.2022 | Как мы сделали распознавание речи нескольких говорящих | В психологии есть понятие эффекта коктейльной вечеринки: человек способен воспринимать полезную для себя информацию даже в ситуации, когда вокруг него много источников речи и шума. Но насколько хорошо с такой задачей справляется искусственн... |
16.07.2022 | Инструменты анализа временных рядов в ETNA | Меня зовут Саша, я разработчик библиотеки ETNA в Тинькофф. Расскажу про методы EDA в библиотеке ETNA, а также о том, что можно увидеть с их помощью в данных и как использовать для улучшения модели прогнозирования.Условия задачи
Попробуем на... |
16.06.2022 | Как Яндекс Карты с помощью отзывов улучшают поиск организаций | Раньше Карты, Поиск и Алиса отвечали на запросы об организациях, во многом основываясь на данных от самих организаций. Это был нормальный компромисс, но всегда можно сделать лучше.
Теперь учитываются ещё и реальные отзывы людей. Тем самым з... |
17.05.2022 | Категориальные признаки | Не одним One-Hot единым...
Привет, хабр! Хотел бы сделать краткий экскурс про работу с категориальными признаками, который часто на просторах интернета обходят стороной. В данной статье я постараюсь расширить базовые понятия по данной темат... |
21.01.2022 | CatBoost, XGBoost и выразительная способность решающих деревьев | Сейчас существенная часть машинного обучения основана на решающих деревьях и их ансамблях, таких как CatBoost и XGBoost, но при этом не все имеют представление о том, как устроены эти алгоритмы "изнутри".
Данный обзор охватывает с... |
31.12.2021 | Как увеличить точность модели с 80% до 90%+ (мой опыт) | Привет, чемпион! Возможно, перед тобой сейчас стоит задача построить предиктивную модель, или ты просто фармишь Kaggle, и тебе не хватает идей, тогда эта статья будет тебе полезна!
Наверное, уже только ленивый не слышал про Data Science и т... |
25.07.2021 | «От категорий к векторам» или нестандартное кодирование категориальных данных. Часть 1 | Привет, Хабр! С вами Артём, аналитик больших данных МегаФона. На работе занимаюсь рекомендательными системами и интересуюсь NLP. Эти две вещи и привели меня к рассматриваемой тут теме, так что садитесь поудобнее, и поехали. Кстати, к статье... |
- | ML для оптимизации цен на основе эластичности по цене | Статья подготовлена для конференции Aha'22 и рассказывает про задачу выставления оптимальных цен. Я в последнее время работал над этой задачей в Яндекс Маркете и попробовал выписать ряд вещей, которые мне видятся важными в контексте этой за... |
- | Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу | Привет, Хабр. Меня зовут Саша Готманов, я руковожу группой нейросетевых технологий в поиске Яндекса. На YaC 2020 мы впервые рассказали о внедрении трансформера — новой нейросетевой архитектуры для ранжирования веб-страниц. Это наиболее знач... |
- | Телеграм бот для тех, кто хочет использовать ML в работе, но не готов писать код | Я работаю менеджером продуктов. В рамках рабочих и личных проектов время от времени делаю аналитику данных. Одни из самых популярных задач для меня во время анализа — поиск зависимостей, прогнозирование, деление клиентов на группы, поиск ан... |