![LLaVA](https://parsers.vc/logo/6fcfb7dc-62a0-4612-a7ad-98d73629a316-3.png)
Visual Instruction Tuning
Mentions in press and media 12
Date | Title | Description |
10.10.2024 | Как научить LLM понимать видео? Обзор подходов | Всем привет! Сегодня поговорим про задачу анализа и понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи. Роадмап выхода vision-моделейЗадача Video Understanding Video Understanding — напра... |
15.08.2024 | Картинка стоит 170 токенов: как GPT-4o кодирует изображения? | Интересный факт: GPT-4o взимает по 170 токенов за обработку каждого тайла 512x512 , используемого в режиме высокого разрешения. При соотношении примерно 0,75 токенов на слово можно предположить, что картинка стоит примерно 227 слов, что все... |
20.06.2024 | New medical LLM, PathChat 2, can talk to pathologists about tumors, offer diagnoses | Don’t miss OpenAI, Chevron, Nvidia, Kaiser Permanente, and Capital One leaders only at VentureBeat Transform 2024. Gain essential insights about GenAI and expand your network at this exclusive three day event. Learn More Four state-of-the-a... |
11.06.2024 | ‘Embarrassingly simple’ probe finds AI in medical image diagnosis ‘worse than random’ | It's time to celebrate the incredible women leading the way in AI! Nominate your inspiring leaders for VentureBeat’s Women in AI Awards today before June 18. Learn More Large language models (LLMs) and large multimodal models (LMMs) are inc... |
28.05.2024 | Kandinsky Video 1.1: обновленная модель генерации видео | Kandinsky Video 1.1 - Лодка покачивается на волнах, пляж, романтика, фотореализм, закатное солнце, широкий форматВведение В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Ka... |
15.04.2024 | Использование LLM в автоматизации рутинных задач | Использование мультимодальной модели для навигации в браузере Всем привет! На связи Георгий Бредис, Deep Learning Engineer из команды Intelligent Document Processing в SberDevices. Наша команда занимается задачами автоматизации бизнес-проце... |
18.01.2024 | «Пора ли гнать на мороз Computer Vision — scientist'ов ?» (Fondation Models и вокруг) | Прошлый год в Computer Vision запомнился тем, что появилось множество больших претрейненных сетей (Fondation Models). Самая известная - GPT4v (ChatGPT с обработкой изображений). В статье я попробую простым языком объяснить что это такое (дл... |
15.12.2023 | Мультимодальный ИИ: видит, слышит, говорит | Прошли те времена, когда LLM модели дразнили «жалкими предсказателями следующего токена». Их возможности расширяются с каждым днем: 1. Понимание картинок — ChatGPT анализирует графики, генерирует код по скриншоту, объясняет мемы. Кстати, оп... |
22.11.2023 | OmniFusion: выходим за границы текста | Кто-то ещё сомневается, что в мире машинного обучения происходит революция? Уверен, мы являемся свидетелями преобразования привычного взаимодействия с данными, поиска информации, да и вообще работы как таковой. Ведь умные ассистенты (ChatGP... |
18.10.2023 | Meet two open source challengers to OpenAI’s ‘multimodal’ GPT-4V | OpenAI’s GPT-4V is being hailed as the next big thing in AI: a “multimodal” model that can understand both text and images. This has obvious utility, which is why a pair of open source projects have released similar models — but there’s als... |
Show more