LLaVA
Edit

LLaVA

https://llava-vl.github.io/
Last activity: 10.10.2024
Active
Categories: Instruction
Visual Instruction Tuning
Website visits
120.5K /mo.
Mentions
12

Mentions in press and media 12

DateTitleDescription
10.10.2024Как научить LLM понимать видео? Обзор подходовВсем привет! Сегодня поговорим про задачу анализа и понимания видео и эволюцию подходов к обучению мультимодальных больших языковых моделей для этой задачи. Роадмап выхода vision-моделейЗадача Video Understanding Video Understanding — напра...
15.08.2024Картинка стоит 170 токенов: как GPT-4o кодирует изображения?Интересный факт: GPT-4o взимает по 170 токенов за обработку каждого тайла 512x512 , используемого в режиме высокого разрешения. При соотношении примерно 0,75 токенов на слово можно предположить, что картинка стоит примерно 227 слов, что все...
20.06.2024New medical LLM, PathChat 2, can talk to pathologists about tumors, offer diagnosesDon’t miss OpenAI, Chevron, Nvidia, Kaiser Permanente, and Capital One leaders only at VentureBeat Transform 2024. Gain essential insights about GenAI and expand your network at this exclusive three day event. Learn More Four state-of-the-a...
11.06.2024‘Embarrassingly simple’ probe finds AI in medical image diagnosis ‘worse than random’It's time to celebrate the incredible women leading the way in AI! Nominate your inspiring leaders for VentureBeat’s Women in AI Awards today before June 18. Learn More Large language models (LLMs) and large multimodal models (LMMs) are inc...
28.05.2024Kandinsky Video 1.1: обновленная модель генерации видеоKandinsky Video 1.1 - Лодка покачивается на волнах, пляж, романтика, фотореализм, закатное солнце, широкий форматВведение В ноябре прошлого года наша команда представила свою первую разработку в области генерации видео по тексту – модель Ka...
15.04.2024Использование LLM в автоматизации рутинных задачИспользование мультимодальной модели для навигации в браузере Всем привет! На связи Георгий Бредис, Deep Learning Engineer из команды Intelligent Document Processing в SberDevices. Наша команда занимается задачами автоматизации бизнес-проце...
18.01.2024«Пора ли гнать на мороз Computer Vision — scientist'ов ?» (Fondation Models и вокруг)Прошлый год в Computer Vision запомнился тем, что появилось множество больших претрейненных сетей (Fondation Models). Самая известная - GPT4v (ChatGPT с обработкой изображений). В статье я попробую простым языком объяснить что это такое (дл...
15.12.2023Мультимодальный ИИ: видит, слышит, говоритПрошли те времена, когда LLM модели дразнили «жалкими предсказателями следующего токена». Их возможности расширяются с каждым днем: 1. Понимание картинок — ChatGPT анализирует графики, генерирует код по скриншоту, объясняет мемы. Кстати, оп...
22.11.2023OmniFusion: выходим за границы текстаКто-то ещё сомневается, что в мире машинного обучения происходит революция? Уверен, мы являемся свидетелями преобразования привычного взаимодействия с данными, поиска информации, да и вообще работы как таковой. Ведь умные ассистенты (ChatGP...
18.10.2023Meet two open source challengers to OpenAI’s ‘multimodal’ GPT-4VOpenAI’s GPT-4V is being hailed as the next big thing in AI: a “multimodal” model that can understand both text and images. This has obvious utility, which is why a pair of open source projects have released similar models — but there’s als...
Show more

Reviews 0

Sign up to leave a review

Sign up Log In