
The DeepEval LLM evaluation platform to test, benchmark, safeguard, and improve LLM application performance, with best-in-class metrics and guardrails.
Mentions in press and media 12
Date | Title | Description |
27.01.2025 | Оценка чат-ботов LLM: основные метрики и методы тестирования | В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат... |
24.01.2025 | The Future of Machine Learning Projects: Ideas to Ignite Your Creativity in 2025 | As the calendar flips to 2025, the air is thick with possibilities. The dawn of a new year is like a blank canvas, waiting for bold strokes of innovation. For those with a passion for machine learning (ML), this is the perfect moment to div... |
22.01.2025 | Оценка систем LLM: основные метрики, бенчмарки и лучшие практики | Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас... |
16.01.2025 | Метрики оценки LLM: полное руководство по оценке LLM | Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для... |
07.11.2024 | Оценка LLM: комплексные оценщики и фреймворки оценки | В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фрей... |
17.10.2024 | Краткий обзор LLM бенчмарков | Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (наприм... |
01.10.2024 | The Evolution of Language Model Benchmarking: A New Era with MERA v.1.2.0 | In the rapidly evolving landscape of artificial intelligence, language models (LLMs) are the stars of the show. They are the titans of technology, boasting billions of parameters and the ability to perform complex tasks. However, with great... |
30.09.2024 | Как оценить качество LLM модели | Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиард... |
22.07.2024 | Большие языковые модели: от предобучения до обучения на инструкциях | Это перевод моей статьи об обучении языковых моделей на medium.com. Год назад я подготовил краткое исследование на тему языковых моделей, и для закрепления практики начал пробовать дообучение (fine-tuning) больших языковых моделей (LLM) для... |
28.01.2024 | Confident AI | Home - AI research - Confident AI Related Posts Checkable simplescraper BYOB impaction.ai Animated Drawings By Meta AI Research Magic Dash |
Show more