// описание

Фундаментальный бенчмарк для проверки «интеллекта» и эрудиции больших языковых моделей. Он охватывает десятки областей знаний — от высшей математики до юриспруденции — и заставляет нейросети решать задачи с несколькими вариантами ответов. Если вы хотите узнать, насколько ваша LLM близка к человеческому уровню понимания мира, MMLU — ваш главный инструмент.

← все датасеты

mmlu