// описание

Тщательно отобранный и проверенный вручную сабсет из 500 задач для тестирования ИИ-агентов в реальном программировании. В отличие от базовых версий, здесь исключены ошибки разметки, что делает его «золотым стандартом» для оценки того, как нейросети решают реальные GitHub-issue. Идеальный инструмент для тех, кто создает автономных ИИ-кодеров и хочет быть уверенным в чистоте метрик.

← все датасеты

SWE-bench_Verified