Яндекс Метрика

// каталог датасетов

Датасеты для машинного обучения: описание, задачи, статистика загрузок.

Классификация текстаKakologArchives
KakologArchives
Это уникальная «капсула времени», содержащая живые комментарии пользователей японского сервиса Niconico Jikkyou за целых 11 лет. Датасет идеально подходит для анализа разговорного японского языка, обучения моделей пониманию контекста в реальном времени и исследования интернет-культуры. Настоящая находка для лингвистов и разработчиков NLP, работающих с азиатскими рынками.
huggingface
documentation-images
Коллекция всех визуальных ассетов и скриншотов, которые используются в официальной документации библиотек HuggingFace. Сборник будет полезен разработчикам инструментов для автоматического создания документации или обучения моделей распознаванию элементов интерфейса и технических диаграмм. Всё, что нужно для понимания визуального стиля главной ИИ-платформы мира, собрано в одном месте.
Классификация текстаm-a-p
FineFineWeb
Тщательно структурированный веб-корпус с глубокой разбивкой по доменам, созданный для максимально точного обучения языковых моделей. Он помогает ИИ лучше ориентироваться в специфических темах и выдавать релевантные ответы даже в узких нишах. Если вам нужен качественный и «чистый» массив данных для тренировки LLM нового поколения, этот датасет — ваш выбор.
hf-doc-build
doc-build
Полный текстовый архив всей документации экосистемы HuggingFace, структурированный для быстрого доступа. Это незаменимый ресурс для создания RAG-систем (умного поиска по знаниям) или дообучения моделей, которые должны безупречно разбираться в коде и инструментах HF. Весь технический опыт сообщества теперь доступен в удобном для машины формате.
banned-historical-archives
banned-historical-archives
Цифровой архив редких и зачастую подвергавшихся цензуре исторических документов, газет и первоисточников. Датасет служит мощным инструментом для исследователей истории и политологов, позволяя анализировать социальные процессы через призму архивных материалов. Это важный проект по сохранению мирового культурного наследия, которое могло быть безвозвратно утрачено.
video-classificationropedia-ai
xperience-10m
Масштабный набор данных, нацеленный на обучение ИИ «интерактивному интеллекту» через анализ человеческого опыта в видеоформате. Он содержит миллионы записей, которые помогают моделям классифицировать сложные действия и понимать контекст взаимодействия в реальном мире. Это незаменимый ресурс для разработчиков, создающих продвинутые системы машинного зрения и адаптивных роботов.
image-to-3dtasl-lab
uniocc
Настоящее спасение для разработчиков беспилотников, уставших от «зоопарка» форматов в разных наборах данных. UniOcc предлагает унифицированный бенчмарк для прогнозирования занятости пространства (occupancy forecasting), упрощая стандартизацию и обучение систем автономного вождения. С ним работа над 3D-восприятием дорожной ситуации становится на порядок быстрее и эффективнее.
Jsinowitz
snodas-snowmelt-cache
Специализированный архив данных системы SNODAS, сфокусированный на процессах таяния снега. Этот набор данных незаменим для гидрологов и климатологов, обучающих модели прогнозирования паводков и управления водными ресурсами. Компактный и структурированный кэш позволяет быстро анализировать динамику снежного покрова без лишних затрат ресурсов.
Rebabit0v0
parity-experiments
Технический хаб для хранения логов и результатов экспериментов с адаптерами (например, LoRA), ориентированный на проверку паритета и точности моделей. Он помогает исследователям систематизировать данные тестов «Oracle» и сравнивать эффективность различных конфигураций дообучения. Идеальный инструмент для тех, кто хочет навести строгий порядок в своих экспериментах с весами нейросетей.
princeton-nlp
SWE-bench_Verified
Золотой стандарт для проверки навыков ИИ в реальном программировании — подборка из 500 задач, прошедших строгую ручную модерацию. Датасет содержит реальные GitHub-проблемы и проверенные решения, что исключает ошибки автоматической оценки. Если вы создаете автономного ИИ-кодера, это лучший способ доказать, что он действительно умеет фиксить баги, а не просто копировать код.
Генерация текстаopenai
gsm8k
Легендарный набор из 8500 математических задач школьного уровня от OpenAI, ставший обязательным тестом на логику для любой современной LLM. Задачи требуют многошаговых рассуждений, что позволяет оценить способность модели не просто подбирать слова, а строить логические цепочки. Фундаментальный датасет для тех, кто прокачивает «интеллект» и вычислительные способности нейросетей.
lavita
medical-qa-shared-task-v1-toy
Компактный «игрушечный» датасет, созданный для отработки навыков ИИ в ответах на медицинские вопросы. Он идеально подходит для быстрого прототипирования и тестирования пайплайнов в сфере HealthTech без необходимости загружать огромные массивы данных. Помогает моделям освоить базовую медицинскую терминологию и логику консультаций.
Генерация текстаallenai
c4
Настоящая легенда в мире NLP — гигантский, очищенный корпус текстов, собранный из открытого интернета. На этом датасете обучались такие гиганты, как T5, поэтому он считается золотым стандартом для претрейна языковых моделей с широким кругозором. Если вам нужна база, очищенная от спама и мусора, C4 — ваш выбор номер один.
Генерация текстаepfml
FineWeb-HQ
Элитная выжимка из FineWeb, содержащая только 10% самых качественных и информативных текстов со всей сети. Глубокие нейросетевые классификаторы отобрали наиболее структурированные и богатые знаниями документы для обучения топовых моделей. Идеальный инструмент для тех, кто ставит качество данных выше их сырого объема.
Заполнение пропусковNaveen0501
dlgenai-nppe-dataset
Специализированный набор данных, заточенный под задачи заполнения пропусков (Fill-Mask) в контексте Deep Learning и генеративного ИИ. Он помогает моделям лучше понимать сложную техническую документацию и нюансы архитектур нейросетей. Отличный выбор для дообучения ИИ-помощников, ориентированных на разработчиков и инженеров.
Kthera
pesoz
Качественный корпус данных, ориентированный на работу с испанским языком и его специфическими контекстами. Датасет полезен для тонкой настройки (fine-tuning) моделей, которым предстоит работать на испаноязычном рынке, будь то чат-боты или системы анализа текста. Хороший пример того, как локальные данные помогают ИИ звучать естественно.
builddotai
Egocentric-100K
Огромный массив данных для тех, кто учит ИИ видеть мир глазами человека во время работы. Здесь собраны тысячи кадров с ручным трудом, где фокус смещен на активные манипуляции и взаимодействие с предметами. Это маст-хэв для тренировки моделей компьютерного зрения, которым нужно понимать сложные движения рук в реальной обстановке.
roboticsIPEC-COMMUNITY
language_table_lerobot
Масштабный проект для обучения роботов-манипуляторов xArm через фреймворк LeRobot. Внутри — миллионы кадров и тысячи выполненных задач, которые помогут вашему ИИ-агенту освоить физическое взаимодействие с миром. Идеальный выбор для тех, кто строит умные системы управления роботами на основе языковых инструкций.
open-llm-leaderboard-old
requests
«Закулисье» знаменитого рейтинга Open LLM Leaderboard, где хранятся все файлы запросов на тестирование моделей. Датасет позволяет отследить историю сабмитов, проанализировать ошибки при проверке и понять, как развивались открытые языковые модели. Полезный ресурс для исследователей, желающих изучить динамику лидерборда и технические нюансы подачи заявок.
time-series-forecastingSalesforce
GiftEvalPretrain
Мощный фундамент от Salesforce для обучения моделей, предсказывающих будущее по временным рядам. 230 миллиардов точек данных охватывают самые разные сферы — от экономики до физики — и гарантируют отсутствие «утечек» при тестировании. Это идеальный полигон для создания универсальных алгоритмов прогнозирования, работающих с любыми типами данных.
AquaV
genshin-voices-separated
Настоящий подарок для разработчиков голосовых ИИ: чистые и разделенные аудиозаписи персонажей из Genshin Impact. Датасет идеально подходит для обучения моделей синтеза речи (TTS) или клонирования голоса с характерными эмоциональными интонациями. Если вам нужны качественные голоса в аниме-стилистике для своего проекта, этот набор данных станет лучшим выбором.
roboticsnvidia
PhysicalAI-Robotics-GR00T-X-Embodiment-Sim
Масштабный набор данных от NVIDIA, предназначенный для обучения универсальных роботов-гуманоидов GR00T. Он содержит тысячи траекторий движений для различных типов роботов, включая сложные манипуляции двумя руками в симуляции. Это база для тех, кто учит ИИ понимать физику движений и адаптироваться к разным «телам».
Ответы на вопросыcais
mmlu
Золотой стандарт для оценки «интеллекта» больших языковых моделей. Датасет включает тысячи вопросов с вариантами ответов по 57 различным темам — от высшей математики и медицины до гуманитарных наук. Идеальный инструмент, чтобы проверить, насколько хорошо ваша модель понимает мир и справляется с многозадачностью.
Классификация текстаnguha
legalbench
Специализированный бенчмарк для проверки навыков юридического мышления у нейросетей. В него вошли сотни задач, которые помогают понять, умеет ли модель анализировать законы, интерпретировать контракты и делать верные правовые выводы. Маст-хэв для разработчиков в сфере LegalTech.
показано 24 из 913