// каталог датасетов

Датасеты для машинного обучения: описание, задачи, статистика загрузок.

Уникальная цифровая капсула времени, содержащая архив комментариев японского сервиса Niconico Jikkyou за 11 лет. Этот массив данных идеально подходит для анализа живой разговорной речи, интернет-сленга и эмоциональных реакций пользователей в реальном времени. Незаменимый ресурс для тех, кто обучает NLP-модели тонкостям японского языка и культурному контексту.

2.3M загрузокподробнее →

huggingface

documentation-images

Практичный набор всех графических ассетов и иллюстраций, используемых в официальной документации Hugging Face. Датасет будет полезен разработчикам для тестирования алгоритмов обработки изображений или анализа того, как визуализируются сложные технические концепции. Отличный способ заглянуть «под капот» оформления самого популярного ИИ-сообщества в мире.

2.0M загрузокподробнее →

Классификация текстаm-a-p

FineFineWeb

Масштабный и тщательно очищенный веб-корпус, разбитый по конкретным доменам знаний для максимально точного обучения моделей. Он минимизирует «информационный шум» из интернета, предоставляя только качественные текстовые данные для претрейна больших языковых моделей (LLM). Если ваша цель — создать эрудированный ИИ с глубоким пониманием различных тематик, этот датасет станет надежным фундаментом.

1.8M загрузокподробнее →

hf-doc-build

doc-build

Полный текстовый архив всей документации Hugging Face, собранный специально для разработчиков. Это идеальная база знаний для создания RAG-систем и умных чат-ботов, которые должны безупречно отвечать на вопросы по библиотекам Transformers, Diffusers и всей экосистеме HF. Превратите свою модель в эксперта по современным нейросетям с помощью этого структурированного источника.

1.7M загрузокподробнее →

bluuebunny

arxiv_metadata_by_year

Структурированный архив метаданных всех публикаций arXiv, заботливо распределенный по годам выпуска. Инструмент маст-хэв для тех, кто анализирует научные тренды, строит графы цитирований или создает быстрые поисковые индексы по миллионам статей.

1.5M загрузокподробнее →

banned-historical-archives

Редкое собрание архивных документов, газет и первоисточников, которые часто оказываются недоступными из-за цензуры или физической утраты. Датасет представляет огромную ценность для исторических исследований, анализа политических текстов и сохранения цифрового наследия. Мощный инструмент для тех, кто работает с анализом данных в области гуманитарных наук и политологии.

1.2M загрузокподробнее →

video-classificationropedia-ai

xperience-10m

Масштабный набор данных, сфокусированный на «интерактивном интеллекте» и обучении моделей на основе человеческого опыта. Он содержит миллионы видеофрагментов, которые помогают ИИ лучше понимать сложные действия и контекст взаимодействия в реальном мире. Это отличный фундамент для создания продвинутых систем классификации видео и обучения роботов.

896.4K загрузокподробнее →

image-to-3dtasl-lab

uniocc

Настоящее спасение для разработчиков беспилотников, уставших от «зоопарка» форматов данных. UniOcc объединяет разрозненные датасеты в единый стандарт для прогнозирования занятости пространства (occupancy forecasting). Теперь обучать нейронки «видеть» препятствия и предсказывать движение на дороге стало на порядок проще и быстрее.

775.7K загрузокподробнее →

Jsinowitz

snodas-snowmelt-cache

Специализированный набор кэшированных данных системы SNODAS для точного моделирования таяния снега. Он содержит детальные показатели снежного покрова, которые необходимы экологам и метеорологам для прогнозирования паводков и управления водными ресурсами. Отличная база для обучения моделей, предсказывающих климатические изменения в реальном времени.

667.2K загрузокподробнее →

Rebabit0v0

parity-experiments

Технический архив с результатами экспериментов над адаптерами нейросетей и тестами на четность (parity). Здесь собраны логи и отчеты «оракулов», которые помогают исследователям сравнивать эффективность различных методов дообучения моделей. Если вы работаете над оптимизацией архитектур и ищете эталонные данные для верификации своих гипотез — этот набор для вас.

650.8K загрузокподробнее →

princeton-nlp

SWE-bench_Verified

Тщательно отобранный и проверенный вручную сабсет из 500 задач для тестирования ИИ-агентов в реальном программировании. В отличие от базовых версий, здесь исключены ошибки разметки, что делает его «золотым стандартом» для оценки того, как нейросети решают реальные GitHub-issue. Идеальный инструмент для тех, кто создает автономных ИИ-кодеров и хочет быть уверенным в чистоте метрик.

647.3K загрузокподробнее →

Генерация текстаopenai

gsm8k

Культовый набор от OpenAI, состоящий из 8,5 тысяч математических задач уровня начальной школы для проверки логики языковых моделей. Он заставляет нейросети не просто выдавать ответ, а выстраивать цепочку рассуждений для решения многоходовых задач. Если вы хотите измерить реальный «интеллект» своей LLM и её способность к дедукции, этот датасет — обязательный пункт в программе.

598.7K загрузокподробнее →

lavita

medical-qa-shared-task-v1-toy

Компактный демонстрационный набор данных для обучения ИИ-ассистентов в сфере медицины, содержащий пары вопросов и ответов. Он идеально подходит для быстрой отладки моделей и тестирования алгоритмов перед переходом к тяжеловесным медицинским архивам. С его помощью можно научить нейросеть лучше понимать специфическую терминологию и запросы пациентов.

576.7K загрузокподробнее →

Генерация текстаallenai

Легендарный гигантский корпус текстов, представляющий собой очищенную версию данных Common Crawl. Это золотой стандарт для обучения больших языковых моделей (LLM), из которого удален весь информационный «мусор» и дубликаты. Незаменимый ресурс для тех, кто хочет натренировать нейросеть на качественном естественном языке в колоссальных масштабах.

568.7K загрузокподробнее →

Генерация текстаepfml

FineWeb-HQ

Элитная выборка из датасета FineWeb, в которую вошли только самые структурированные и богатые знаниями документы. Авторы использовали классификаторы глубокого обучения, чтобы отобрать топ-10% наиболее полезного контента для предобучения моделей. Идеальный выбор для создания «умных» систем, которым важна глубина и достоверность информации, а не просто объем текста.

563.3K загрузокподробнее →

Заполнение пропусковNaveen0501

dlgenai-nppe-dataset

Специализированный набор данных, заточенный под задачи заполнения пропусков и тренировку навыков генеративного ИИ. Он помогает моделям лучше улавливать контекст и восстанавливать логические связи внутри предложений. Отличный инструмент для экспериментов в области NLP и оттачивания точности предсказаний текста.

524.6K загрузокподробнее →

Kthera

pesoz

Универсальный датасет, предназначенный для решения широкого спектра задач машинного обучения и лингвистического анализа. Его структура позволяет эффективно проводить эксперименты и тестировать новые архитектуры нейросетей в различных сценариях. Полезный ресурс для исследователей, которым нужны надежные данные для проверки гипотез и улучшения производительности моделей.

521.3K загрузокподробнее →

builddotai

Egocentric-100K

Крупнейший в своем роде набор данных, запечатлевший ручной труд «глазами» исполнителя в формате первого лица. Он устанавливает новый стандарт в отслеживании движений рук и плотности манипуляций с предметами в реальных условиях. Это незаменимый инструмент для обучения нейросетей, которые должны понимать, как человек взаимодействует с физическим миром.

484.1K загрузокподробнее →

roboticsIPEC-COMMUNITY

language_table_lerobot

Масштабный датасет для робототехники, созданный в экосистеме LeRobot для манипуляторов xArm. Он содержит миллионы кадров и сотни тысяч эпизодов, помогая роботам соотносить текстовые команды с конкретными действиями на рабочем столе. Идеальная база для тех, кто обучает ИИ-агентов точной моторике и выполнению сложных бытовых задач.

483.8K загрузокподробнее →

open-llm-leaderboard-old

requests

Технический архив заявок, отправленных на знаменитый Open LLM Leaderboard для оценки языковых моделей. Датасет позволяет отследить историю тестирования различных нейросетей, проанализировать их статус и понять причины ошибок при прохождении бенчмарков. Полезный ресурс для исследователей, следящих за эволюцией и прозрачностью оценки открытых LLM.

431.8K загрузокподробнее →

time-series-forecastingSalesforce

GiftEvalPretrain

Гигантская коллекция от Salesforce для предобучения моделей прогнозирования временных рядов, включающая 230 миллиардов точек данных. Датасет охватывает семь различных доменов — от финансов до энергетики — и гарантирует отсутствие утечек данных при тестировании. Это «тяжелая артиллерия» для создания универсальных предиктивных систем, способных предсказывать будущее с высокой точностью.

418.5K загрузокподробнее →

AquaV

genshin-voices-separated

Тщательно отобранная и разделенная по персонажам коллекция голосов из популярной игры Genshin Impact. Датасет идеально подходит для обучения моделей синтеза речи (TTS) и систем клонирования голоса, позволяя ИИ копировать уникальные интонации любимых героев. Отличный выбор для фанатских проектов и экспериментов в области обработки аудиоконтента.

401.9K загрузокподробнее →

roboticsnvidia

PhysicalAI-Robotics-GR00T-X-Embodiment-Sim

Мощный набор данных от NVIDIA, предназначенный для постобучения человекоподобных роботов GR00T N1. Сет содержит тысячи траекторий сложных манипуляций, включая работу двумя руками, что критически важно для развития моторики ИИ-агентов в симуляции. Это база для тех, кто учит роботов взаимодействовать с физическим миром на уровне человека.

401.3K загрузокподробнее →

Ответы на вопросыcais

mmlu

Фундаментальный бенчмарк для проверки «интеллекта» и эрудиции больших языковых моделей. Он охватывает десятки областей знаний — от высшей математики до юриспруденции — и заставляет нейросети решать задачи с несколькими вариантами ответов. Если вы хотите узнать, насколько ваша LLM близка к человеческому уровню понимания мира, MMLU — ваш главный инструмент.

379.2K загрузокподробнее →

показано 24 из 966