Яндекс Метрика

// каталог датасетов

Датасеты для машинного обучения: описание, задачи, статистика загрузок.

Классификация текстаKakologArchives
KakologArchives
Уникальная цифровая капсула времени, содержащая архив комментариев японского сервиса Niconico Jikkyou за 11 лет. Этот массив данных идеально подходит для анализа живой разговорной речи, интернет-сленга и эмоциональных реакций пользователей в реальном времени. Незаменимый ресурс для тех, кто обучает NLP-модели тонкостям японского языка и культурному контексту.
huggingface
documentation-images
Практичный набор всех графических ассетов и иллюстраций, используемых в официальной документации Hugging Face. Датасет будет полезен разработчикам для тестирования алгоритмов обработки изображений или анализа того, как визуализируются сложные технические концепции. Отличный способ заглянуть «под капот» оформления самого популярного ИИ-сообщества в мире.
Классификация текстаm-a-p
FineFineWeb
Масштабный и тщательно очищенный веб-корпус, разбитый по конкретным доменам знаний для максимально точного обучения моделей. Он минимизирует «информационный шум» из интернета, предоставляя только качественные текстовые данные для претрейна больших языковых моделей (LLM). Если ваша цель — создать эрудированный ИИ с глубоким пониманием различных тематик, этот датасет станет надежным фундаментом.
hf-doc-build
doc-build
Полный текстовый архив всей документации Hugging Face, собранный специально для разработчиков. Это идеальная база знаний для создания RAG-систем и умных чат-ботов, которые должны безупречно отвечать на вопросы по библиотекам Transformers, Diffusers и всей экосистеме HF. Превратите свою модель в эксперта по современным нейросетям с помощью этого структурированного источника.
bluuebunny
arxiv_metadata_by_year
Структурированный архив метаданных всех публикаций arXiv, заботливо распределенный по годам выпуска. Инструмент маст-хэв для тех, кто анализирует научные тренды, строит графы цитирований или создает быстрые поисковые индексы по миллионам статей.
banned-historical-archives
banned-historical-archives
Редкое собрание архивных документов, газет и первоисточников, которые часто оказываются недоступными из-за цензуры или физической утраты. Датасет представляет огромную ценность для исторических исследований, анализа политических текстов и сохранения цифрового наследия. Мощный инструмент для тех, кто работает с анализом данных в области гуманитарных наук и политологии.
video-classificationropedia-ai
xperience-10m
Масштабный набор данных, сфокусированный на «интерактивном интеллекте» и обучении моделей на основе человеческого опыта. Он содержит миллионы видеофрагментов, которые помогают ИИ лучше понимать сложные действия и контекст взаимодействия в реальном мире. Это отличный фундамент для создания продвинутых систем классификации видео и обучения роботов.
image-to-3dtasl-lab
uniocc
Настоящее спасение для разработчиков беспилотников, уставших от «зоопарка» форматов данных. UniOcc объединяет разрозненные датасеты в единый стандарт для прогнозирования занятости пространства (occupancy forecasting). Теперь обучать нейронки «видеть» препятствия и предсказывать движение на дороге стало на порядок проще и быстрее.
Jsinowitz
snodas-snowmelt-cache
Специализированный набор кэшированных данных системы SNODAS для точного моделирования таяния снега. Он содержит детальные показатели снежного покрова, которые необходимы экологам и метеорологам для прогнозирования паводков и управления водными ресурсами. Отличная база для обучения моделей, предсказывающих климатические изменения в реальном времени.
Rebabit0v0
parity-experiments
Технический архив с результатами экспериментов над адаптерами нейросетей и тестами на четность (parity). Здесь собраны логи и отчеты «оракулов», которые помогают исследователям сравнивать эффективность различных методов дообучения моделей. Если вы работаете над оптимизацией архитектур и ищете эталонные данные для верификации своих гипотез — этот набор для вас.
princeton-nlp
SWE-bench_Verified
Тщательно отобранный и проверенный вручную сабсет из 500 задач для тестирования ИИ-агентов в реальном программировании. В отличие от базовых версий, здесь исключены ошибки разметки, что делает его «золотым стандартом» для оценки того, как нейросети решают реальные GitHub-issue. Идеальный инструмент для тех, кто создает автономных ИИ-кодеров и хочет быть уверенным в чистоте метрик.
Генерация текстаopenai
gsm8k
Культовый набор от OpenAI, состоящий из 8,5 тысяч математических задач уровня начальной школы для проверки логики языковых моделей. Он заставляет нейросети не просто выдавать ответ, а выстраивать цепочку рассуждений для решения многоходовых задач. Если вы хотите измерить реальный «интеллект» своей LLM и её способность к дедукции, этот датасет — обязательный пункт в программе.
lavita
medical-qa-shared-task-v1-toy
Компактный демонстрационный набор данных для обучения ИИ-ассистентов в сфере медицины, содержащий пары вопросов и ответов. Он идеально подходит для быстрой отладки моделей и тестирования алгоритмов перед переходом к тяжеловесным медицинским архивам. С его помощью можно научить нейросеть лучше понимать специфическую терминологию и запросы пациентов.
Генерация текстаallenai
c4
Легендарный гигантский корпус текстов, представляющий собой очищенную версию данных Common Crawl. Это золотой стандарт для обучения больших языковых моделей (LLM), из которого удален весь информационный «мусор» и дубликаты. Незаменимый ресурс для тех, кто хочет натренировать нейросеть на качественном естественном языке в колоссальных масштабах.
Генерация текстаepfml
FineWeb-HQ
Элитная выборка из датасета FineWeb, в которую вошли только самые структурированные и богатые знаниями документы. Авторы использовали классификаторы глубокого обучения, чтобы отобрать топ-10% наиболее полезного контента для предобучения моделей. Идеальный выбор для создания «умных» систем, которым важна глубина и достоверность информации, а не просто объем текста.
Заполнение пропусковNaveen0501
dlgenai-nppe-dataset
Специализированный набор данных, заточенный под задачи заполнения пропусков и тренировку навыков генеративного ИИ. Он помогает моделям лучше улавливать контекст и восстанавливать логические связи внутри предложений. Отличный инструмент для экспериментов в области NLP и оттачивания точности предсказаний текста.
Kthera
pesoz
Универсальный датасет, предназначенный для решения широкого спектра задач машинного обучения и лингвистического анализа. Его структура позволяет эффективно проводить эксперименты и тестировать новые архитектуры нейросетей в различных сценариях. Полезный ресурс для исследователей, которым нужны надежные данные для проверки гипотез и улучшения производительности моделей.
builddotai
Egocentric-100K
Крупнейший в своем роде набор данных, запечатлевший ручной труд «глазами» исполнителя в формате первого лица. Он устанавливает новый стандарт в отслеживании движений рук и плотности манипуляций с предметами в реальных условиях. Это незаменимый инструмент для обучения нейросетей, которые должны понимать, как человек взаимодействует с физическим миром.
roboticsIPEC-COMMUNITY
language_table_lerobot
Масштабный датасет для робототехники, созданный в экосистеме LeRobot для манипуляторов xArm. Он содержит миллионы кадров и сотни тысяч эпизодов, помогая роботам соотносить текстовые команды с конкретными действиями на рабочем столе. Идеальная база для тех, кто обучает ИИ-агентов точной моторике и выполнению сложных бытовых задач.
open-llm-leaderboard-old
requests
Технический архив заявок, отправленных на знаменитый Open LLM Leaderboard для оценки языковых моделей. Датасет позволяет отследить историю тестирования различных нейросетей, проанализировать их статус и понять причины ошибок при прохождении бенчмарков. Полезный ресурс для исследователей, следящих за эволюцией и прозрачностью оценки открытых LLM.
time-series-forecastingSalesforce
GiftEvalPretrain
Гигантская коллекция от Salesforce для предобучения моделей прогнозирования временных рядов, включающая 230 миллиардов точек данных. Датасет охватывает семь различных доменов — от финансов до энергетики — и гарантирует отсутствие утечек данных при тестировании. Это «тяжелая артиллерия» для создания универсальных предиктивных систем, способных предсказывать будущее с высокой точностью.
AquaV
genshin-voices-separated
Тщательно отобранная и разделенная по персонажам коллекция голосов из популярной игры Genshin Impact. Датасет идеально подходит для обучения моделей синтеза речи (TTS) и систем клонирования голоса, позволяя ИИ копировать уникальные интонации любимых героев. Отличный выбор для фанатских проектов и экспериментов в области обработки аудиоконтента.
roboticsnvidia
PhysicalAI-Robotics-GR00T-X-Embodiment-Sim
Мощный набор данных от NVIDIA, предназначенный для постобучения человекоподобных роботов GR00T N1. Сет содержит тысячи траекторий сложных манипуляций, включая работу двумя руками, что критически важно для развития моторики ИИ-агентов в симуляции. Это база для тех, кто учит роботов взаимодействовать с физическим миром на уровне человека.
Ответы на вопросыcais
mmlu
Фундаментальный бенчмарк для проверки «интеллекта» и эрудиции больших языковых моделей. Он охватывает десятки областей знаний — от высшей математики до юриспруденции — и заставляет нейросети решать задачи с несколькими вариантами ответов. Если вы хотите узнать, насколько ваша LLM близка к человеческому уровню понимания мира, MMLU — ваш главный инструмент.
показано 24 из 966