// описание
Легендарный гигантский корпус текстов, представляющий собой очищенную версию данных Common Crawl. Это золотой стандарт для обучения больших языковых моделей (LLM), из которого удален весь информационный «мусор» и дубликаты. Незаменимый ресурс для тех, кто хочет натренировать нейросеть на качественном естественном языке в колоссальных масштабах.