Яндекс Метрика
Генерация текста

c4

allenai

Легендарный гигантский корпус текстов, представляющий собой очищенную версию данных Common Crawl. Это золотой стандарт для обучения больших языковых моделей (LLM), из которого удален весь информационный «мусор» и дубликаты. Незаменимый ресурс для тех, кто хочет натренировать нейросеть на качественном естественном языке в колоссальных масштабах.