GRU + p-tHSM: Быстрое языковое моделирование и ИИ

Q: Кто разработал GRU + p-tHSM (pretrain via Brown) (WT103)?

Модель GRU + p-tHSM (pretrain via Brown) (WT103) разработана компанией Beihang University,University of Montreal / Université de Montréal,Chongqing University (China,Canada,China).

// задачи

Языковое моделирование

// описание

Эффективная языковая модель на базе GRU, оптимизированная для работы с огромными словарями через иерархический Softmax. Использование предварительного обучения (pretrain) позволяет этому ИИ значительно ускорить инференс без потери качества предсказаний.

// abstract

Recently, variants of neural networks for computational linguistics have been proposed and successfully applied to neural language modeling and neural machine translation. These neural models can leverage knowledge from massive corpora but they are extremely slow as they predict candidate words from a large vocabulary during training and inference. As an alternative to gradient approximation and softmax with class decomposition, we explore the tree-based hierarchical softmax method and reform its architecture, making it compatible with modern GPUs and introducing a compact tree-based loss function. When combined with several word hierarchical clustering algorithms, improved performance is achieved in language modelling task with intrinsic evaluation criterions on PTB, WikiText-2 and WikiText-103 datasets.

// faq

Что такое GRU + p-tHSM (pretrain via Brown) (WT103)?+

Кто разработал GRU + p-tHSM (pretrain via Brown) (WT103)?+

Какие задачи решает GRU + p-tHSM (pretrain via Brown) (WT103)?+

// похожие модели