本記事はQrunchからの転載です。


BERTのパラメータの数を減らしたモデルであるALBERTについての概要を書いていきます。

参考論文:ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

問題意識

2018年に提案されたBERTは自然言語界隈では非常に上手くいった手法です。先程論文の引用数を見たら、もう3000を超えていまして、この数字を見てもよくわかります。