Academia.eduAcademia.edu

Sematic Representation on BERT

2019, The Proceedings of the Annual Convention of the Japanese Psychological Association

Sem atic Representation on BERT Shin Asakawa and T adahisa Kondo (T okyo wom en's Christian university) Key Words:universal sentence em bedding , sem antic representation, natural lang uag e processing

日心第83回大会(2019) 12. 言語,思考 3B-057 BERT による意味表現 ○浅川 伸一・近藤 公久 (東京女子大学) キーワード:普遍文章埋め込み, 意味表象, 自然言語処理 Sem atic Representation on BERT Shin Asakawa and T adahisa Kondo (T okyo wom en's Christian university) Key Words:universal sentence em bedding , sem antic representation, natural lang uag e processing はじめに ELMo(Peters et al., 2018), BERT (Devlin, Chang, Lee, & Toutanova, 2018), GPT-2[1]の提案は精度向 上が認められ,自然言語処理のイメージネットとも言われる [2]。これは word2vec (Mikolov, Yih, & Zweig, 2013), GloVe (Pennington, Socher, & Manning, 2014) などの単語 埋め込みモデルから,fastText (Joulin et al., 2017) の ような単語ベクトルの加算ベクトルを文ベクトルとみなす手 法から一歩進んで普遍文章符号化 universal sentence encoding に至っている。本研究ではこの普遍文章符号化モデ ルを用いて,単語の心理属性の検討を試みた。普遍文章符号 化モデルでは,単語,文書,段落などの諸段階での埋め込み 表象が可能である。しかも事前訓練したモデルが Google Hub[3]で公開されているため,取扱が容易である。普遍文章 符号化モデルによって生成された埋め込みは,正規化されて いるため直接比較かのうである。文間の意味的類似性は,符 号化ベクトルの内積として明示的に計算可能である。単語, 文,段落の相互類似性を計算すればヒートマップとして表示 可能である。 BERT 事前訓練には柴田・河原・黒橋(2019) の実装を用い た。このデータは,事前学習には日本語 Wikipedia 全部(約 1,800 万文) を用い,語彙数(サブワードも含む) は 32,000 であった。事前訓練には Google による Tensorflow 実装 [4]を用い,ファインチューニングには PyTorch 実装[5]を改 良したものである。BERT はトランスフォーマー (Vaswani et al. , 2017) をベースにしている。トランスフォーマーは RNN やCNN を使わず,自己注意を使用したモデルである。 入力表現: BERT への入力は1文,文のペアもしくは文書であ る。いずれの場合もトークン列として表現される。各トーク ンはトークン埋め込み,セグメント埋め込み,位置埋め込み ベクトルの和で表現される。各単語は準単語に分割される。 準単語に分割された語のうち先頭ではないものには ## を付 与する。セグメント埋め込みは入力が2文の場合1文目の トークンには文A 埋め込み,2文目には文B 埋め込みを入れ る(2文の間に[SEP] トークンをはさむ)。また,各トークン の位置は位置埋め込みとして学習される。文の先頭には[CLS] トークンを入れる。文分類問題または2文分類問題ではこの トークンに対応する最終層の埋め込みベクトルが文または2 文の表現となる。 マスク化言語モデル: BERT ではマスク化言語モデルを用いて いる。マスク化言語モデルでは,文中の任意の単語をマスク として隠蔽し,その単語を予測する課題である。これは,次 単語予測課題に基づく通常の言語モデルとは一線を画するも のである。 次文予測: 質問応答やテキスト含意認識などのタスクでは2 文間の関係を捉えることが重要となる。そこで,次文予測課 題でモデルを事前学習する。50% のものは本当に存在する次 の文をつなげて正例とし,残りの50% はランダムにサンプル した文をつなげて負例とし,これらを識別する問題を解く。 従って次文予測課題は word2vec における負例サンプリング の拡張と考えられる。 ファインチューニング: トランスフォーマーの上に各タスク に応じた最終層を加えることによって,文ペア分類問題,1 文分類問題,質問応答,系列ラベリング問題を扱っている。 例えば文ペア分類問題もしくは1文分類問題では,[CLS] に 対応する最終層の埋め込みベクトルとするで各クラスの確率 を求める。 考察 人間による単語の意味表象と近年精度向上の認められる 自然言語処理系の意味表象との関連を考察することは,今後 の研究動向を考えても重要であろう。心理属性との関連は, 文章読解,比喩理解,類似性判断,反応時間,プライム量予 測,など多くの課題への適用が可能である。BERT のような普 遍符号化モデルによる表象によるあらたな方向性が考えられ よう。 引用文献 Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv. Joulin, A., Grave, E., Bojanowski, P., Douze, M., Jëgou, H., & Mikolov, T. (2017). FASTTEXT.ZIP: Compressing text classification models. In Y. Bengio & Y. LeCun (Eds.), The proceedings of International Conference on Learning Representations (ICLR). Toulon, France. Mikolov, T., Yih, W. tau, & Zweig, G. (2013). Linguistic regularities in continuous space word representations. In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies NAACL. Atlanta, WA, USA. Doha, Quatar. Peters, M. E., Neumanny, M., Iyyery, M., Gardnery, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. arXiv. 柴田知秀・河原大輔・黒橋禎夫. (2019). 『Bert による日 本語構文解析の精度向上』. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., & Kaiser Łukasz. (2017). Attention is all you need arXiv. fo o tno te [1] https://openai.com/blog/better-language-models/ [2] NLP's ImageNet moment has arrived [3] https://www.tensorflow.org/hub [4] https://github.com/google-research/bert [5] https://github.com/huggingface/pytorch-pretrainedBERT ― 703 ―