Ying-Jia Lin

UmlsBERT

Info

研究動機

BioBERTClinical BERT 在訓練階段並沒有利用到如 UMLS(Unified Medical Language System) 這種專家知識

主要方法

使用 MIMIC-III NOTEEVENTS 來預訓練 BERT,搭配以下兩種方法來使用 UMLS 知識

UMLS semantic types

  • BERT 的輸入除了原本三種 embeddings (token embeddings, positional embeddings, segment embeddings),本篇還加入了 semantic type embeddings: $$ ST^\top s_w $$
  • $ST$: semantic embedding matrix ($ST \in\mathbb{R}^{D_s\times d}$)
    • $D_s$: (基於MIMIC-III的) 字典中所可以對應到的 UMLS semantic types 總數
    • $d$: Transformer layer 的 hidden size
  • $s_w$: 任意一個字 $w$ 的 one-hot semantic vector ($s_w\in \mathbb{R}^{D_s}$)
    • 其中每一個 item 代表一種 semantic type
    • 如果 $w$ 完全對應不到 UMLS 的 semantic type 則 $s_w$ 全為 0

MLM

  • MLM 的目標改為多類別,即模型也必須要預測出與目標字有相同 CUI 的其他寫法

重要發現

  • UmlsBERT 可以提高 MEdNLI 跟其他4個 NER 資料集的表現 (Table 3)
  • UmlsBERT 的預訓練過程可以使模型更能區分出不同的 UMLS semantic types (Figure 3)

創新的部份

  • 運用 UMLS domain knowledge

缺點

  • 沒有與 BlueBERT 比較
  • 實驗著重在 NER 的部份
  • 找出相近醫學字的實驗中 (Table 4),BERT 並沒有表現特別差

我的問題

  • 不知道 semantic embedding matrix $ST$ 如何初始化,以及 $ST$ 是否為可訓練之參數