研究

文書自動要約

建設中...

英語略語抽出: Acromine

略語 (acronym 及び abbreviation) とは,完全形の用語(例: retinoic acid receptor alpha)を短縮形の用語(例: RARA)に置き換える言語現象です. 用語の語形変化のタイプの中でも,略語は文書の書き手によって頻繁に生成されるものですが,略語の生成過程を包括的かつ一般的に説明できるモデル・アルゴリズムは確立されていません. 略語は完全形を伴わずに短縮形単独で出現することがあるため,略語の曖昧性を解消するためには,あらかじめ略語の短縮形と完全形の対応付けを登録した辞書を作成する必要があります.

Acromine は高精度の英語略語辞書を,大量の文書から自動構築するシステムです. 文書中で特定のパターンにマッチした括弧表現を略語の短縮形とみなし,その括弧表現の前によく出現する表現を分析することで,略語の短縮形を見つけます. この手法をMEDLINE全体(7,811,582アブストラクト)に適用すると,約12時間くらいをかけて157,803 件の略語定義を抽出することができました. MEDLINE全体の略語分布を近似した評価コーパスを用い,Acromineを評価すると99%の精度,82-95%位の再現率を達成できていることが分かりました. 略語抽出の既存手法である文字列マッチングに基づくシステムと比較しても,この評価結果は大きな改善といえます.

Acromineのページへ.