研究内容

ディジタル図書館>古文テキストからの人物表現の抽出

近年,古文書や古記録などの古典史料が電子テキスト化されるようになってきており,その数は増加傾向にある.
このことにより,現代日本語に対する自然言語処理技術を電子化された古典史料にも適用できる可能性が出てきた.

現代日本語に対する自然言語処理技術では,単語の品詞特定,文章の単語への分割などを行うために形態素解析器を用いる.
古典史料に対しても同様のことを行う必要があるが,現代日本語と古文としての日本語では語彙や文法が異なるため,現代日本語用の形態素解析器をそのまま適用することはできない.
また,特定の時代の日本語を対象とした形態素解析用の辞書は存在するが,それ以外の時代の日本語に対しては,単語に分割することさえ困難なのが現状である.

そんな状況でも,古文から人物表現だけでも抽出が行えるようになると,人物関係を検出し可視化するといった,古典史料に対するテキストマイニング等,古文テキストの解析に役立てることができる.

そこで,日本語の古文の文章から人物表現をする手法を提案する.
機械学習としてSupport Vector machineを用い人物表現の抽出規則を自動的に学習し,抽出実験を行う.

データとして日本語の漢文体の史料である『兵範記』,『吾妻鏡』,『玉葉』を使用する.
これらの史料は電子テキスト化された本文と人名索引のデータがあるため,正解データとして利用できる.
またここでいう人物表現とは,人名・別名・役職等を含めたものである.

『表範記』の文章の一部と抽出したい人物表現を下図に示す.





Lab.info

〒525-8577 滋賀県草津市野路東1-1-1
立命館大学情報理工学部
メディア情報学科
ディジタル図書館研究室
(クリエーションコア5F)