情報検索>言語横断情報検索に関する研究
言語横断情報検索(Cross-Language Information Retrieval)とは,入力した問合せとは異なった文書群に対して検索行うことである.例えば,利用者が日本語で問合せを行い,システムはそれに適合する文書を英語の文書群から検索し,その結果を利用者に返す,といったことを行う.
現在のところ検索エンジンにより検索を行う場合,検索対象文書群で使われているのと同じ言語で問合せも入力する必要がある.もし英語で書かれた文書を探したいのであれば問合せは英語で入力しなければならない.
しかし,利用者が必ずしも検索対象の言語に精通しているわけではない.このような場合,適切な問合せを利用者が入力できないために,検索が十分に行えない.言語横断情報検索システムでは,検索対象の言語における適切な問合せの選択をシステムが行うため,利用者が検索対象の言語に精通していなくても検索を行うことができる.
図は言語横断情報検索の処理の流れについて示している.まず,利用者が自分の精通している言語(一般には母国語)で問合せを入力する.次にシステムが入力された問合せを受け取り,検索対象の言語に問合せを翻訳する.この際,システムは対訳辞書やコーパスなどの言語資源を利用して翻訳を行う.そして,翻訳された問合せを用いて検索対象文書群の検索を行う.最後にその結果を利用者に返すことで検索は終了する.
さらに,(言語横断情報検索の範疇からは外れるが)検索結果を機械翻訳にかけることにより,検索対象の言語に精通していなくても,その内容まで読むことが可能となる.
言語横断情報検索システムにおいて問合せを翻訳する場合,訳語の曖昧性が問題となる.一般に,対訳辞書などである単語を翻訳すると,その単語の訳語候補は複数存在する.これらの中から最適なものを選択すること,すなわち訳語の曖昧性解消を行わなければならない. 言語横断情報検索では,問合せを適切に翻訳できるかどうかが検索の成否に多大な影響を及ぼす. そのため問合せの訳語に対する曖昧性解消を適切に行うことが重要な点の一つである.
〒525-8577 滋賀県草津市野路東1-1-1
立命館大学情報理工学部
メディア情報学科
ディジタル図書館研究室
(クリエーションコア5F)