大きくする 標準 小さくする

第6回 計量テキスト分析入門 (2)

2012/12/10


 
第6回 計量テキスト分析入門 (2)
 
小室 誠一  翻訳システムテクノロジスト
(バベル翻訳大学院eトランステクノロジー研究所)
 
  

前回は、小説の文章を形態素解析して抽出語リストを出力するところまで行いました。今回はKH Coderに組み込まれている解析機能を使って、テキスト分析を試してみましょう。 

■抽出語の特徴を調べる
 
語句を抽出して頻度順に並べて出現回数の多いものが特徴的かといえば、そうとも限りません。
抽出語の特徴を調べるには統計手法を使う必要があります。
KH Coderでは「抽出語」→「対応分析」以下のメニューが、多変量解析と総称される分析法です(図1)。
ここでは、それぞれどのような仕組みになっているのかについては触れませんが、分析結果の図を見れば、だいたいどんなものか分かっていただけるでしょう。
 
(図1)
 
それではいくつか見てみましょう。
データは前回作成したプロジェクトのものを使用します。
 
分析結果は、原作にざっと目を通しておけば、直観的に納得できると思われます。
まだ読んでいない人は以下のページの [いますぐXHTML版で読む] のリンクをクリックして読んでください。
 
青空文庫 『時差のないふたつの島』
http://www.aozora.gr.jp/cards/001506/card52175.html
 
 
●多次元尺度構成法
 
多次元尺度法構成法は、類似度を基にして、データの位置関係を示す手法です。似た語句は近くに、異なった語句は遠くに配置されます。
 
メニューをクリックすると「多次元尺度構成法:オプション」画面が開きます(図2)。
 
集計単位:H1
最小出現数:20
その他、図のようにチェックを入れて「OK」をクリックします。
 
(図2)
 
結果が図示されます(図3)。
 
いかがでしょうか。この小説は淡々とした描写が続いて、あまりストーリの起伏がないので、要約するとなると戸惑ってしまいそうですが、この結果をみると、特徴が良く出ているように思えます。
 
(図3)
 
 
●階層的クラスター分析
 
クラスター分析はデータを類似度によって、自動的、定量的にクループ(クラスター)に分類する方法です。
 
メニューをクリックすると、「クラスター分析:オプション」画面が開きます(図4)。
 
集計単位:H1
最小出現数:20
その他、図のようにチェックを入れて「OK」をクリックします。
 
(図4)
 
結果が図示されます(図5)。
いくつかのカテゴリに分類され、さらに類似度によってツリー表示されています。
 
(図5)
 
 
●共起ネットワーク
 
「共起」というのは、文書や文の中で、特定の語句同士が同時に出現することを言います。特徴的な語句の共起関係をネットワーク図に表示するのが「共起ネットワーク」です。
 
メニューをクリックすると「共起ネットワーク:オプション」画面が開きます(図6)。
 
集計単位:H1
最小出現数:20
その他、図のようにチェックを入れて「OK」をクリックします。
 
(図6)
 
分析結果が図示されます(図7)。
 
共起する語句が線で結ばれています。
語句を囲む円が大きいほど出現頻度が高く、線が太いほど共起関係が強いことを表します。
 
(図7)
 
 
●関連語検索
 
特定の語句を指定して、その語句と関連のある語句を調べたいときは「関連語検索」を行います。
 
メニューをクリックすると「関連語検索」画面が開きます。
ここでは「直接入力」のボックスに「読む」と入力し、集計単位を「H1」にして「集計」ボタンをクリックしてみました(図8)。
 
(図8)
 
ここで「共起ネット」をクリックしてみましょう(図9)。
キーワードの「読む」が四角で囲まれて共起ネットワークが表示されました(図9)。
 
(図9)
 
 
■言葉の使われ方を調べる
 
言葉が文中でどのように使われているかを調べるには「KWICコンコーダンス」機能を使います。
 
メニューをクリックすると「KWICコンコーダンス」画面が開きます
 
ここでは「抽出語」のボックスに「走る」と入れて「検索」をクリックしてみました(図10)。
抽出語を真ん中に前後20語が表示されています。
さらに任意の行をダブルクリックすると、該当する文書が開いて文脈を調べることができます。
このコンコーダンスが優れているのは、抽出語の活用形も含めて検索できることです。
 
(図10)
 
ここで「集計」をクリックしてみましょう(図11)。
抽出語の前後に出現する5語の集計が表示されます。
これを見れば、抽出語と密接に関連する語句を調べることができます。
 
(図11)
 
これで、日本語のテキスト解析については一通りお分かりいただけたと思いますので、次回からは英文のテキスト解析を取り上げていく予定です。

翻訳者のためのテキスト処理超入門 (記事一覧)

マルチステップ翻訳処理入門

マルチステップ翻訳<上級>

編集部宛投稿メール

編集部宛の投稿は以下のフォームからお送りください。

みなさまの投稿をお待ちしております。

 

【編集部宛メールフォーム】