大きくする 標準 小さくする

第5回 計量テキスト分析入門 (1)

2012/11/25


 
第5回 計量テキスト分析入門 (1)
 
小室 誠一  翻訳システムテクノロジスト
(バイリンガルサービス事業 マネージャー、株式会社 バベル)
 
 
 

 
新聞・雑誌記事、アンケートの自由記述などのテキストデータを数値化して分析するのが「計量テキスト分析」です。今回から2回にわたって、この分析方法を小説に適用して、どのような分析ができるのか見て参ります。
 
■計量テキスト分析とは
 
テキスト分析の方法は、人間が読んで内容を理解し、分類したり、特徴をまとめたりするのが普通ですが、分析者の主観が入ることは避けられません。それを客観的な形で示すにはどうするか。また、人間が目を通せないほど大量の文書を短期間に分析しなければならないときはどうするか。
 
このような問題の解決方法として、テキストを機械的に数値化して処理する計量テキスト分析が行われるようになりました。ただし、これはあくまでも補助的手段であって、計量分析で原文の特徴的な部分を探し当てたら、人間がその部分に目を通して補完することで、より精密な分析ができるようになるのは言うまでもありません。
 
このような計量テキスト分析には専用のソフトウエアが必要になります。ただし、ソフトウエアが高額だったり操作が難しかったりして、翻訳者が試してみるには敷居が高いかもしれません。そもそも何が翻訳に役立つのかと疑問に思う人もいるでしょう。
 
嬉しいことに、立命館大学の樋口耕一准教授が製作してフリー・ソフトウエアとして公開しているKH Coderを使えば、誰でも簡単に無料で本格的な計量テキスト分析ができます。実際に体験してみれば活用用法のヒントも得られるでしょう。
 
KH Coderは以下のページからダウンロードできます。
http://khc.sourceforge.net/
 
プログラムファイルをダウンロードしたらダブルクリックしてください。
自己解凍画面が開くので、そのまま「Unzip」をクリックします(図1)。
デフォルトでは、Cドライブの「khcoder」フォルダにファイルが解凍されます。
 
(図1)
 
 
■KH Coderを使って小説を分析
 
通常、このような説明では青空文庫の古めかしい小説を使用するのですが、もっと新しい現代文がないかと探していたら片岡義男の小説が公開されているのを発見し、さっそく利用させてもらうことにしました。
 
青空文庫 『時差のないふたつの島』
http://www.aozora.gr.jp/cards/001506/card52175.html
 

「僕」という主人公による「ハワイ四部作」(「波乗りの島」「時差のないふたつの島」「頬よせてホノルル」「ラハイナまで来た理由」)の二作目。
ラヴ・ストーリーを書くために真冬の東京から南の島へやってきた「ぼく」はストーリーを捜していろいろな人に出会い、再会し、アイディアを手に入れる。時間軸に沿ったメタフィクション。
青空文庫の図書カード「作品について」より引用

 
テキストファイルをダウンロードしてざっと眺めると、32章に分かれていました。
KH Coderでは章ごとの集計ができます。そのためには章番号に見出し記号を付けます。
見出し記号はHTMLと同じで、<H1></H1>で挟みます。
 
秀丸エディタの正規表現を使えば一瞬でできます(図2)。
 
(図2)
*検索する文字列の頭に全角スペースを3つ入れます。
 
さて、原文ファイルの準備はたったこれだけです。
 
HK Coderを起動してプロジェクトの新規作成をしましょう。
「プロジェクト」メニュー「新規」をクリックします(図3)。
 
(図3)
 
「新規プロジェクト」画面が開いたら分析対象ファイルの右側の「参照」ボタンをクリックして原文ファイルを選択し、説明(メモ)に題名「時差のないふたつの島」と入力して「OK」をクリックします(図4)。
 
(図4)
 
これでファイルの登録までできました。
プロジェクトは一度作成すれば、次回からは「プロジェクト」→「開く」からいつでも呼び出せます。
 
 
■前処理と抽出語の確認
 
テキスト分析の第1段階は形態素解析です。つまり、文章を単語に分割し品詞等を付与する作業です。英語のように単語が分かち書きされていない日本語は、結構ややこしい問題がありますが、HK Coderでは、品詞の付与は「茶筌」という形態素解析ツールを利用しています。
 
形態素解析といっても、HK Coderでの操作は実に簡単です。
「前処理」→「前処理の実行」をクリックするだけです(図5)。
 
(図5)
 
処理が終わると、Database Statsに集計結果が表示されます(図6)。
 
(図6)
 
「総抽出語数」は単語(文節)の総数です。文字数ではありません。
「異なり語数」は単語の種類です。つまり、複数出現した同じ単語を一つと数えて集計したものです。
「文」は句点で終わっているもの、「段落」は改行で終わっているもの、「H1」は章ごとの集計です。
 
どのように単語が抽出されているか知りたい場合は、「前処理」→「語の抽出結果を確認」をクリックして確認したいフレーズや文を入力します。
 
ここではとりあえず「ハワイ」と入れてみましょう(図7)。
語の分割状況が一目瞭然です。
 
(図7)
 
ここで、ID 278の文を選択して「詳細表示」をクリックしてみてください。
 
「語の抽出結果:詳細」画面が開きます(図8)。
これが茶筅による形態素解析結果です。
形容詞「大きく」には基本形「大きい」が表示されています。異なり語数の集計は基本形をもとに行われます。
 
(図8)
 
それでは今回の締めくくりとして、「抽出語リスト」を出力しておきましょう。
 
「ツール」→「抽出語」→「抽出語リスト」をクリックします(図9)。
 
(図9)
 
「抽出語リスト-オプション」画面が開いたら、(図10)のようにチェックを入れて「OK」をクリックします。
 
(図10)
 
PCにExcelがインストールされていれば、自動的に起動してリストが表示されます(図11)。
 
(図11)
 
今度は(図10)で「品詞別」にチェックを入れて「OK」をクリックしてみてください。
 
このように品詞別のリストになります(図12)。
 
(図12)
 
今回は、単語に分解して品詞を付与し語数を集計するところまでやってみました。
これだけでも用語集の作成に活用できそうです。
これからがいよいよテキスト分析の始まりですが、紙幅が尽きました。
 
ということで、この数値化されたデータの分析は次回のお楽しみとさせていただきます。 

そこで宿題です。まだこの小説『時差のないふたつの島』を読んだことのない人は、全文にざっと目を通しておいてください。熟読しなくても速読で結構です。読む前に、今回出力した頻出リストの語句に目を通しておくのも効果的でしょう。

翻訳者のためのテキスト処理超入門 (記事一覧)

マルチステップ翻訳処理入門

マルチステップ翻訳<上級>

編集部宛投稿メール

編集部宛の投稿は以下のフォームからお送りください。

みなさまの投稿をお待ちしております。

 

【編集部宛メールフォーム】