- トップ
- 翻訳者のためのテキスト処理超入門
- 第6回 計量テキスト分析入門 (2)
第6回 計量テキスト分析入門 (2)
2012/12/10


前回は、小説の文章を形態素解析して抽出語リストを出力するところまで行いました。今回はKH Coderに組み込まれている解析機能を使って、テキスト分析を試してみましょう。
■抽出語の特徴を調べる
語句を抽出して頻度順に並べて出現回数の多いものが特徴的かといえば、そうとも限りません。
抽出語の特徴を調べるには統計手法を使う必要があります。
KH Coderでは「抽出語」→「対応分析」以下のメニューが、多変量解析と総称される分析法です(図1)。
ここでは、それぞれどのような仕組みになっているのかについては触れませんが、分析結果の図を見れば、だいたいどんなものか分かっていただけるでしょう。
(図1)
それではいくつか見てみましょう。
データは前回作成したプロジェクトのものを使用します。
分析結果は、原作にざっと目を通しておけば、直観的に納得できると思われます。
まだ読んでいない人は以下のページの [いますぐXHTML版で読む] のリンクをクリックして読んでください。
青空文庫 『時差のないふたつの島』
http://www.aozora.gr.jp/cards/001506/card52175.html
●多次元尺度構成法
多次元尺度法構成法は、類似度を基にして、データの位置関係を示す手法です。似た語句は近くに、異なった語句は遠くに配置されます。
メニューをクリックすると「多次元尺度構成法:オプション」画面が開きます(図2)。
集計単位:H1
最小出現数:20
その他、図のようにチェックを入れて「OK」をクリックします。
(図2)
結果が図示されます(図3)。
いかがでしょうか。この小説は淡々とした描写が続いて、あまりストーリの起伏がないので、要約するとなると戸惑ってしまいそうですが、この結果をみると、特徴が良く出ているように思えます。
(図3)
●階層的クラスター分析
クラスター分析はデータを類似度によって、自動的、定量的にクループ(クラスター)に分類する方法です。
メニューをクリックすると、「クラスター分析:オプション」画面が開きます(図4)。
集計単位:H1
最小出現数:20
その他、図のようにチェックを入れて「OK」をクリックします。
(図4)
結果が図示されます(図5)。
いくつかのカテゴリに分類され、さらに類似度によってツリー表示されています。
(図5)
●共起ネットワーク
「共起」というのは、文書や文の中で、特定の語句同士が同時に出現することを言います。特徴的な語句の共起関係をネットワーク図に表示するのが「共起ネットワーク」です。
メニューをクリックすると「共起ネットワーク:オプション」画面が開きます(図6)。
集計単位:H1
最小出現数:20
その他、図のようにチェックを入れて「OK」をクリックします。
(図6)
分析結果が図示されます(図7)。
共起する語句が線で結ばれています。
語句を囲む円が大きいほど出現頻度が高く、線が太いほど共起関係が強いことを表します。
(図7)
●関連語検索
特定の語句を指定して、その語句と関連のある語句を調べたいときは「関連語検索」を行います。
メニューをクリックすると「関連語検索」画面が開きます。
ここでは「直接入力」のボックスに「読む」と入力し、集計単位を「H1」にして「集計」ボタンをクリックしてみました(図8)。
(図8)
ここで「共起ネット」をクリックしてみましょう(図9)。
キーワードの「読む」が四角で囲まれて共起ネットワークが表示されました(図9)。
(図9)
■言葉の使われ方を調べる
言葉が文中でどのように使われているかを調べるには「KWICコンコーダンス」機能を使います。
メニューをクリックすると「KWICコンコーダンス」画面が開きます
ここでは「抽出語」のボックスに「走る」と入れて「検索」をクリックしてみました(図10)。
抽出語を真ん中に前後20語が表示されています。
さらに任意の行をダブルクリックすると、該当する文書が開いて文脈を調べることができます。
このコンコーダンスが優れているのは、抽出語の活用形も含めて検索できることです。
(図10)
ここで「集計」をクリックしてみましょう(図11)。
抽出語の前後に出現する5語の集計が表示されます。
これを見れば、抽出語と密接に関連する語句を調べることができます。
(図11)
これで、日本語のテキスト解析については一通りお分かりいただけたと思いますので、次回からは英文のテキスト解析を取り上げていく予定です。
翻訳者のためのテキスト処理超入門 (記事一覧)
- 第10回 PC-Transer 翻訳スタジオV20 試用レポート [2013/02/10]
- 第6回 計量テキスト分析入門 (2) [2012/12/10]
- 第5回 計量テキスト分析入門 (1) [2012/11/25]
マルチステップ翻訳処理入門
- 第1回 ファイル形式の基礎知識 [2012/01/10]
マルチステップ翻訳<初級>
- <準備編>第2回 ソフトウエアの準備(公開記事) [2011/03/25]
- <準備編>第1回 マルチステップ翻訳処理とは(公開記事) [2011/03/10]
マルチステップ翻訳<上級>
翻訳に役立つソフトウェア活用法
- DeepLの訳文が読みやすい理由 (2020/11/17)
- 機械翻訳支援ツール「GreenT」試用レポート(その2) (2020/05/29)
- 機械翻訳支援ツール「GreenT」試用レポート(その1) (2020/04/29)
- DeepL翻訳が日本語対応になった ― 翻訳英文法もびっくり (2020/03/27)
- 翻訳精度スコアBLEUを簡単に計算できるツール「シンプルMTスコア」 (2020/02/13)
- 機械翻訳の動向 (2020/02/03)
- 翻訳者の作業内容が変化している? (2017/10/12)
- みんなの自動翻訳をMemsourceで使ってみる(2) (2017/08/24)
- みんなの自動翻訳をMemsourceで使ってみる(1) (2017/08/03)
- Microsoftの「Try & Compare」ページ (2017/07/21)
- 音声翻訳アプリVoiceTraがニューラル機械翻訳で精度アップ (2017/07/13)
- Googleがニューラル機械翻訳の作り方を公開 (2017/07/13)
- 「MTフェア2017」参加レポート(3) (2017/07/06)
- 「MTフェア2017」参加レポート(2) (2017/07/06)
- 「MTフェア2017」参加レポート(1) (2017/07/06)
- ブログをはじめました (2017/06/29)
- 第15回 総合的翻訳支援ソフト「PC-Transer 翻訳スタジオ V21」 (2013/12/25)
- 第14回 テキスト解析ソフト「Analyze Assist」 (2013/12/10)
- 第13回 テキストファイル比較ソフト「WinMerge」 (2013/11/25)
- 第12回 クリップボード監視ソフトなら「クリップアウト2000」 (2013/11/10)