大きくする 標準 小さくする

<新>翻訳に役立つソフトウェア活用法

第10回 バイナリ文書対応のGrep検索が便利な「VxEditor」

投稿日時:2013/10/10(木) 14:30


 
第10回 バイナリ文書対応のGrep検索が便利な「VxEditor」
 
小室 誠一  翻訳システムテクノロジスト
(バベル翻訳大学院eトランステクノロジー研究所)
 
   
 
今回も引き続きテキストエディタの紹介です。VxEditorは非常に軽快に動作するテキストエディタですが、他のソフトにはない特色があります。
複数のファイルをまとめて検索するGrep機能は、すでに活用されていることと思いますが、普通のテキストエディタでは、WordやPDFなどのバイナリ文書ファイルを検索することはできません。VxEditorに付属するVxGrepならそれが可能になります。
 
VxEditor(フリーソフト)は以下のページからダウンロードできます。
http://dr-x.jimdo.com/
「アーカイブ版」と「インストーラ版」があります。
「アーカイブ版」はダウンロードしたファイルを解凍して適当な場所に置いて実行します。
「インストーラ版」はsetup.exeを実行するとデフォルトでC:\Tools\VxEditorにインストールされます。
 
■VxEditorを使ってみる
 
早速、VxEditor.exeをダブルクリックして起動してみましょう(図1)。
非常にシンプルな画面です。
このソフトのコンセプトは、ワープロなどメインに使用するソフトを補完するツールとして使用することなので、「高速性」「シンプルなSDI方式のインターフェース」「高機能な検索機能」「文字コードの自動判別」といったところがメインの機能になります。
 
(図1)
 
編集のアンドゥは何回でもできます。デフォルトでは10000回となっています(図2)。
こんなに元に戻すことはまずないでしょう。
 
(図2)
 
検索置換ではPerl5互換の正規表現が使えます(図3)。
正規表現がうろ覚えでも、検索語と置換語ボックスの右側にあるボタンをクリックすれば、おもな記号を入力できます。
 
(図3)
 
筆者がVxEditorの機能の中でもっとも気に入っているのが、画面の半透明化です。
「ウインドウ」→「半透明化」をクリックすると、エディタの画面が透き通って、下の画面がうっすらと見えるようになります(図4)。
これなら、画面を切り替えて背後のページを確認する必要もなくなります。
 
(図4)
 
■VxGrepを使ってみる
 
それではいよいよVxGrepを使ってみましょう。
「検索」→「ファイルから検索」をクリックします(図5)。
 
(図5)
 
「VxGrep」画面が開いたら、「検索対象」の右側にある四角いボタンを押してフォルダの指定を行います。左側のボタンがフォルダ、右側のボタンがファイルの指定となります(図6)。
「PDF、WORD、EXCEL、一太郎などからテキスト要素を取り出す」にチェックを入れれば、バイナリ文書の検索が可能になります。
 
(図6)
 
ちなみに検索できるファイル形式は以下の通りです(マニュアルから引用)。
 
  .sxw  OpenOffice.org Writer
  .sxc  OpenOffice.org Calc
  .sxi  OpenOffice.org Impress
  .sxd  OpenOffice.org Draw
  .odt  Open Document (text documemts)
  .ods  Open Document (spreadsheet documemts)
  .odp  Open Document (presentation documemts)
  .odg  Open Document (drawing documemts)
  .docx/.docm  WORD 2007
  .xlsx/.xlsm  Excel 2007
  .pptx/.pptm  PowerPoint 2007
  .doc  WORD ver5.0/95/97/2000/Xp/2003
  .xls  Excel ver5.0/95/97/2000/Xp/2003
  .ppt  PowerPoint 97/2000/Xp/2003
  .rtf  リッチテキスト
  .jaw/jtw   一太郎 ver5
  .jbw/juw   一太郎 ver6
  .jfw/jvw   一太郎 ver7
  .jtd/jtt   一太郎 ver8/9/10/11/12
  .oas/oa2/oa3  OASYS/Win
  .bun  新松/松5/松6
  .wj2/wj3/wk3/wk4/123  Lotus 123 
  .wri  Windows3.1 Write 
  .pdf  Adobe PDF
  .mht  
  .html  HTML
  .eml  OutlookExpressのMailエクスポート形式

それでは試しに、筆者が収集した機械翻訳関連の論文PDFファイル2252個の入った「mt-archive」フォルダを指定して、「post edit」というキーワードで検索してみましょう。 

PDFファイルからテキストが抽出され、全文検索されます。
検索結果は2画面で表示されます(図7)。
上の画面はファイル名と検索キーワードを含む行。下の画面は選択した行が含まれる本文。
 
(図7)
 
選択した行の上で右クリックすると、小さなメニューが開いて「閲覧」「ファイルを実行」「ファイルを検索」を実行することができます(図8)。
 
(図8)
 
「閲覧」をクリックすると本文のテキストが別画面で開きます。
「ファイルを実行」をクリックすると、元のPDFが開きます。ただし、検索キーワードが含まれるページが表示されるのではなく、1ページ目が表示されます。ここが残念なところです。
「ファイルを検索」をクリックすると、このファイルだけ指定した形で検索されます。
 
検索結果を保存するには「ファイル」→「タグファイルの保存」を実行します(図9)。
 
(図9)
 
これで検索結果一覧は保存できますが、PDFから抽出されたテキストを保存したい場合は、「閲覧」で別画面で開いてから「名前を付けて保存」します。
 
VxEditorのような小回りの利く小道具は、うまく使えば効率化に役立つでしょう。
 

コメント

名前:
メールアドレス:
コメント:
ファイル
b55a0e66a0851ea2df2edbbb7404950b.png?1511237759
画像の英字5文字を入力して下さい。:
パスワード:

プロフィール

小室誠一
1990年から機械翻訳のユーザーとして活用法の研究を行う。
バベル翻訳大学院で、翻訳者のためのテキスト処理など、ITスキルに関する講座を担当。
また、フリーの翻訳者として毎日CATツールを使うのが嬉しくてたまらない。
ブルーグラス、バードウオッチング、俳句をこよなく愛しているが、最近は孫と遊ぶのに夢中。

編集部宛投稿メール

編集部宛の投稿は以下のフォームからお送りください。

みなさまの投稿をお待ちしております。

 

【編集部宛メールフォーム】

ブログ一覧