大きくする 標準 小さくする

第1回 ファイル形式の基礎知識

2012/01/10


 
第1回 ファイル形式の基礎知識
 
小室 誠一  翻訳システムテクノロジスト
(バイリンガルサービス事業 マネージャー、株式会社 バベル)
 
 
  
今回は、翻訳作業でよく使われるファイル形式について取り上げたいと思います。ファイル形式の知識がないと、原文ファイルを開いたり、仕様に合わせた形式の納品ファイルをうまく作成できなかったりと、翻訳業務に支障をきたすことがあります。
 
テキストファイルとバイナリファイル
 
データファイルを扱う上で基本中の基本は、テキストファイルとバイナリファイルの理解です。ところが、意外にこの区別がつかない人が多いのにはびっくりします。

手短に言うと、文字コードだけが含まれるのがテキストファイルでそれ以外はバイナリファイルです。
バイナリファイルにはレイアウト情報やマルチメディア情報などのデータが含まれていたりデータが圧縮されていたりします。文字とそれ以外のデータが混在しているものもバイナリファイルになります。

●テキストファイルとバイナリファイルの見分け方

テキストファイルとバイナリファイルを見分ける最も簡単な方法は、ファイルをテキストエディタで開いてみることです。

文字が表示されればテキストファイル、わけのわからない記号が表示されればバイナリファイルです。

それでは、試しに3種類のファイルをテキストエディタ(WZエディタ)で開いてみましょう。

(1)テキストファイル



当然ですが、正しく表示されます。
テキストファイルには、タブや改行などの制御コードも含まれることに注意してください。
 
(2)ワードファイル


 
まったくわけの分からない記号が並んでいます。
ちなみに、このファイルをワードで開くと以下のようになります。




(3)JPEGF(画像)ファイル



これもわけの分からない記号が表示されており、バイナリファイルであることがわかります。
画像ビューアで開けば下図のように表示されます。



●テキストファイルの特徴

互換性が高く、他の環境、他のソフトウエアでも扱えることが多いため、翻訳作業では標準的なファイル形式と言えます。
一方、文字コードで表される文字以外のデータ、つまり、文書情報、文書構造、スタイル、レイアウトに関するデータや画像などを含めることはできません。
この欠点を補うのが「タグ付きテキスト」です。これについては後ほど触れます。

●バイナリファイルの特徴

文字コード以外の色々なデータを含めることができます。ただし、特定のソフトウエアでしか扱えません。
例えば、文字だけしか含んでいなくてもWordで作成したファイルは原則としてWordでしか開けません。ただし、通常は他のワープロソフトでもファイル変換機能が付属しているので、開いたり保存したりすることはできますが、変換することでレイアウトなどが微妙に崩れることがあります。


■拡張子が大切なわけ

拡張子というのは、ファイル名の末尾に付けられた、ファイルを識別するための文字列です。
Wordファイルなら、「ファイル名.doc」「ファイル名.docx」など、ピリオドの次に続く文字列が拡張子ですが、Windowsでは、デフォルトでは非表示になっているので、あまり意識していないかもしれません。

Eメールでファイルを受け取ると、たまに拡張子が欠落してしまうことがあります。そうすると、ファイルをダブルクリックしても開かないので大騒ぎします。でも、相手がWord送信したといういことが分かっていれば、ファイル名に拡張子を付けてやるだけで問題は解決します。

●拡張子を表示する

まだ拡張子が非表示のままの人は、即刻、設定を変更しましょう。非表示だと、当然、拡張子を変更したり、付加したりできません。

「スタート」メニュー→「コントロールパネル」(クラシック表示)→「フォルダオプション」

「表示」タブをクリックして、「詳細設定」下の方にある「登録されている拡張子は表示しない」のチェックを外します。
 

 
■タグ付きテキストとは

テキストファイルは互換性が高く、どのようなソフトウエアでもほぼ扱うことができますが、レイアウトの情報などを持つことができないことはすでに説明しました。

インターネットの普及に伴い、テキストファイルにレイアウト情報やマルチメディアを組み込むファイル形式が出現しました。みなさんお馴染みのWEBページに使用されているHTML(HyperText Markup Language)ファイルです。

HTMLでは「タグ」を使って文字以外の様々な情報をテキストファイルに付加することができます。
Webページの翻訳の需要も多くなり、翻訳者にとってHTMLの知識が不可欠となっています。

また、さらに汎用的なマークアップ言語のXML(Extensible Markup Language)もよく使われるようになってきました。翻訳業務では、XMLをベースにした用語集のTBXや翻訳メモリのTMXについていの知識がないと仕事になりません。

●タグの一例

HTMLタグは、次のように< >記号で囲まれている文字列です。

<タグ名>タグが影響する文字列</タグ名>

最初のタグが開始タグ、最後の / が入ったタグが終了タグです。終了タグがないものもあります。

例えば下線を引きたい場合は、
<U>下線を引く文字列</U>
のように使います。

実際に使われているHTMLタグを見るには、WEBブラウザで任意のホームページを開いておいて「ソース」を表示してみると良いでしょう。
 


翻訳メモリのTMXファイルの例です。
<tu>とはTranslation Unit(翻訳単位)を表します
“EN”は英語、“JA”は日本語。<seg>はsegmentation(分節)です。
これらのタグを付けることで「対訳」を表しています。


 

 
さあ、いかがでしたか?
翻訳業務ではファイル形式についての知識は必須なので、しっかり理解しましょう。
次回は、ファイルを格納する「フォルダ」を取り上げる予定です。



 

編集部宛投稿メール

編集部宛の投稿は以下のフォームからお送りください。

みなさまの投稿をお待ちしております。

 

【編集部宛メールフォーム】