大きくする 標準 小さくする

第七回  産業日本語を考える ―機械翻訳の視点から

2021/04/07

【特集連載】翻訳の観点から日本語を再考する  

 第七回 産業日本語を考える
―機械翻訳の視点から


小室誠一
(バベル翻訳専門職大学院 プロフェッサー)

 
 

最近の機械翻訳の発展には目を見張るものがあります。ただし、世界的に見ると日本語はかなり異質の言語であり、欧米言語間の機械翻訳に比べて出力結果の品質は劣り、十分に活用されていると言えません。その原因の一つが、日本語ライティングのスキル不足と言えるかもしれません。日本語原稿が適切でなければ、当然、正しい訳文が出力されません。本稿では機械翻訳(特に日英翻訳)のための日本語という視点から、「産業日本語」を考えてみたいと思います。

■「産業日本語」について

「産業日本語」とは、Japio(一般財団法人日本特許情報機構)による造語で、「産業・技術情報を人に理解しやすく、かつ、コンピュータ(機械)にも処理しやすく表現するための日本語」と定義されています。Japioは2007年から産業日本語研究会として「産業日本語」の研究・普及を行っており、その成果物として2013年に『特許ライティングマニュアル「産業日本語」』を発行し、2018年には第2版に改訂しています。

この「産業日本語」のコンセプトで特徴的なのが、ライティングのプロセスに焦点をあてていることです。単純に、読みやすい日本語文章を書くだけではなく、目的によってどのように処理していくかを、「試みる日本語」「表わす日本語」「伝える日本語」「訳せる日本語」「機械が訳せる日本」といった用語で示しています。概略は次の通りです。
 「試みる日本語」:メモ的な文章で、思考のツールとしての日本語。
 「伝える日本語」:読み手が効率よく間違いなく読み取れるようにする
          日本語。
 「訳せる日本語」:外国語へ直訳できる日本語、焦点を文レベルに絞る。
 「機械が訳せる日本語」:容易な後編集を伴って正しく機械翻訳できる
             日本語。

このマニュアル通りに原稿を作成していれば、翻訳会社や翻訳者が受け取った原稿を「訳せる日本語」に修正する(あるいは頭の中で補う)必要はないのですが、日英翻訳業務でこの修正作業が多かれ少なかれ発生するのが実情です。
参考のために、『特許ライティングマニュアル「産業日本語」』に挙げられている7つのカテゴリーを見ておきましょう。

 1.短文にする ~ 短くシンプルな文にする
 2.省略しない ~ 隠れている要素がないか注意する
 3.理解しやすい構成にする ~ 文の構造に注意する
 4.横並びの要素の表現を揃える ~ 対等にならべ意味に注意する
 5.読点を工夫する ~ 係り受けや文の構造を明らかにする
 6.簡潔にする ~ シンプルな表現にする
 7.言い換える ~ 誰にでも伝わる表現にする

どれも基本的な事項で、少なくともこれらのルールに従って作成すれば読みやすい文書、翻訳できる文書になるはずです。

さて、本稿では「機械が訳せる日本語」がテーマです。これは単純に自然で読みやすい日本語になっていればよいというわけではありません。この問題は、筆者が機械翻訳と出会った1990年頃からすでに色々と議論されてきました。これについては言語間の変換技法をまとめた「バベル翻訳英文法」もあわせて考えてみるべきでしょう。

■「機械が訳せる日本語」について

機械翻訳については、すでにご存じの方も多いと思いますが、現在はニューラル機械翻訳が主流になっています。2016年11月にGoogleが公開してから、それまでのルールベース機械翻訳、統計ベース機械翻訳を押しのけて、事実上の標準となっています。

「機械が訳せる日本語」は、機械翻訳の方式に大きく左右されます。

ルールベース機械翻訳では、辞書と変換規則をたよりに一から文を組み立てるので、極端な直訳になることが多く、前編集や後編集が欠かせませんが、修正方法のルール化が比較的容易にできました。
ニューラル機械翻訳ではたいへん流暢な文章が出力されるのですが、誤訳や不適切訳が紛れ込んでいて、パターン化が難しく編集のルール化が十分になされているとは言えません。

「産業日本語」の考え方は英日翻訳で役に立ちます。「伝える日本語」、つまり、読み手が効率よく間違いなく読み取れるようにするテクニックは、日本語訳文のチェックに有効です。ただし、翻訳の場合は必然的に言語間の違い、特に構文の違いを克服する作業が生じます。厳密に言えば、原文の意味する内容を適切な訳文に移し替えるという作業ですが、その都度、深く読んで表現をひねり出すということをしていては、スピードが重視されるビジネス文書翻訳の需要に応えることはできません。その解決策の一つとして「バベル翻訳英文法」があります。これは、表面的な文法規則を手掛かりにして、31の変換ルールにまとめたもので、これらのルールをマスターすることで、ほぼ無意識にこなれた訳文が作成できるようになります。機械翻訳では原則的に原文の意味を理解せずに“訳文”を出力します。したがって、「バベル翻訳英文法」は機械翻訳との相性が良いと言えます。

例えば、翻訳英文法の名詞を読みほどくでは、of+名詞―主格関係のサンプルとして以下の文を挙げています。

Tom married without the knowledge of his parents.
“the knowledge of his parents”を“his parents knew”と変換して、
トムは両親が知らないうちに結婚した。
と訳しています。

それでは、「トムは両親が知らないうちに結構した。」を機械翻訳で出力してみましょう。
ルールベース機械翻訳のPC-Transer V21では以下のようになりました。

Tom got married before parents knew it.

試しに元の英文のスタイルにするために、日本文を以下のような直訳的な文体にして機械翻訳で出力してみました。

トムは両親の知識なしで結婚した。
Tom got married without the knowledge of parents.

このようにターゲットランゲージの構造に合わせて日本語を書き換えることで、文体をコントロールできることが分かります。これが「機械が訳せる日本語」を一歩進めた「翻訳英文法」の拡張テクニックです。

ここで「機械が訳せる日本語」の検証方法を考えてみましょう。
まず「産業日本語」と「翻訳英文法」のルールに基づいて、英文の構造にとらわれない、自然な日本語訳文を作成します。
次に、その自然な日本語を英語に機械翻訳して、元の英語原文と比較します。そうすると、いかにも日本語臭のある英文が出力されているのに気づきます。
そこで、できるだけ元の英文に近づけるように、こんどは翻訳英文法のルールを参考にして日本語を修正します。これが翻訳英文法を「機械が訳せる日本語」の拡張モデルとなります。
機械翻訳を活用する方法として、出力文を正しく修正する「後編集(ポストエディット)」は良く知られています。さらに、特に日英機械翻訳の場合は、事前に機械で処理しやすいように修正する「前編集(プリエディット)」があります。厳密に言うと、機械翻訳にかける前に行うのが「前編集」です。
その他に、筆者は、出力結果を見たうえで原文を修正することを「中間編集」と呼んでいます。ルールベース機械翻訳では必須のテクニックでした。
※約20年前の「中間編集」の定義: 翻訳ソフトの一次出力文を見て不適切な部分がある時、翻訳エディタの編集機能(辞書登録、訳語学習、品詞変更、フレーズ指定など)を使って訂正すること。このとき訳文を直接修正してはならない。

「機械が訳せる日本語」は、機械翻訳エンジンによって変化します。同じエンジンでも、アダプテーション(カスタマイズ)によって、どんどん品質が高まっていくでしょう。しかし、基本的な部分ではモデル化できるのではないかと期待しています。

■出力サンプル

ここで、いくつか日英機械翻訳の出力サンプルを示します。

ニューラル機械翻訳:Google翻訳(https://translate.google.co.jp/)とDeepL(https://www.deepl.com/translator)を使用。
ルールベース機械翻訳:PC-Transer V21を使用。(デスクトップ用パッケージソフト)

<サンプル1>

「彼はよく眠った。」

ルールベース、Google、DeepL:
He slept well.
元の英文:
He had a good sleep.

慣用的に訳してみましょう。

「彼は良い眠りを持った。」

ルールベース:
He had a good sleep.
Google:
He had a good night's sleep.
DeepL:
He had a good sleep.
◎Googleでは、原文にないnight'sが勝手に付加されているのが興味深いですね。

<サンプル2>

「彼がその規則をこの場合に適用したのは、まったく自然なことだった。」

ルールベース
It was totally natural that in this case he applied the rule.
Google
It was quite natural for him to apply the rule in this case.
DeepL
It was perfectly natural for him to apply that rule to this case.
元の英文:
His application of the rule to this case was quite natural.

名詞構文で出力するために書き直してみます。

「規則のこのケースへの彼の適用は、まったく自然だった。」

ルールベース
His application to this case of the rule was totally natural.
Google
His application of the rules to this case was quite natural.
DeepL
His application of the rules to this case was entirely natural.
◎Googleの出力は、ruleが複数形になっている以外は元の英文と全く同じです。

<サンプル3>

「ちょっと気を付けていれば、彼は怪我などしなかっただろう。」

ルールベース:
He would not be really hurt if careful.
Google:
With a little care, he wouldn't have been injured.
DeepL:
If he had been a little more careful, he would not have been hurt.
元の英文:
A little care would have prevented him from injuring himself.

無生物主語構文で訳されるようにリライトしてみます。

「少しの注意は、彼が自分自身を負傷させるのを防いだだろう。」

ルールベース
Little attention would prevent him from letting oneself get injured.
Google:
A little care would have prevented him from injuring himself.
DeepL:
A little caution would have prevented him from injuring himself.
◎Googleは元の英文と全く同じになっています。


<サンプル4>

「さまざまな機械が発明されたことで、少ない労力でより多くのものが生産できるようになり、大量生産が可能になった。」

ルールベース:
Because various machines were invented, more things became able to produce it by little labor, and mass production was enabled.
Google:
The invention of various machines has made it possible to produce more with less effort and mass production.
元の英文:
The invention of various machines has enabled us to produce more goods with less labor, and has made mass production possible.
◎Googleの場合、元の英文とほぼ同じ構文になっています。

<サンプル5>

「もっと容易に実現される画像分析手法が求められている。」

ルールベース:
Image analysis technique realized more easily is demanded.
DeepL:
There is a need for an image analysis method that can be more easily implemented.
元の英文:
There is a need for an image analysis technique that is more easily implemented.
◎ルールベースとニューラルの差がはっきり表れています。

<サンプル6>

「これにより、また、顧客はサイト上の全体の内容の一部分のみを翻訳するというオプションが得られる。」

ルールベース:
As for the customer, an option to translate only the part of the overall contents on the site is in this way provided again.
Google、DeepL:
This also gives the customer the option of translating only a portion of the entire content on the site.
元の英文:
This also gives the customer the option of translating only a subset of the total content on the site.
◎これも、ニューラルならリライト不要でしょう。

<サンプル7>

「このソフトを使えば、スプレッドシートが作成できます。」

ルールベース:
I can make a spreadsheet if I use this software.
Google:
You can use this software to create spreadsheets.
DeepL:
With this software, you can create a spreadsheet.
元の英文:
You can use this software to create a spreadsheet.
◎Googleは、spreadsheetが複数になっていますが、元の英文と同様に、結果を表すto不定詞の構文になっています。

構文を変更するために原文をリライトしてみましょう。

「このソフトウェアを使用して、スプレッドシートを作成できます。」

ルールベース:
Using this software, I can make a spreadsheet.
Google:
You can use this software to create spreadsheets.
DeepL:
You can use this software to create a spreadsheet.
◎ルールベースでは効果なし、Googleも変化なし、DeepLは元の英文と同じになりました。


■まとめ

本稿では、「産業日本」の概略を確認し、ライティングのプロセスの最終段階である「機械が訳せる日本語」を「バベル翻訳文法」でさらに拡張し、構文のコントロールまで踏み込んだ考察を行いました。
いくつかの出力サンプルで、「機械が訳せる日本語」が機械翻訳エンジンによって変化することがお分かりいただけたと思います。
ルールベース機械翻訳ではある程度確立していたリライトのルールが、ニューラル機械翻訳ではそのまま適用できないことが多くなっています。
今後ますますニューラル機械翻訳が利用されるようになってくると思われます。うまく活用するためにも、今回紹介したような、「中間編集」を応用した作業を通じて、構文のコントロールまで含んだ「機械が訳せる日本語」のモデルを作成する意義があるかもしれません。
みなさんも、機械翻訳出力サンプルの収集をしてみませんか? 

<参考資料>

特許ライティングマニュアル「産業日本語」
https://www.tech-jpn.jp/tokkyo-writing-manual/

日本人のための日本語マニュアル, 2015年2月24日, 日本語マニュアルの会
https://www.tech-jpn.jp/wp-content/uploads/2015/03/pr-05.pdf

日本人のための日本語マニュアル―言葉の仕組みを学び、
外国語との対照を通じて日本語スキルを磨く, Japio Year Book 2015 
https://www.japio.or.jp/00yearbook/files/2015book/15_5_01.pdf

特許の英語表現・文例集, W.C.ローランド他, 講談社サイエンティフィック
 ⇒Amazon

<日⇒英>技術翻訳のA to Z, 小坂貴志、板垣正樹, 研究社
 ⇒Amazon

翻訳英文法―訳し方のルール, 安西 徹雄(著), バベルプレス
 ⇒Amazon

BABEL UNIVERSITY 通信コース「バベル翻訳英文法 基本ルール」
https://www.babel-edu.jp/program/31003_2.html

 

【記事で紹介されている作品】