大きくする 標準 小さくする

特別寄稿 機械翻訳を意識した日本語とは? ― 加藤睦彦

2016/05/25

特別寄稿
機械翻訳を意識した日本語とは? 

加藤睦彦

 今回のPlain Japanese特集に、技術文書の観点から執筆させていただきます。
 第146号で堀田副学長がPlain Japanese 再考の構想について説明されていますが、その中で産業日本語研究会が、機械翻訳への対応、つまり機械翻訳にかけたときに精度の高い出力が得られるような文章を書けるような方法論を構築しようとしていることが紹介されています。
 
 現在のビジネス環境では、技術翻訳、とりわけ特許翻訳においては、英語だけでなく多言語に対応する必要が増しています。
 日本の製造業が、中国、さらには東南アジア諸国に製造の拠点を移してきていることはご承知の通りです。当然のことですが、製造技術は保護しなければいけませんから、製造を行う国で特許を取得しなければならなりません。そこで、その国での特許を調査し、出願したい特許文書を翻訳する必要が生じます。もちろん、調査、翻訳を行う言語は、当該国の公用言語になります。
 また、国内における状況は変化しています。日本に住んでいる人は、日本で生まれ日本で教育を受けているので日本語を読めて当然、ということを暗黙の前提としてもよい時代は、既に終わっています。行政、教育における非「日本語ネイティブ」への対応については、ニュースなどでご覧になったことがあると思います。技術分野においては、機器やソフトウェアのマニュアル類を、リリース時から多言語化していることが多くなっています。
 多言語に対応する、しかもリリース時から対応しなければならないので時間もかけられない、ということは、人手では対応しきれないことになります。このため、機械翻訳が利用されることが増えています。
 これらの点を考えますと、機械翻訳への対応を目標の一つとして掲げるPlain Japanese の構想は、現代の日本における翻訳の利用状況に即したものだと言えます。
 
 ここで、現代の機械翻訳の基本的な仕組みを見ていきます。どのような文章が機械翻訳に対応しているのかを理解することで、Plain Japaneseの方針を考える判断材料にするためです。
「文章構造を分析し、辞書をもとに変換した単語を、構造によって決まった語順に並べていく」という、いかにも論理的な手法をイメージされている方もいらっしゃると思います。確かに以前は、この手法の機械翻訳が主流でした。しかし、この手法では翻訳の精度を高めていくことができず、最近はあまり使われていません。
 現在、実用でも研究でも主流となっているのは、「対訳コーパスを利用する統計翻訳」という手法です。対訳コーパスというのは、Trados などの翻訳メモリの大規模なものと考えていただければいいでしょう。用途にもよりますが、数十万から数百万の文例を収集してコーパスを構築します。このコーパスを統計処理して、ある単語に対する訳語や原文の語順に対する訳文の語順の出現する割合(確率)を求め、これをもとに最も確率の高い訳文を生成する、というのが「統計翻訳」の基本的な仕組みです。既に、スマートフォンや空港などの端末で利用される旅行者向け翻訳や、中国の特許情報の翻訳などで実績があり、また、身近なところではGoogle 翻訳がこの手法を採用しています。
 
 さて、ここまでで見てきた機械翻訳の仕組みから、その特徴をあげていきます。
  1.文脈は把握できない
  2.指示代名詞の指示内容は把握できない
  3.長い文は、精度が下がる
  4.修飾語句が長くなると、精度が下がる
 これらの特徴は、手法によらず、共通の特徴です。
 
 コーパス利用の場合は、さらに次の特徴があげられます。
  5.原則として、コーパスの規模が大きくなればなるほど、精度が上がる
  6.ただし、翻訳対象の専門性が高い場合は、その分野のみに限ったコーパスを構築する方が、精度が上がる
 
 まず、特徴1、2が意味することは、機械翻訳にかけるということと、文脈レベルでの質、つまり文章が論理的で理解しやすいかということは、まったく影響しないということです。ですから、論理的に文章を構成する技術は、依然として求められます。もちろん、これまでのPlain Japanese、あるいはPlain English でも、この技術は詳しく扱われています。
 
 特徴3、4から、精度の高い出力を得るためには、文章を短くし、修飾語句を短くすればよいことが分かります。これは、特に目新しい話ではないはずです。分かりやすい文章を書くという話題では必ず取り上げられる内容です。
 また、機械翻訳がコーパスを利用しているということは、コーパスに存在する表現を用いるべきだということです。つまり、他の誰も使わないような「個性的」な表現を用いるべきではないのです。これも技術文書を書く際には必ず指摘される点で、やはり目新しいことではありません。
 
 つまり、Plain Japaneseの目的が機械翻訳の出力の精度を上げることにあるとしても、そのために特殊な書き方が求められていると考えるべきではありません。人間にとって分かりやすい文章を書けば、コンピュータにとっても精度の高い処理が行える文章になるのです。

 
加藤睦彦
バベル翻訳大学院2010年春期修了(文芸・映像翻訳科)。
現在、バベル翻訳大学院で修了指導などを行っている。