大きくする 標準 小さくする

『総合的な翻訳による英語教育』第36回

2021/04/22

『総合的な翻訳による英語教育』第36回
 
ー 機械翻訳
の現状 












  
                                
 本誌【特集連載】『翻訳の観点から日本語を再考する』「第七回 産業日本語を考える―機械翻訳の視点から」(2021/04/07)において、小室誠一氏(バベル翻訳専門職大学院 プロフェッサー)は、
「世界的に見ると日本語はかなり異質の言語であり、欧米言語間の機械翻訳に比べて出力結果の品質は劣り、十分に活用されていると言えません。その原因の一つが、日本語ライティングのスキル不足と言えるかもしれません。日本語原稿が適切でなければ、当然、正しい訳文が出力されません。」と述べている。

 「日本語はかなり異質の言語であり、」というのはその通りなのだが、「欧米言語間の機械翻訳に比べて出力結果の品質は劣り…その原因の一つが、日本語ライティングのスキル不足と言えるかもしれません。日本語原稿が適切でなければ、当然、正しい訳文が出力されません。」というのはミスリーディングだ。
 欧米言語間の機械翻訳に比べて訳質が低いのは「英語など欧州諸語と日本語は世界の言語の中でも文法も語彙も異質な言語である」ことが原因だ。従来のルールベースの機械翻訳は対象言語間の距離が文法装置の違いが訳質に直接関係する。両言語が異質であるほど両者を結ぶ規則が複雑かつ多様で設定に膨大な知識と労力を要するのである。これは外国語習得でも同じだ。英語が日本語と違いすぎるために、日本人が長年苦闘しても英語が習得できないのであって、文法訳読中心のかつての日本の英語教育が間違っていたのでもなければ、日本人が外国語音痴な訳でもないのである。このことは筆者がかなり前から読売新聞[1]や朝日新聞[2]のコラムや多くの雑誌でも指摘している。
 90年代初期頃までなら製品開発技術者のライティングのスキル不足があったことは確かだが、それ以降は製品説明などを書くのは専門のライターになっている。それにライターでなくとも、文章を書くスキルは個人差も大きく、訳質が低い原因の一つに取り上げるのは実態を反映していない。
 小室氏はご自身の認識から機械翻訳のための「産業日本語」[3]について下記のように論じている。
                ―――――
 「産業日本語」のコンセプトで特徴的なのが、ライティングのプロセスに焦点をあてていることで、単純に、読みやすい日本語文章を書くだけではなく、目的によってどのように処理していくかを、概略次の通り規定している。
 「試みる日本語」:メモ的な文章で、思考のツールとしての日本語。
 「伝える日本語」:読み手が効率よく間違いなく読み取れるようにする日本語。
 「訳せる日本語」:外国語へ直訳できる日本語、焦点を文レベルに絞る。
 「機械が訳せる日本語」:容易な後編集を伴って正しく機械翻訳できる日本語。

このマニュアル通りに原稿を作成していれば、翻訳会社や翻訳者が受け取った原稿を「訳せる日本語」に修正する必要はないのですが、日英翻訳業務でこの修正作業が多かれ少なかれ発生するのが実情とし、具体的に『特許lightingマニュアル「産業日本語」』に挙げられている7つのルール[4]を示す。どれも基本的な事項で、少なくともこれらのルールに従って作成すれば読みやすい文書、翻訳できる文書になるはずです。
               ―――――

今は前編集は必要ない!

 筆者は「産業日本語」というのは、歴史的な使命を終えたのではないかと考えている。現在の機械翻訳はGoogle翻訳などニューラル翻訳[5]の登場によって格段の進歩を遂げ、もはや機械翻訳のための前処理といった作業を人間が時間を割いて行う必要がない段階にきている。もちろん、原文と訳文を比べ「抜け落ちや間違い」がないかを確認したり自然な表現に改めるといった(後編集)作業は必要だが、機械翻訳し易いように原文を意識的に書くとか前編集するという作業は時間の浪費だ。現在のニューラル翻訳にそういう作業を介在させるのは、宝の持ち腐れにも等しい。ニューラル翻訳はそういう作業が必要な代物ではないのだ。人間はほかの人にも分かる明快な文章を書くように心がければ良い。

 前稿において、産業日本語研究会シンポジウム『サイバースペースにおける産業日本語』(2021/03/05)の中のパネル討論に触れた。「日本語は文脈依存的で省略が多く、英語への翻訳においてそれを補う必要があり、機械翻訳にはそれが難しい」との発言があった。
 言語的には、英語は「文成分を全てあらわさなければならない」構造保持言語であるため、繰り返される名詞を省略せず代名詞などの形で痕跡を残すのに対し、日本語は非構造保持言語のため文脈的に分かっている場合には代名詞を残さないのだ。既知の文成分を省略しないと日本語らしい表現ではなくなる。明快な文章にする以外に、機械翻訳の訳質改善に向けての編集方針としては、「日英翻訳では日本語の省略成分を補う」という位で良い。それ以上に、「短文にする」などの編集は、煩わしく文章構成の思考力を阻害する恐れもある。幾つか文を内部に含む複文でも今は機械翻訳できるのだ。

音声翻訳の現状

 AC-Net [6]のシンポジウム『音声翻訳の社会展開の経過と機械翻訳の最前線に関して』(2021/03/22)では、音声翻訳のプロセスについて説明があったが、語彙認識について、英語が日本語より高くなると結果報告があった。理由の考察がなかったので、そうなるのは、日本語には漢字を支えとした同音異義語が多いのに対し、英語にはほとんどないことが大きな原因であると指摘した。(ただし、「分野限定」もしくは「ある程度までなら文脈からも」適切な語意選択ができる。)さらに、日本語の音声認識と英語の音声認識についても、「英語では母音
[7]の数が多いだけでなく、ほとんどの短母音が曖昧な中舌母音[ə]に変化するなど、弱音節における音韻変化が激しいため、音声認識は英語の方が難しいのだ」と指摘した。

 「読み書き」だが、従来のルールベースの翻訳では、翻訳方向による品質の格差は大きい。英日は中堅大学の平均学生に匹敵し8割台の翻訳率だが、日英は6割台に留まる。(2000年以降の)統計翻訳をAI深層学習機能でサポートする(2017年頃からの)ニューラル翻訳では、英日は中堅大学の上位学生を越え9割台の翻訳率だが、日英でも8割台に迫る。

通訳アプリと通訳機

 音声認識と翻訳さらにその音声出力ができる「通訳機能」が充実した機器やアプリもここ数年で急激に増えている。スマホにダウンロードする無料の旅⾏会話アプリ「ボイストラ」[8](情報通信研究機構NICT)は、訳したい言葉をスマホに吹き込むと、(京都府にあるNICTの)スーパーコンピューターに送信され、瞬時に翻訳されて訳文が画面に送られ音声も流れる。この間1秒に満たないが、5Gになれば、その間もなく瞬時に会話が成⽴する。
 自動通訳機ポケトーク(74言語対応:通訳19,800円/通訳+カメラ翻訳29,800円:2017年12月発売)やチータトーク(32言語対応:11,000円:2019年8月発売)などを使えば、英語だけではなく多様な言語で日常的な会話だけでなく実務のやりとりもできる。病院や電鉄、家電店、百貨店など外国⼈の患者や客の多い職場でも本格的に導⼊されてきているが、外国に行く日本人もこれを購入ないし空港で借用して、旅先での宿泊や買い物、観光に使うことが増えている。ホテルや駅の掲示板に載せる複数の言語での表示は、基本的に人手による翻訳だ。拡声器での自動翻訳も同じ。本質的に自動翻訳と言える代物ではない。

Translation Memoryを使う翻訳

 マニュアルなどの業務翻訳では、SDL TRADOS(トラドス)というソフトが使われる。これは、新版のマニュアルで、旧版の訳文を再利用できるように、日本語と英語の対訳をデータベース化しておく翻訳支援ツールだ。マニュアルの翻訳では新旧版でほとんど同じ文章が大多数のため、業務ではこのツールを使用することが必須である。旧バージョンと比較および解析し、「どの程度の改訂率があるのか」を数値(ワード数や文字数)で確認することができ、一度翻訳した訳文を、次のバージョンアップ時に利用して、「訳文の統一」を図ることが可能だ。旧バージョンの翻訳時に、 Translation Memory(対訳データ)が残る。
 TRADOSを使用して解析作業を行う場合、厳密には、対訳データ内の文節と翻訳対象データ内の文節とのマッチングをする。特にPCなど数年で新版の出る工業製品のマニュアルは8~9割が前の旧版と同じなので、日付などの変数部分を入れ替えて、新旧版で差異の見られるデータだけを抽出して自動翻訳し、訳文を仕上げる。ほとんどの翻訳会社ではTranslation Memoryが業務で使われている。

                    ★★★
自動翻訳については、著書[9]のほか日経新聞[10] や各種雑誌で記事を書いているが、80年代後半から90年代後半まで多くの機械翻訳開発企業(シャープ、日本IBM、NEC、リコー、凸版印刷ほか)やATR自動翻訳電話研究所などの研究機関から21回助成金を受けた。

 


[1] 『英語教育の現代的課題』「論点」(読売新聞)1997.11.29-日英語の言語差が世界で最も離れているので、習得が難しいことを指摘。

[2] 英語の社内公用語-思考及ばず、情報格差も』「私の視点」(朝日新聞)2010.9.18-特に、WH語の移動操作がその操作を欠く日本語の母語話者にとって運用上の難点であることを世界でも初めて指摘。和製英語:英語風に聞こえる日本語のことだが、海外では通じない。大概が日本にはない概念をメディアとかが造語して広まったり、特定のサービスや商品の商標名が一般に浸透したりするものなどがある。

[3] 「産業日本語」:Japio(一般財団法人日本特許情報機構)による造語で、「産業・技術情報を人に理解しやすく、かつ、コンピュータ(機械)にも処理しやすく表現するための日本語」と定義されている。

[4]  1.短文にする ~ 短くシンプルな文にする。2.省略しない ~ 隠れている要素がないか注意する。3.理解しやすい構成にする ~ 文の構造に注意する。4.横並びの要素の表現を揃える ~ 対等にならべ意味に注意する。5.読点を工夫する ~ 係り受けや文の構造を明らかにする。6.簡潔にする ~ シンプルな表現にする。7.言い換える ~ 誰にでも伝わる表現にする。

[5]   ニューラル翻訳は膨大な統計データベースとAI深層学習により訳質は飛躍的に向上したものの、ルールベースの機械翻訳と違い、それぞれの訳文を生むアルゴリズムは見えないものとなっているので、どういうところで誤訳や訳抜けが起こるか分からないのが難点だ。

[6]   “高度な情報通信”の英訳Advanced Tele-Communications(AC)を名前に冠したAC-Netは、関西地区の情報通信分野の産官学の研究者・技術者交流の場として、1990年9月に発足。多方面にわたる最新の研究動向・技術動向をテーマに数多くの講演会を開催。筆者も長年運営委員を務める。

[7] 日本語は5母音で、「ア」が一つなのに対し英語は[ʌ] [æ] [ɑ] [ə]などに分かれ、さらに二重音や三重音もあるなど、20前後の母音があるとされる。

[8]  Google翻訳やVoiceTra(2010年製品化は2017年頃に、Neural Networkの導入によって、翻訳品質は格段に向上した。VoiceTraは基本的に会話場面の発話を対訳用例としているが、数十万例を超える用例を扱うため、広範囲な文に対応する。

[9]  『こうすれば使える機械翻訳』(編著)バベルプレス1994.4、『パソコン翻訳の世界』(単著)講談社1997.10

[10]  『「自動翻訳」膨らむ夢』「時論自論」(日本経済新聞)1992.10

 


成田一(なりた はじめ)
大阪大学大学院言語文化研究科名誉教授。英日対照構造論・機械翻訳・言語教育/習得論専攻。大阪大学功績賞受賞。
著書『パソコン翻訳の世界』(講談社現代新書)、『日本人に相応しい英語教育』(松柏社)、編著『こうすれば使える機械翻訳』(バベルプレス)、『英語リフレッシュ講座』(大阪大学出版会)、共著『名詞』「現代の英文法6」(研究社)、『ことばは生きている』(人文書院)、『日本語の名詞修飾表現』(くろしお出版)、『翻訳辞典2002』(アルク)、『私のおすすめパソコンソフト』(岩波書店)、『英語教育徹底リフレッシュ』(開拓社)、『21世紀英語研究の諸相―言語と文化からの視点―』(開拓者)他。英文テキスト編注解説、論文・新聞(読売、朝日、日経など)・雑誌記事(『SPA!』(責任編著)、『週刊現代』、『英語教育』、『新英語教育』、『Professional English』、『The Professional Translator』、『Cat(cross and talk)』他)多数。英語教育総合学会会長。