大きくする 標準 小さくする

【ブログ】翻訳テクノロジーあれこれ by 小室誠一

<<前へ

DeepLの訳文が読みやすい理由

投稿日時:2020/11/17(火) 17:14

DeepLが日本語対応になったのが今年の3月のこと。(バックナンバー
世の中、武漢ウイルスで大騒ぎする中、自宅に引きこもってDeepLと戯れる日々を過ごしているうちにもう10か月たちました。
使っているうちに、訳文の質がだんだん良くなってきているような気がして、色々と情報を集めていると、どうもDeepLは1センテンスだけでなく前後のセンテンスの情報も手掛かりにして訳文を生成しているようです。

ということで、ちょっと実験してみました。

お馴染みのGALA(Globalization and Localization Association)のブログから引用してみます。
GALA Pulse Survey Results - Q3 2020という記事のリードの部分です。
https://www.gala-global.org/publications/gala-pulse-survey-results-q3-2020

<原文>
GALA conducted its third in a series of Pulse Surveys to help our stakeholders understand how the market has changed in 2020, as well as how industry professionals expect it will take shape in the coming months. Our results reflect a snapshot in time, with input from approximately 215 language service and technology providers. We have segmented this information by self-reported products and services, region, and company size to provide a deeper look into if and how companies are being affected. Our key takeaway from the past three months: reported recovery is on the rise.

DeepLに段落ごと貼り付けて出力したのが以下の文です。

GALAは、2020年に市場がどのように変化したか、また業界の専門家が今後数ヶ月の間にどのような形になると予想しているかをステークホルダーの皆様に理解していただくために、パルス調査シリーズの第3回目を実施しました。調査結果は、約215社の言語サービスおよびテクノロジープロバイダーからの意見を反映したスナップショットを反映しています。この情報を、自己申告した製品やサービス、地域、企業規模別にセグメント化し、企業がどのような影響を受けているのか、またどのように影響を受けているのかをより深く知ることができます。過去 3 ヶ月間の主な調査結果:報告された回復率は上昇傾向にあります。

どうですか、よく分かりますね。

次に、センテンス単位で出力してみましょう。訳文に変化はあるのでしょうか?

GALA conducted its third in a series of Pulse Surveys to help our stakeholders understand how the market has changed in 2020, as well as how industry professionals expect it will take shape in the coming months. 
GALAは、2020年に市場がどのように変化したか、また業界の専門家が今後数ヶ月の間にどのような形になると予想しているかをステークホルダーの皆様に理解していただくために、パルス調査シリーズの第3弾を実施しました。

最初のセンテンスは全く同じ訳文ですね。

Our results reflect a snapshot in time, with input from approximately 215 language service and technology providers. 
私たちの結果は、約215の言語サービスおよび技術プロバイダーからの意見を反映したスナップショットを反映しています。

第2センテンスの頭に注目してください。「Our results」が「私たちの結果」と訳されています。一方、パラグラフ単位で出力した方は、「調査結果は」となっています。明らかに、最初のセンテンスの「パルス調査シリーズ」の流れを受けて「調査結果は」と出力しています。ちょっと見ると大したことではないようですが、実は情報がスムーズに流れて理解しやすくなっています。


We have segmented this information by self-reported products and services, region, and company size to provide a deeper look into if and how companies are being affected. 
この情報を、自己申告した製品やサービス、地域、企業規模別にセグメント化し、企業がどのような影響を受けているのか、またどのように影響を受けているのかをより深く知ることができるようにしました。

このセンテンスでは、最後の部分「より深く知ることができるようにしました」が、パラグラフ単位で出力した方は「より深く知ることができます」となっています。provideを文法的に訳せば、「できるようにしました」の方が正確ですが、それだと一瞬「誰が?」と立ち止まってしまうかもしれません。

Our key takeaway from the past three months: reported recovery is on the rise.
過去3ヶ月間の主な成果:回復の報告は増加傾向にあります。

最後のセンテンスは「主な成果」がよく分かりませんね。パラグラフ単位で出力した方では、「主な調査結果」となっていて、違和感なく読みとることでできます。

このように、一見なんでもないような訳語の選択ですが、前のセンテンスの情報を引き継いでいるので、すんなりと読めるということになります。

DeepLは、どんどん進化しているようです。これからも楽しみが尽きませんね。

機械翻訳支援ツール「GreenT」試用レポート(その2)

投稿日時:2020/05/29(金) 10:34

前回はGreenTの概要をレポートしました。現在のニューラル機械翻訳の弱点は何か、それを補うための「機械翻訳支援ツール」としてのGreenTにはどのような機能があるのかを概観してから、用語集機能を試してみました。今回はもう少し詳しく見てみましょう。

GreenTを使用する主な目的の一つが「用語集」機能であることは間違いないでしょう。
期待にたがわず、用語集を作成するための便利な機能が別メニューとして付いています。

■用語の抽出機能

 

「アドイン」タブの「GG」アイコンをクリックするとGlossary Generatorが開きます。



用語の抽出は、出現頻度を基に行われます。日本語の場合は最小文字数、英語の場合は最小ワード数を指定すると、最小頻度以上の語句を抽出してくれます。

デフォルトでは、最小頻度「2」、最小ワード数「2」となっています。日本語の場合は最小文字数「3」です。
用語を抽出してみて多すぎる場合は最小頻度を増やすと良いでしょう。
連語をたくさん抽出したい場合は最小ワード数を増やしますが、「4」ぐらいが適切です。
日本語、英語の切り替えは、画面中央の「J2E」(日英)「E2J」(英日)で指定します。

<ここまでの手順>

1.用語集を作成したいWord文書を開きます
2.「アドイン」タブの「GG」アイコンをクリックします
3.Glossary Generatorが開いたら、「J2E」(日英)「E2J」(英日)の指定をします
4.最小頻度、最小文字数あるいは最小ワード数を指定します。

ここで、「用語を抽出する(T)」をクリックすると抽出できます。

以下の例では、「J2E」、最小頻度「2」、最小文字数「4」に設定しています。
原語の部分に用語が抽出されます。左の数字は出現回数です。



■訳語の取得(Google Cloud Translation)

この状態で「訳語を取得する」をクリックしてみましょう。
Google Cloud Translationによって訳語が出力されます。



任意の語句を選択すると、画面の下部で修正したり、語句を削除したりできます。
「QA」チェックも使えます。



登録する用語の編集が完了したら「テキスト形式で保存する」をクリックします。

保存された用語集はタブ区切りテキストなので、このファイルを直接手直しできます。
これがそのまま、「ユーザー用語集ファイル」となります。



編集作業を途中で中断するときは、「SnapShot」を使います。



Glossary Generatorを終了しても、再度開いて「再開する」をクリックすれば、前回の状態が復元されます。

■訳語の取得(用語集を使用する)

既存の用語集が手元にある場合、その訳語を反映することもできます。この機能を使えば、既存の用語集にマッチしない用語を省いて、スリムな用語集を作成できます。(用語集ファイルがあまり大きすぎると検索に時間がかかってMT出力が遅くなる場合があります)。
「用語集ファイル」を設定し、「用語集を使用する」にチェックを入れて「用語集を抽出する」をクリックします。



既存の用語集ファイルに登録されている用語があると、最初から訳語が入った状態で表示され、先頭に「OK」がつきます。



この状態で、「Google Cloud Translation」で「訳語を取得する」をクリックすると、まだ訳語が入っていない用語に訳語が付加されます。



用語抽出機能について、ちょっと詳しく説明しすぎたかもしれません。
他の機能も駆け足で見ておきましょう。

■プリエディット機能

基本的に機械翻訳は長い文、複雑な文は苦手です。GreenTのプリエディット機能は、文の分割が中心のようです。例えば、関係代名詞で分割します。



[Which Clause]を選択して「適用」をクリックすると、以下のように分割されます。



「GreenT」ボタンをクリックして再翻訳します。
これだけで、見違えるような訳文になりました。



■ポストエディット機能

これは、一言でいえば訳文の置換機能です。あらかじめ置換候補を登録しておくこともできます。
候補を選んで「適用」をクリックするだけなので、入力の手間が省けます。



■否定語をチェックする機能

機械翻訳では否定語が訳されないことがたまにあります。重大なエラーとなるので、否定語をチェックする機能が付いています。
以下の場合はcan’tがきちんと反映されています。
否定語があると、イタリック表示になります。



ちなみに、上図の「ポストエディット」に表示された[Repeated Phrase 2]は、「私たち」のが繰り返されていることを警告しています。
湧き出しではありませんが、「私たちの年齢の」→「同年齢の」とでもすれば良いでしょう。

GreenTには、まだまだ多くの機能があって紹介しきれませんが、興味のある方はGreenTのWebページをご覧ください。

機械翻訳を越えるGreenT
https://www.wordvbalab.com/word-addin/greent/
開発者:新田順也氏(翻訳者、プログラマー、Microsoft Word MVPをWord部門で受賞、エヌ・アイ・ティー株式会社代表取締役)

【朗報】Google Translate APIの他にDeepL利用可能になりました。
「Ver. 1.3からDeepLを利用できるようになります。現在は申請をした正規ユーザーのみご利用できます。体験版ではご利用いただけません。」(2020/5/12)

GreenTは、動画も含めた分かりやすいマニュアルが用意されているので安心です。
https://www.wordvbalab.com/word-addin/greent/manual/

機械翻訳支援ツール「GreenT」試用レポート(その1)

投稿日時:2020/04/29(水) 17:17

ニューラル機械翻訳もどんどん品質が向上しており、すでに機械翻訳を活用している方も多いかと思います。たしかに、統計ベース機械翻訳よりもずっと自然な訳文が出力され、修正もしやすくなりました。
ただし、初期のころから指摘されていた弱点はまだ改善されているとはいえません。
たとえば、ざっと見ても以下のような注意点が挙げられます。
 
* 訳抜け、湧き出しがある。過不足のない出力になるように制御できない。
* 低頻度語、専門用語、固有名詞などに弱い。用語の管理(訳語の統一)が難しい。
* 長い文に弱い。これは、ニューラル機械翻訳に限らず、どの方式でも同様。

このような問題のある機械翻訳出力文をそのまま使って翻訳するのはあまり効率的ではないと同時に思わぬ誤訳・不適切訳を生じてしまうことがあります。一見、読みやすく自然な訳文になっているために誤りを見逃してしまったり、訳語のばらつきを見逃してしまったり、なかなか一筋縄ではいきません。

こうした機械翻訳の弱点を補うためにいろいろなツールが開発されています。
今回試用したのは、翻訳者が開発した実用的な機能が満載の機械翻訳支援ツールのGreenTです。

機械翻訳を越えるGreenT
https://www.wordvbalab.com/word-addin/greent/
開発者:新田順也氏(翻訳者、プログラマー、Microsoft Word MVPをWord部門で受賞、エヌ・アイ・ティー株式会社代表取締役)

■GreenTとはどんなツールか

Wordのアドインです。インストールは、マクロテンプレート(GreenT.dotm)とショートカットキー用のプログラム(GreenT_Tools.exe)をWordのスタートアップフォルダにコピーするだけです。

インストールが済むと下図のように「アドイン」タブにボタンが表示されます。
一番左の「GreenT」ボタンをクリックすると起動します。のちほど実際に使ってみましょう。


 
GreenTの機能をざっと見てみましょう。
 
・用語集の利用
・用語集の自動作成
・プリエディット(前編集)の自動化
・ポストエディット(後編集)の自動化
・高機能なQAチェックツール
・複数の機械翻訳と連携(デフォルトはGoogle Translate)
・CATツールとの連携(Trados、Memsource、memoQなど)
・既訳文の活用(テキスト翻訳メモリ)
・翻訳ログの記録機能(原文と訳文の変更履歴機能)

機械翻訳を十分に使いこなすための機能が充実していることが分かります。

体験版が用意されていて、60日間、10万文字(5万語)の翻訳を試すことができます。
興味のある方はぜひ試してみましょう。
https://www.wordvbalab.com/word-addin/greent/#download

■GreenTを使ってみる

翻訳する原文Wordファイルを開いて、「アドイン」タブの「GreenT」ボンタンをクリックすると下図のような画面が開きます。

 
このままでも使用できますが、原文ファイルと重なって見にくいので左右に配置してみましょう。

まず、GreenTの画面をクリックしてアクティブにしておいて、Windowsキー+右矢印キーを押します。
下図のように右側半分に配置されます。

 

次にWordの画面をクリックしてアクティブにしておいて、Windowsキー+左矢印キーを押します。
下図のように左右に配置されて作業しやすくなります。

 

翻訳するには、原文の先頭にカーソルがあるのを確認してから「次へ」をクリックします。
すると、Wordの原文センテンスが、「原文」の欄にコピーされます。
次に、「GreenT」をクリックすると機械翻訳の出力文が「訳文」の欄に表示されます。
この「訳文」欄の文は自由に編集できます。

 
次に、この訳文をWord原文に上書きする形で挿入するのですが、このままでは「挿入」ボタンがグレイアウトしていてクリックできません。

「QA」ボタンをクリックすると「訳文」欄の背景がグリーンになって、「挿入」ボタンがアクティブになります。
QAチェックをしないと訳文が完成したとみなさないということですね。

 
「挿入ボタン」をクリックすると、Wordの原文に訳文が上書きされて、GreenTの「原文」欄には次のセンテンスがコピーされます。

 

これが基本的なGreenTの使い方になります。
このように、ステップ・バイ・ステップで作業を進めていくのがこのツールの基本操作ですが、自動化することも可能です。
「Setting」タブを表示すると、「プレトランスレーションを実行する」、「QAチェックを自動で実行する」、「[全文翻訳]ボタンを表示する」という項目があります。

 

これらにチェックを入れて、「次へ」をクリックすると、「原文」欄に原文がコピーされると同時に機械翻訳され「訳文」欄に出力結果が表示され、QAチェックも終わり、「挿入」ボタンがアクティブになります。
この状態ではまだ訳文を修正することができるので、必要であれば修正して再度QAチェックを行います。

 

「全文翻訳」ボタンをクリックすると、開いている原文が自動的に全て翻訳され上書きされます。途中で修正することはできません。
ただし、全文翻訳が完了すると、対訳の表が作成されるので、あとでじっくり点検することができます。これは非常に実用的で、さすがによく考えられています。

 

■用語集機能

今回は特に基本的な使い方を試してみましたが、おそらくこのツールを使う上で最も関心があるのは「用語集」機能ではないでしょうか。
ニューラル機械翻訳は訳語を管理できないというのが大きなネックの一つとなっています。

そこで、簡単な例で「用語集」機能を試してみました。

例文:
The lake was calm and beautiful with some swans swimming on its placid surface.

用語集を使わない出力結果:
湖は穏やかで美しく、白鳥が穏やかな水面を泳いでいました。

 

用語集に以下のように登録しました。

 

「用語集」にチェックを入れて再度翻訳してみます。

 

用語集を使った出力結果:

湖は穏やかで美しく、波ひとつない水面を白鳥が泳いでいました。

正しく反映されました。
大量の用語が登録された用語集でもうまく動くかどうかは未確認ですが、基本的には問題なく動きました。

GreenTはこのように、誰でもごく簡単に使うことができます。
そして、さらに便利な機能が盛りだくさんなので、自分の翻訳スタイルに合わせて機械翻訳を活用できるようになります。

次回は、さらに注目すべき機能についてレポートする予定です。

DeepL翻訳が日本語対応になった ― 翻訳英文法もびっくり

投稿日時:2020/03/27(金) 16:53

DeepLは、ドイツのケルンで開発され、2017年8月公開された機械翻訳システムです。その前身は2009年に設立された訳文検索エンジンLingueeです。
DeepLはこれまでGoogle翻訳など他の機械翻訳と比べても、はるかに高品質だと評判でしたが、残念ながら日本語には対応していませんでした。

嬉しいことに、3月19日にdeepl.comのブログに「DeepL翻訳が日本語と中国語を習得」という記事が投稿されました。
https://www.deepl.com/blog/20200319.html

「今年初めに大幅な改善を加えたDeepLのニューラルネットワークアーキテクチャを使うことで、日本語と中国語でかつてないほど上手く訳文を作れるようになりました」ということで、翻訳システムの名前を伏せた状態で翻訳者に示して、評価した結果が掲載されています。
 

体系のまったく異なる言語間での翻訳を機械に学習させる方法を、何百万という翻訳済みテキスト、巧みな数学的計算、そして日本語と中国語の社内エキスパートからの貴重な助言を総合することで見つけたとのことです。
そしてDeepLのアルゴリズムは、中国で使用される何千もの漢字、日本語の漢字、ひらがな、カタカナを処理できるようになったと書いてあります。
ここまで、素晴らしいことが書いてあれば試してみたくなりますね。

とりあえず、以下の訳文を見てください。
 
DEAC は、米国教育長官および高等教育認定評議会(CHEA)から、学位取得を目的としないレベルから専門職博士号取得までの遠隔教育を中心としたプログラムを提供する高等教育機関を対象とした機関認定機関として認定されている。

DEAC の目標は、公表されている基準、方針、手続きの遵守を求め、継続的な自己研鑽を促すことで、認定する遠隔教育機関の教育の質の高さを確保することである。


一読したところでは、人間が訳したものと間違えそうです。

DeepLはオンラインでWebブラウザから利用できますが、ソフトウエアをダウンロードすれば、デスクトップで利用できます(もちろんインターネット接続は必要です)。
https://www.deepl.com/app
Mac用もあります!
 
WordやPowerPointなど、どのソフトウエアでもテキストがコピーできれば大丈夫です。
訳したい文章を選択して、Ctrlキーを押したままCキーを2回押します。



たとえば、上図のようにWebページをブラウザで表示しておいて、翻訳したい部分を範囲指定します。
ここで、Ctrlキーを押したままCキーを2回押します。

すると、選択した原文がDeepLにペーストされて起動し、すぐに訳文が出力されます。
正しく訳されているかどうかは、下図の対訳をチェックしてみてください。図をクリックすると拡大されます。

 

参考のために、同じ文章をGoogle翻訳でも出力してみました。
 
DEACは、米国の教育長官および高等教育認定評議会(CHEA)により、主に非学位レベルから以下を含む遠隔教育法によるプログラムを提供する中等教育機関の機関認定組織として認められています。 プロの博士号。

DEACの目標は、公開されている基準、ポリシー、手順への準拠を要求し、継続的な自己改善を促進することにより、認定する遠隔教育機関において高水準の教育品質を確保することです。

訳語の違いなどを見ておきましょう。(G=Google、D=DeepL)
  • non-degree level (G) 非学位レベル、(D) 学位取得を目的としないレベル
  • postsecondary (G) 中等教育機関、(D) 高等教育機関
  • up to and including (G) 以下を含む、(D) までの。ここの分析を誤ったため(G)では、「プロの博士号」が宙ぶらりんになっています。
  • ensure a high standard of educational quality (G) 高水準の教育品質を確保する、(D) 教育の質の高さを確保する

全体に訳語レベルでは柔軟な表現になっているようです。ここまでくると、「直訳だけど意味は合っているのでOK」という従来の機械翻訳文に対する評価の認識が変わってきますね。

直訳から日本語らしい訳文を作るために用いられている翻訳技法の多くは「構造的意訳」です。要するに、原文をあまり深く読み込まなくても、表層的な情報から機械的に自然な訳文を作成するテクニックです。

この構造的意訳を31のルールにまとめたのが「バベル翻訳英文法」です。
ちなみに、バベル翻訳大学院では必ず翻訳英文法の基本ルールを学びます。このルールをマスターしていないと、素早く自然な訳文を安定してコンスタントに作成することはできません。

さて、今回のDeepLのレベルになって、ようやく「バベル翻訳英文法」に基づく評価ができるようになったようです。
そもそも、機械翻訳は文章の意味を理解していません。よくても、表層的な分析にとどまります。したがって、「構造的意訳」ができれば機械翻訳としては非常に高品質と言えるでしょう。

以下の形式で、翻訳英文法の31の公式と例文を挙げます。
原文
模範訳文
DeepL
Google

翻訳英文法の公式を適用した模範訳文と機械翻訳を比較して分析してみてください。
かなり模範訳に近いものもありますが、まだまだ不適切なところもあります。
このように、翻訳英文法を意識して機械翻訳の訳文を見るようにすると、ポストエディット(後編集)のテクニックが身に付きます。

翻訳英文法公式集 *構造的意訳のための翻訳技法

公式 1 語順―原文の流れを生かす
≪例文 1≫
The lake was calm and beautiful with some swans swimming on its placid surface.
湖は静かで美しかった。白鳥が数羽、波ひとつない水面を泳いでいた。
DeepL:穏やかで美しい湖面には白鳥が何羽か泳いでいました。
Google:湖は穏やかで美しく、穏やかな表面に白鳥が泳いでいます。

公式 2 名詞の中に文を読みとる
≪例文 2≫
Ignorance of foreign customs can result in unexpected misunderstandings.
外国の習慣を知らないと、思いがけない誤解を生ずることがある。
DeepL:外国の習慣を知らないことで、思わぬ誤解を招いてしまうことがあります。
Google:外国の習慣を無視すると、予期せぬ誤解が生じる可能性があります。

公式 3 主語を表す所有格
≪例文 3≫
I was able to see him just for five minutes on his arrival.
彼が着いた時、なんとか5分だけ会えた。
DeepL:彼が到着して5分だけ会えた。
Google:私は彼の到着時にたった5分間彼に会えました。

公式 4 目的語を表す所有格
≪例文 4≫
The city's destruction by the enemy did not bring the war to an end.
敵がこの町を破壊したあとも、戦争は終わらなかった。
DeepL:敵に破壊されても戦争は終わらなかった。
Google:敵による都市の破壊は戦争を終わらせませんでした。

公式 5 <of +名詞>―主語を表す場合
≪例文 5≫
The powerful reasoning of his opponent drove him to admit his error.
相手が実に強力な論理を展開したので、彼も自分の誤りを認めざるをえなかった。
DeepL:相手の強力な推理が、自分の過ちを認めるように追い込んだ。
Google:相手の強力な推論により、彼は間違いを認めざるを得ませんでした。

公式 6 <of + 名詞>―目的語を表す場合
≪例文 6≫
His application of the rule to this case was in a sense quite natural.
彼がこの規則を今回のケースに当てはめたのは、ある意味ではきわめて当然なことだった。
DeepL:彼がこのケースにこのルールを適用したのは、ある意味で極めて自然なことであった。
Google:このケースへの彼の規則の適用は、ある意味で非常に自然でした。

公式 7 無生物主語の構文
≪例文 7≫
Bad weather prevented me from going out.
天気が悪かったので、私は外出できなかった。
DeepL:天気が悪くて外出できなかった。
Google:悪天候のために外出できませんでした。

公式 8 A Good Swimmerの型
≪例文 8≫
He was the fastest runner in our c    lass.
彼は、クラスで走るのがいちばん速かった。
DeepL:彼はクラス最速のランナーでした。
Google:彼は私たちのクラスで最速のランナーでした。

公式 9 人称代名詞、指示代名詞
≪例文 9≫
My mother felt rather ill that morning, but she said nothing about it.
その朝、母はかなり気分が悪かったが、ひとことも口には出さなかった。
DeepL: その日の朝、母はどちらかというと体調が悪いと感じていたが、何も言わなかった。
Google:母はその朝、かなり気分が悪くなったが、彼女はそれについて何も言わなかった。

公式 10 反復を避けるためのthat, one
≪例文 10≫
He said that the voice was certainly that of a woman.
その声は、確かに女性の声だったと彼は言った。
DeepL: その声は確かに女性の声だったという。
Google:彼は声が確かに女性の声であると言った。

公式 11 関係代名詞 (1)―接続詞を補う
≪例文 11≫
She complained loudly to the shopkeeper, who answered her mildly.
彼女は大声で店員に文句を言った。だが店員はおだやかに応対した。
DeepL: 彼女は大声で店員に文句を言ったが、店員は穏やかに答えた。
Google:彼女は店主に大声で不平を言った。

公式 12 関係代名詞 (2)―分解する
≪例文 12≫
This is the point beyond which I've never been.
ここから先は、私もまだ行ったことがありません。
DeepL: これは私が今まで行ったことのないポイントです。
Google:これは私が一度も行ったことがないポイントです。

公式 13 形容詞・副詞を述語に―many, some
≪例文 13≫
We often go to the station by bus, but sometimes on foot.
駅まではバスで行くことが多いが、歩いて行くこともある。
DeepL: 駅からはバスで行くことが多いですが、徒歩で行くこともあります。
Google:私たちはしばしばバスで駅に行きますが、時には徒歩で行きます。

公式 14 文修飾の副詞
≪例文 14≫
Naturally he declined the offer.
彼がその申し出を断ったのは当然だ。
DeepL: 当然、彼は申し出を断った。
Google:当然彼は申し出を断った。

公式 15 形容詞を副詞に ―all, every, each
≪例文 15≫
All big cities have traffic problems.
大都会はどこも交通問題を抱えている。
DeepL: 大都市はどこも交通問題を抱えています。
Google:すべての大都市には交通問題があります。

公式 16 比較級・最上級
≪例文 16≫
This shop carries more foreign books than any other in Japan.
日本中で、この店ほど洋書をたくさん置いているところはない。
DeepL: こちらのお店では、日本のどこよりも多くの洋書を取り扱っています。
Google: この店は、日本で最も多くの外国の本を持っています。

公式 17 否定のからんだ比較表現
≪例文 17≫
No other planet comes so close to the earth as Venus.
惑星の中で、いちばん地球に接近するのは金星である。
DeepL: 金星ほど地球に近い惑星はない。
Google: 金星ほど地球に近い惑星は他にありません。

公式 18 as... asの構文
≪例文 18≫
There are not as many trees around here as three years ago.
この辺りは木が少なくなった。3 年前はもっとあったのだが。
DeepL: この辺りの木は3年前ほど多くはない。
Google: この辺りの木は3年前ほどはありません。

公式 19 受動態 (1)-自動詞を使って能動態に
≪例文 19≫
The game was called off on account of the darkness.
日没で試合は中止になった。
DeepL: 闇の中での勝負は中止になった。
Google: ゲームは暗闇のため中止されました。

公式 20 受動態 (2)―by ... を主語にして能動態に
≪例文 20≫
The town was occupied by the guerrillas.
その町はゲリラが占領していた。
DeepL: 町はゲリラに占領されていた。
Google: 町はゲリラに占領されました。

公式 21 受動態 (3)―暗示されたby ... を主語にして
≪例文 21≫
It is said [by them] that lightning never strikes twice in the same place.
雷は二度と同じ所には落ちないという。
DeepL: 雷は,同じ場所に二度と落ちないと言われている。
Google: [彼らによれば]同じ場所で雷が二度と当たらないという。

公式 22 受動態 (4)―受動態のまま
≪例文 22≫
This tree was struck by lightning last week.
この木は先週落雷にやられた。
DeepL: この木は先週雷に打たれた。
Google: この木は先週雷に打たれました。

公式 23 仮定法 (1) ―主語に仮定が含まれている場合
≪例文 23≫
A man of common sense would have acted differently.
常識のある人なら、そんな行動はとらなかっただろう。
DeepL: 常識ある人間なら違う行動をしていただろう。
Google: 常識のある人は違った行動をするでしょう。

公式 24 仮定法 (2) ―副詞句に仮定が含まれている場合
≪例文 24≫
With a little more care, he could have avoided the danger.
もう少し注意していたら、危険を回避できたはずだ。
DeepL: もう少し気をつけていれば、彼は危険を回避できたはずだ。
Google: もう少し注意すれば、彼は危険を回避できたでしょう。

公式 25 仮定法 (3) ―発想を転換する
≪例文 25≫
I wish I could have been of more use to you.
あまりお役に立てなくて、残念です。
DeepL: もっとお役に立てればよかったと思います。
Google: もっと役に立てばよかったのに。

公式 26 話法 (1) ―直接話法を生かす
≪例文 26≫
He said that I looked really nice in that dress.
そのドレスは君によく似合うよ、と彼が言った。
DeepL: そのドレスがとても似合っていると言われました。
Google: 彼は私がそのドレスで本当に素敵に見えたと言った。

公式 27 話法 (2) ―直接話法を掘り起こす
≪例文 27≫
Some people still don't understand the need for recycling.
なぜリサイクルが必要なのか、いまだにわかっていない人がいる。
DeepL: いまだにリサイクルの必要性を理解していない人がいる。
Google: 一部の人々はまだリサイクルの必要性を理解していません。

公式 28 強調構文
≪例文 28≫
It is only when you have your own children that you realize the troubles of parenthood.
自分の子供を持ってみてはじめて、親の苦労がわかるというものだ。
DeepL: 自分の子供ができて初めて、子育ての悩みを実感します。
Google: 親の悩みに気づくのは、自分の子供がいるときだけです。

公式 29 省略(共通)構文
≪例文 29≫
I've read many books written by him, but not all yet.
彼の著書はたくさん読んだが、まだ読んでいないものもある。
DeepL: 彼の書いた本はたくさん読んだが、まだ全部は読んでいない。
Google: 私は彼によって書かれた多くの本を読みましたが、まだすべてではありません。

公式 30 接続詞 (1)―except, without
≪例文 30≫
You cannot commit a crime without being punished.
罪を犯せば必ず罰せられる。
DeepL: 罰せられなければ罪を犯すことはできません。
Google: 罰せずに犯罪を犯すことはできません。

公式 31 接続詞 (2) ― till, until, before
≪例文 31≫
He did not get back before six o'clock.
彼が戻ったのは、6時を回ってからだった。
DeepL: 6時前には帰ってこなかった。
Google: 彼は6時前に戻ってこなかった。
 
  

翻訳英文法―訳し方のルール
安西 徹雄  (著) バベルプレス
 ⇒Amazon


BABEL UNIVERSITY 通信コース「バベル翻訳英文法 基本ルール」
https://www.babel-edu.jp/program/31003_2.html

翻訳精度スコアBLEUを簡単に計算できるツール「シンプルMTスコア」

投稿日時:2020/02/13(木) 17:23

機械翻訳の記事を読んでいると、BLEU(BiLingual Evaluation Understudy)という言葉がよくでてきます。これは、機械翻訳の精度を自動的に評価するための指標のことです。
機械翻訳の出力結果と参照訳(通常は人手翻訳)を比較して類似度を計算し、0~1の値を出します。
通常はパーセントで表示します。数字が高いほど参照訳と一致しているということで品質が高いとみなされます。

BLEUスコアを計算するソフトウエアではコマンド操作が必要なので、開発者でなければ、実際に任意の文章を機械翻訳出力してスコアを調べた人は少ないかもしれません。

今回紹介するのは、西野竜太郎氏が作成した、GUI(グラフィカル・ユーザー・インターフェイス)から実行できるデスクトップ用ソフトウェアの「シンプルMTスコア(デスクトップ)」です。
以下のページからダウンロードできます。
https://www.nishinos.com/simple-mt-score

ダウンロードファイルはZIP圧縮されています。解凍してSimpleMTScore.exeをダブルクリックすればソフトウエアが起動します。インストールは不要です。

また、Web版も利用できます。
https://mtscore.nishinos.work/

使い方は簡単です。
「参照訳を入力:」に模範訳(通常は人手翻訳)を入力し、「評価訳を入力:」に機械翻訳の出力結果を入力して「実行」クリックするだけです。


*実行結果に100を掛けます。

BLEUスコアの解釈としては、以下が参考になります。
https://cloud.google.com/translate/automl/docs/evaluate?hl=ja#bleu



実際に試してみると分かるように、スコアの計算は、あくまでも出力結果と参照訳だけで行われます。「原文」は全く関与していません。そのためBLEU スコアが高くても、評価者が原文と突き合わせチェックをすると、大きな誤訳が発見されて全体的な評価が下がることがあります。

ちなみに、前回のブログ記事で紹介したNICTのプレスリリースでは、以下のように書かれていました。
 
NICTの自動翻訳エンジンにSMBC日興証券のアナリストレポートの日英対訳データを学習させ、金融分野に特化したAI自動翻訳システムを開発しました。従来の汎用AI翻訳と、金融に特化した本システムとの比較において、翻訳精度スコアBLEUで、従来の13.1から「高品質な翻訳」の域である42.8となり、3倍強の改善を達成することができました。

 

«前へ

編集部宛メールフォーム

お名前:必須

Eメールアドレス:必須

Eメールアドレス(確認用):必須
(確認の為、同じものをもう一度入力してください)

記事タイトル:必須


メッセージ:必須

ファイル添付:

プロフィール

小室誠一
1990年から機械翻訳のユーザーとして活用法の研究を行う。
バベル翻訳大学院で、「翻訳者のためのテキスト処理」「翻訳支援ツール徹底活用」など、ITスキルに関する講座を担当。
 

編集部宛投稿メール

編集部宛の投稿は以下のフォームからお送りください。

みなさまの投稿をお待ちしております。

 

【編集部宛メールフォーム】