大きくする 標準 小さくする

【ブログ】翻訳テクノロジーあれこれ by 小室誠一

<<前へ

進化するOmegaT (2)

投稿日時:2021/12/07(火) 16:50

CATツールを使用する理由はいくつかあります。
最も使われるのは、大量の文書を手分けして翻訳する場合です。
以前に翻訳した文書の改訂版で変更のあった部分を翻訳したり、複数の翻訳者による訳文の専門用語等の訳語をしっかり統一したり、翻訳⇒レビュー⇒校正といったワークフローを円滑に進めたりするには必須のツールです。
ただ、そのような使い方によって最も恩恵を受けるのは、翻訳会社のプロジェクトマネージャーということになりそうです。

これまで、あまりCATツールを使ってこなかった方でも、最近の機械翻訳ブームが気になって、ちょっと使ってみようかと思っても、どうすれば使えるのかよく分からない人もいるでしょう。
昔はパッケージの「翻訳ソフト」を購入して、PCにインストールすれば簡単に使えましたが、最近話題のニューラル機械翻訳を翻訳作業で利用するとなると、基本プラットフォームとして、何らかのCATツールが必要になります。

Tradosなどのプロ用のCATツールを使えば簡単ですが、かなり高価で使い方が難しいので、ちょっとつかってみるというわけにはいかないかもしれません。
無料のツールで比較的使いやすいMemsourceも良いのですが、クラウド型のソフトウェアなので、インターネットにつながっていないと利用できません。たしかにデスクトップエディタが用意されていますが、プロジェクトの作成や原文ファイルのアップロードなど、前準備はすべてクラウド上で行う必要があります。また、オフラインだと翻訳メモリや用語ベースの検索ができません。

そこで目を向けてもらいたいのが、OmegaTです。
個人で手軽に使えて、何と言っても無料のツールです。さらに数種類の機械翻訳も組み込むことができます。手元で使うツールとしては最適でしょう。

他のCATツールに引けを取らない機能が搭載されたOmegaTは、現在でも日々改良されています。どこかの企業が開発しているわけではなく、寄付によってボランティアが育てているツールです。
メーリングリストで活発なやり取りがあり、質問などをすることもできます。(ただし、あくまでもボランティアによる回答なので節度を持って)。
https://sourceforge.net/projects/omegat/lists/omegat-users

さて、ここから前回の続きです。

個人的には、OmegaTが以前より使いやすくなった1番のポイントは「環境設定」だと思います。



環境設定画面から詳細な設定が分かりやすくできるようになっています。
以前は、設定メニューがバラバラでしたが、今では「環境設定」画面にまとめられており、この画面からほとんどの設定ができるようになっています。



機械翻訳も、主なものは設定できます。ただし、APIキーを別途取得する必要があります。公開情報の翻訳であれば、APIキーの不要なGoogle TranslateやNICTのTexTraも利用できます。

OmegaTはプロジェクトを作成すると、プロジェクトフォルダの中に、自動的にサブフォルダが作成されます。「フォルダー」メニューが追加され、フォルダーとその中にあるファイルが簡単に確認できるようになっています。



ちなみに、基本的なフォルダーは、辞書を格納する「deictionary」、用語集が入った「glossary」、対訳データのTMXファイルが自動的に作成される「omegat」、原文ファイルの入った「source」、訳文ファイルが出力される「target」、そして参照用の翻訳メモリ(TMX)を入れる「tm」があります。
「deictionary」「glossary」「source」「tm」に、指定された形式のファイルを入れるだけで(再読み込みは必要ですが)すぐに使えるようになります。

そして、最高に便利なのが「プロジェクト」メニューの「Pacl project as OMT file」です。
要するに、プロジェクトフォルダーを丸ごと圧縮して「.omt」という拡張子のついた1つのファイルにしてくれる機能です。



このファイルをeメールなどでやり取りすることができます。ファイルを受領したら、「Unpack project from OMT file」を実行することで、プロジェクトを展開することができます。この方法なら、使用した辞書や用語集、翻訳メモリもそのまま渡すことができるので、翻訳者と同じ環境でレビュー作業や校正作業ができるということになります。

ここまで見てきただけで、十分に使えそうなツールだと思われたのではないでしょうか。

進化するOmegaT (1)

投稿日時:2021/11/25(木) 15:26

OmegaTについての紹介記事を「翻訳に役立つソフトウェア活用法」に書いたのは、2010/09/25のことです。

フリーの翻訳メモリソフト「OmegaT」
http://e-trans.d2.r-cms.jp/blog_detail/id=34

当時は、「翻訳メモリソフト」と「翻訳ソフト」を区別していたことが分かります。
翻訳支援ソフトには大きく分けて、対訳データベースによる訳文の再利用をメイン機能とする「翻訳メモリソフト」と、翻訳エンジンを搭載して自動的に訳文を出力する「翻訳ソフト」とがあります。

今では、翻訳支援ツールに機械翻訳を組み込んで利用するのが標準になっています。

OmegaTはその後もアップデートを繰り返し、どんどん進化しています。

筆者もこの十数年、20種類以上の翻訳支援ツールを利用してきましたが、個人が業務で利用するツールとして、OmegaTは素晴らしいツールだと再認識しています。

そこで、「翻訳メモリ+機械翻訳」を十分に活用でき、しかも無料で使用できる翻訳支援ツールのOmegaTを改めて数回に分けて取り上げてみたいと思います。

OmegaTについての詳細は以下のWebサイトをご覧ください。
OmegaT - multiplatform CAT tool
https://sourceforge.net/projects/omegat/

OmegaT、自由に使える翻訳メモリツール
https://omegat.org/ja/

現在、ダウンロードできるバージョンは2種類あります。
通常版:OmegaT 4.3.2
最新版:OmegaT 5.7.0

実務で利用する場合は通常版をダウンロードしてください。これが安定版です。
「通常版」と「最新版」の違いは更新されたマニュアルが配布されているかどうかだけだそうです。
OmegaTは、ボランティアによって開発されているので、最新版のマニュアル更新が遅れたりすることがあるようです。

OmegaT 4.3.2をダウンロードしてインストールしてみましょう。
https://omegat.org/ja/download




Windows版を見ると次の3種類あります。
Windows (JRE付き)
Windows (64-bit, JRE付き)
Windows (JRE無し)

JREというのは、Java Runtime Environment(Java実行環境)のことです。OmegaTはJavaでプログラミングされているので、JREがインストールされていればWindowsでもOS XでもLinuxでも動作します。
JREがすでにインストールされているか分からない場合は、JRE付きを選んでおけば大丈夫でしょう。

無事インストールできたら起動してみましょう。


とりあえず今回はここまで。

DeepLの訳文が読みやすい理由

投稿日時:2020/11/17(火) 17:14

DeepLが日本語対応になったのが今年の3月のこと。(バックナンバー
世の中、武漢ウイルスで大騒ぎする中、自宅に引きこもってDeepLと戯れる日々を過ごしているうちにもう10か月たちました。
使っているうちに、訳文の質がだんだん良くなってきているような気がして、色々と情報を集めていると、どうもDeepLは1センテンスだけでなく前後のセンテンスの情報も手掛かりにして訳文を生成しているようです。

ということで、ちょっと実験してみました。

お馴染みのGALA(Globalization and Localization Association)のブログから引用してみます。
GALA Pulse Survey Results - Q3 2020という記事のリードの部分です。
https://www.gala-global.org/publications/gala-pulse-survey-results-q3-2020

<原文>
GALA conducted its third in a series of Pulse Surveys to help our stakeholders understand how the market has changed in 2020, as well as how industry professionals expect it will take shape in the coming months. Our results reflect a snapshot in time, with input from approximately 215 language service and technology providers. We have segmented this information by self-reported products and services, region, and company size to provide a deeper look into if and how companies are being affected. Our key takeaway from the past three months: reported recovery is on the rise.

DeepLに段落ごと貼り付けて出力したのが以下の文です。

GALAは、2020年に市場がどのように変化したか、また業界の専門家が今後数ヶ月の間にどのような形になると予想しているかをステークホルダーの皆様に理解していただくために、パルス調査シリーズの第3回目を実施しました。調査結果は、約215社の言語サービスおよびテクノロジープロバイダーからの意見を反映したスナップショットを反映しています。この情報を、自己申告した製品やサービス、地域、企業規模別にセグメント化し、企業がどのような影響を受けているのか、またどのように影響を受けているのかをより深く知ることができます。過去 3 ヶ月間の主な調査結果:報告された回復率は上昇傾向にあります。

どうですか、よく分かりますね。

次に、センテンス単位で出力してみましょう。訳文に変化はあるのでしょうか?

GALA conducted its third in a series of Pulse Surveys to help our stakeholders understand how the market has changed in 2020, as well as how industry professionals expect it will take shape in the coming months. 
GALAは、2020年に市場がどのように変化したか、また業界の専門家が今後数ヶ月の間にどのような形になると予想しているかをステークホルダーの皆様に理解していただくために、パルス調査シリーズの第3弾を実施しました。

最初のセンテンスは全く同じ訳文ですね。

Our results reflect a snapshot in time, with input from approximately 215 language service and technology providers. 
私たちの結果は、約215の言語サービスおよび技術プロバイダーからの意見を反映したスナップショットを反映しています。

第2センテンスの頭に注目してください。「Our results」が「私たちの結果」と訳されています。一方、パラグラフ単位で出力した方は、「調査結果は」となっています。明らかに、最初のセンテンスの「パルス調査シリーズ」の流れを受けて「調査結果は」と出力しています。ちょっと見ると大したことではないようですが、実は情報がスムーズに流れて理解しやすくなっています。


We have segmented this information by self-reported products and services, region, and company size to provide a deeper look into if and how companies are being affected. 
この情報を、自己申告した製品やサービス、地域、企業規模別にセグメント化し、企業がどのような影響を受けているのか、またどのように影響を受けているのかをより深く知ることができるようにしました。

このセンテンスでは、最後の部分「より深く知ることができるようにしました」が、パラグラフ単位で出力した方は「より深く知ることができます」となっています。provideを文法的に訳せば、「できるようにしました」の方が正確ですが、それだと一瞬「誰が?」と立ち止まってしまうかもしれません。

Our key takeaway from the past three months: reported recovery is on the rise.
過去3ヶ月間の主な成果:回復の報告は増加傾向にあります。

最後のセンテンスは「主な成果」がよく分かりませんね。パラグラフ単位で出力した方では、「主な調査結果」となっていて、違和感なく読みとることでできます。

このように、一見なんでもないような訳語の選択ですが、前のセンテンスの情報を引き継いでいるので、すんなりと読めるということになります。

DeepLは、どんどん進化しているようです。これからも楽しみが尽きませんね。

機械翻訳支援ツール「GreenT」試用レポート(その2)

投稿日時:2020/05/29(金) 10:34

前回はGreenTの概要をレポートしました。現在のニューラル機械翻訳の弱点は何か、それを補うための「機械翻訳支援ツール」としてのGreenTにはどのような機能があるのかを概観してから、用語集機能を試してみました。今回はもう少し詳しく見てみましょう。

GreenTを使用する主な目的の一つが「用語集」機能であることは間違いないでしょう。
期待にたがわず、用語集を作成するための便利な機能が別メニューとして付いています。

■用語の抽出機能

 

「アドイン」タブの「GG」アイコンをクリックするとGlossary Generatorが開きます。



用語の抽出は、出現頻度を基に行われます。日本語の場合は最小文字数、英語の場合は最小ワード数を指定すると、最小頻度以上の語句を抽出してくれます。

デフォルトでは、最小頻度「2」、最小ワード数「2」となっています。日本語の場合は最小文字数「3」です。
用語を抽出してみて多すぎる場合は最小頻度を増やすと良いでしょう。
連語をたくさん抽出したい場合は最小ワード数を増やしますが、「4」ぐらいが適切です。
日本語、英語の切り替えは、画面中央の「J2E」(日英)「E2J」(英日)で指定します。

<ここまでの手順>

1.用語集を作成したいWord文書を開きます
2.「アドイン」タブの「GG」アイコンをクリックします
3.Glossary Generatorが開いたら、「J2E」(日英)「E2J」(英日)の指定をします
4.最小頻度、最小文字数あるいは最小ワード数を指定します。

ここで、「用語を抽出する(T)」をクリックすると抽出できます。

以下の例では、「J2E」、最小頻度「2」、最小文字数「4」に設定しています。
原語の部分に用語が抽出されます。左の数字は出現回数です。



■訳語の取得(Google Cloud Translation)

この状態で「訳語を取得する」をクリックしてみましょう。
Google Cloud Translationによって訳語が出力されます。



任意の語句を選択すると、画面の下部で修正したり、語句を削除したりできます。
「QA」チェックも使えます。



登録する用語の編集が完了したら「テキスト形式で保存する」をクリックします。

保存された用語集はタブ区切りテキストなので、このファイルを直接手直しできます。
これがそのまま、「ユーザー用語集ファイル」となります。



編集作業を途中で中断するときは、「SnapShot」を使います。



Glossary Generatorを終了しても、再度開いて「再開する」をクリックすれば、前回の状態が復元されます。

■訳語の取得(用語集を使用する)

既存の用語集が手元にある場合、その訳語を反映することもできます。この機能を使えば、既存の用語集にマッチしない用語を省いて、スリムな用語集を作成できます。(用語集ファイルがあまり大きすぎると検索に時間がかかってMT出力が遅くなる場合があります)。
「用語集ファイル」を設定し、「用語集を使用する」にチェックを入れて「用語集を抽出する」をクリックします。



既存の用語集ファイルに登録されている用語があると、最初から訳語が入った状態で表示され、先頭に「OK」がつきます。



この状態で、「Google Cloud Translation」で「訳語を取得する」をクリックすると、まだ訳語が入っていない用語に訳語が付加されます。



用語抽出機能について、ちょっと詳しく説明しすぎたかもしれません。
他の機能も駆け足で見ておきましょう。

■プリエディット機能

基本的に機械翻訳は長い文、複雑な文は苦手です。GreenTのプリエディット機能は、文の分割が中心のようです。例えば、関係代名詞で分割します。



[Which Clause]を選択して「適用」をクリックすると、以下のように分割されます。



「GreenT」ボタンをクリックして再翻訳します。
これだけで、見違えるような訳文になりました。



■ポストエディット機能

これは、一言でいえば訳文の置換機能です。あらかじめ置換候補を登録しておくこともできます。
候補を選んで「適用」をクリックするだけなので、入力の手間が省けます。



■否定語をチェックする機能

機械翻訳では否定語が訳されないことがたまにあります。重大なエラーとなるので、否定語をチェックする機能が付いています。
以下の場合はcan’tがきちんと反映されています。
否定語があると、イタリック表示になります。



ちなみに、上図の「ポストエディット」に表示された[Repeated Phrase 2]は、「私たち」のが繰り返されていることを警告しています。
湧き出しではありませんが、「私たちの年齢の」→「同年齢の」とでもすれば良いでしょう。

GreenTには、まだまだ多くの機能があって紹介しきれませんが、興味のある方はGreenTのWebページをご覧ください。

機械翻訳を越えるGreenT
https://www.wordvbalab.com/word-addin/greent/
開発者:新田順也氏(翻訳者、プログラマー、Microsoft Word MVPをWord部門で受賞、エヌ・アイ・ティー株式会社代表取締役)

【朗報】Google Translate APIの他にDeepL利用可能になりました。
「Ver. 1.3からDeepLを利用できるようになります。現在は申請をした正規ユーザーのみご利用できます。体験版ではご利用いただけません。」(2020/5/12)

GreenTは、動画も含めた分かりやすいマニュアルが用意されているので安心です。
https://www.wordvbalab.com/word-addin/greent/manual/

機械翻訳支援ツール「GreenT」試用レポート(その1)

投稿日時:2020/04/29(水) 17:17

ニューラル機械翻訳もどんどん品質が向上しており、すでに機械翻訳を活用している方も多いかと思います。たしかに、統計ベース機械翻訳よりもずっと自然な訳文が出力され、修正もしやすくなりました。
ただし、初期のころから指摘されていた弱点はまだ改善されているとはいえません。
たとえば、ざっと見ても以下のような注意点が挙げられます。
 
* 訳抜け、湧き出しがある。過不足のない出力になるように制御できない。
* 低頻度語、専門用語、固有名詞などに弱い。用語の管理(訳語の統一)が難しい。
* 長い文に弱い。これは、ニューラル機械翻訳に限らず、どの方式でも同様。

このような問題のある機械翻訳出力文をそのまま使って翻訳するのはあまり効率的ではないと同時に思わぬ誤訳・不適切訳を生じてしまうことがあります。一見、読みやすく自然な訳文になっているために誤りを見逃してしまったり、訳語のばらつきを見逃してしまったり、なかなか一筋縄ではいきません。

こうした機械翻訳の弱点を補うためにいろいろなツールが開発されています。
今回試用したのは、翻訳者が開発した実用的な機能が満載の機械翻訳支援ツールのGreenTです。

機械翻訳を越えるGreenT
https://www.wordvbalab.com/word-addin/greent/
開発者:新田順也氏(翻訳者、プログラマー、Microsoft Word MVPをWord部門で受賞、エヌ・アイ・ティー株式会社代表取締役)

■GreenTとはどんなツールか

Wordのアドインです。インストールは、マクロテンプレート(GreenT.dotm)とショートカットキー用のプログラム(GreenT_Tools.exe)をWordのスタートアップフォルダにコピーするだけです。

インストールが済むと下図のように「アドイン」タブにボタンが表示されます。
一番左の「GreenT」ボタンをクリックすると起動します。のちほど実際に使ってみましょう。


 
GreenTの機能をざっと見てみましょう。
 
・用語集の利用
・用語集の自動作成
・プリエディット(前編集)の自動化
・ポストエディット(後編集)の自動化
・高機能なQAチェックツール
・複数の機械翻訳と連携(デフォルトはGoogle Translate)
・CATツールとの連携(Trados、Memsource、memoQなど)
・既訳文の活用(テキスト翻訳メモリ)
・翻訳ログの記録機能(原文と訳文の変更履歴機能)

機械翻訳を十分に使いこなすための機能が充実していることが分かります。

体験版が用意されていて、60日間、10万文字(5万語)の翻訳を試すことができます。
興味のある方はぜひ試してみましょう。
https://www.wordvbalab.com/word-addin/greent/#download

■GreenTを使ってみる

翻訳する原文Wordファイルを開いて、「アドイン」タブの「GreenT」ボンタンをクリックすると下図のような画面が開きます。

 
このままでも使用できますが、原文ファイルと重なって見にくいので左右に配置してみましょう。

まず、GreenTの画面をクリックしてアクティブにしておいて、Windowsキー+右矢印キーを押します。
下図のように右側半分に配置されます。

 

次にWordの画面をクリックしてアクティブにしておいて、Windowsキー+左矢印キーを押します。
下図のように左右に配置されて作業しやすくなります。

 

翻訳するには、原文の先頭にカーソルがあるのを確認してから「次へ」をクリックします。
すると、Wordの原文センテンスが、「原文」の欄にコピーされます。
次に、「GreenT」をクリックすると機械翻訳の出力文が「訳文」の欄に表示されます。
この「訳文」欄の文は自由に編集できます。

 
次に、この訳文をWord原文に上書きする形で挿入するのですが、このままでは「挿入」ボタンがグレイアウトしていてクリックできません。

「QA」ボタンをクリックすると「訳文」欄の背景がグリーンになって、「挿入」ボタンがアクティブになります。
QAチェックをしないと訳文が完成したとみなさないということですね。

 
「挿入ボタン」をクリックすると、Wordの原文に訳文が上書きされて、GreenTの「原文」欄には次のセンテンスがコピーされます。

 

これが基本的なGreenTの使い方になります。
このように、ステップ・バイ・ステップで作業を進めていくのがこのツールの基本操作ですが、自動化することも可能です。
「Setting」タブを表示すると、「プレトランスレーションを実行する」、「QAチェックを自動で実行する」、「[全文翻訳]ボタンを表示する」という項目があります。

 

これらにチェックを入れて、「次へ」をクリックすると、「原文」欄に原文がコピーされると同時に機械翻訳され「訳文」欄に出力結果が表示され、QAチェックも終わり、「挿入」ボタンがアクティブになります。
この状態ではまだ訳文を修正することができるので、必要であれば修正して再度QAチェックを行います。

 

「全文翻訳」ボタンをクリックすると、開いている原文が自動的に全て翻訳され上書きされます。途中で修正することはできません。
ただし、全文翻訳が完了すると、対訳の表が作成されるので、あとでじっくり点検することができます。これは非常に実用的で、さすがによく考えられています。

 

■用語集機能

今回は特に基本的な使い方を試してみましたが、おそらくこのツールを使う上で最も関心があるのは「用語集」機能ではないでしょうか。
ニューラル機械翻訳は訳語を管理できないというのが大きなネックの一つとなっています。

そこで、簡単な例で「用語集」機能を試してみました。

例文:
The lake was calm and beautiful with some swans swimming on its placid surface.

用語集を使わない出力結果:
湖は穏やかで美しく、白鳥が穏やかな水面を泳いでいました。

 

用語集に以下のように登録しました。

 

「用語集」にチェックを入れて再度翻訳してみます。

 

用語集を使った出力結果:

湖は穏やかで美しく、波ひとつない水面を白鳥が泳いでいました。

正しく反映されました。
大量の用語が登録された用語集でもうまく動くかどうかは未確認ですが、基本的には問題なく動きました。

GreenTはこのように、誰でもごく簡単に使うことができます。
そして、さらに便利な機能が盛りだくさんなので、自分の翻訳スタイルに合わせて機械翻訳を活用できるようになります。

次回は、さらに注目すべき機能についてレポートする予定です。
«前へ

編集部宛メールフォーム

お名前:必須

Eメールアドレス:必須

Eメールアドレス(確認用):必須
(確認の為、同じものをもう一度入力してください)

記事タイトル:必須


メッセージ:必須

ファイル添付:

プロフィール

小室誠一
1990年から機械翻訳のユーザーとして活用法の研究を行う。
バベル翻訳大学院で、「翻訳者のためのテキスト処理」「翻訳支援ツール徹底活用」など、ITスキルに関する講座を担当。
 

編集部宛投稿メール

編集部宛の投稿は以下のフォームからお送りください。

みなさまの投稿をお待ちしております。

 

【編集部宛メールフォーム】