大きくする 標準 小さくする

【ブログ】翻訳テクノロジーあれこれ by 小室誠一

<<前へ
rss

みんなの自動翻訳をMemsourceで使ってみる(1)

投稿日時:2017/08/03(木) 15:02

機械翻訳の使い方は色々ありますが、翻訳者が訳文作成の補助として使用するならCATツールに組み込むのが一般的です。翻訳業界もすでにその方向に進んでいます。
機械翻訳がニューロネットワークベースになって、従来の統計ベース機械翻訳の品質を上回るようになれば、「機械翻訳+後編集=翻訳」が本格的に実現することになります。
これまでは、機械翻訳の品質が悪いため、後編集するより最初から翻訳したほうが早いし品質も良くなると感じる翻訳者が大半たったため、「機械翻訳+後編集=翻訳」はほとんど普及しませんでした。
ニューロ機械翻訳は後編集する気になるような品質の訳文を提供してくれるでしょうか。
すでに、ニューロ機械翻訳の問題点が明らかになっています。そして、それらの問題点を克服しようと、すごい勢いで研究が推進されています。ここ、数年の内に、大いに改善されるのは間違いないでしょう。
みなさんも、今の内から、ニューロ機械翻訳に触れて、その進歩を観測していきましょう。
お金をかけずに、最先端の国産機械翻訳を体験するには、NICTが開発している「みんなの自動翻訳@TtexTra」を利用するのが最適です。

「みんなの自動翻訳@TtexTra」をクラウドベースのCATツール「Memsource」に組み込んで、後編集の練習をしてみましょう。

どちらも無料で利用できますが、アカウントの作成は必要です。早速登録しましょう。

みんなの自動翻訳@TtexTra
https://mt-auto-minhon-mlt.ucri.jgn-x.jp/

Memsource
https://cloud.memsource.com/

<機械翻訳エンジンの設定>

Memsourceのサイトにアクセスしてログインします。
画面の右上の方に、歯車のアイコンがあります。これをクリックすると「セットアップ」画面になります。
下の方にスクロールすると、「インテグレーション」のカテゴリの中に「機械翻訳エンジン」があるので、これをクリックします。
 

デフォルトでMicrosoft with Feedbackが設定されています。もちろん、このエンジンを使用することもできますが、ここは初志貫徹で、「みんなの自動翻訳@TtexTra」を追加します。
[作成]をクリックしましょう。


「機械翻訳エンジンを作成」画面が開きます。といっても、Memsourceで機械翻訳エンジンそのものを作成できるわけではありません。一瞬喜んだ人は気の毒ですが、あくまでもAPIを組み込むだけです。
それにしても、ずいぶん多くの機械翻訳を選択できますね。
ここは、ここは初志貫徹で、「NICT」(みんなの自動翻訳@TtexTra)を選択して[作成]をクリックします。

 

さて、設定項目は以下のようになります。
 

ここで、「みんなの自動翻訳@TtexTra」のサイトにアクセスしてログインします。

トップページの中ほどに「Web API」へのリンクがあるのでクリックします。
 

「Web API一覧」ページが表示されたら「自動翻訳リクエスト」の[一覧]をクリックします。

 

APIの一覧が表示されたら、「汎用NMT 【英語 - 日本語】」の[URL]ボタンをクリックします。お好みによって別のAPIを試しても結構ですが、ここでは説明の例としてこれを選んでいます。
 

APIの設定情報が表示されます。
必要なのは、「リクエストURL」「API key」「API secret」の値だけです。あとは、Memsourceに設定されています。
 


ここで、Memsourceの設定画面に戻って、必要な情報を入力します。
「種類」はすでに「NICT」になっています。
「名称」は任意です。ここでは、「みんなの自動翻訳NMT」としました。
「ユーザー名」はみんなの自動翻訳に登録したユーザー名を入力します。
「エンジン」はリクエストURLの最後の部分、「generalN_en_ja/」を入力。
「キー」は「API Key」の値をコピー&ペーストします。(手入力だとほとんど間違えます)。
「シークレット」は「API secret」の値をコピー&ペーストします。
「URL」は空欄で大丈夫です。
入力できたら[保存]をクリックします。
 
一覧に表示されて、ステータスが青くなれば成功です。ステータスが赤い場合はどこかが間違っていますのでやり直しです。
 

設定ができたら早速使ってみましょう。
使い方が分からない方は、次回の投稿を首を長くしてお待ちください。

Microsoftの「Try & Compare」ページ

投稿日時:2017/07/21(金) 17:30

マイクロソフトも昨年(2016年)11月15日に、ニューロ機械翻訳を公開しています。
「Try & Compare」ページでは、ニューロ機械翻訳と統計機械翻訳を比較できます。
https://translator.microsoft.com/neural

試しに、巻頭言から拝借して訳文を出力してみましょう。

<原文>
2017年も半年が過ぎ、はやくも、8月を迎えます。瞬く間に年の後半に入りますね。

<訳文①>
Six months, early, celebrates August 2017. It quickly enters the second half of the year.

<訳文②>
In 2017, half a year passed, and early August. The second half of the year is in the blink of an instant.

訳文①と訳文②ではどちらが分かりやすいでしょうか。
また、どちらがニューロ機械翻訳でしょうか。

<答え>
訳文①統計機械翻訳
訳文②ニューロ機械翻訳

みなさんも試してみましょう。

音声翻訳アプリVoiceTraがニューラル機械翻訳で精度アップ

投稿日時:2017/07/13(木) 17:00

音声翻訳アプリVoiceTraを試した人も多いかと思います。
これまでは対訳コーパスに基づく統計翻訳(SMT)を採用し、大きな成果を上げてきましたが、今回は話題のニューラル機械翻訳(NMT)を取り入れてさらに精度がアップしたとのことです。
話し言葉は書き言葉と違って、文法的に破格な場合が多いので、昔ながらのルールベース翻訳(RBMT)では良い結果が出なかったのですが、SMT、NMTと技術が躍進して、いよいよ実用段階に入ってきたようです。あとは、ハードウエアやアプリの使い勝手の向上がカギとなりそうです。

プレスリリース
http://www.nict.go.jp/press/2017/06/28-1.html

以下、コピペです。
VoiceTra(ボイストラ)
話しかけると外国語に翻訳する音声翻訳アプリ。見やすい画面で簡単に操作でき、翻訳結果が正しいかどうかも確認できる。翻訳できる言語は31言語(中国語、ポルトガル語の方言を含む)。うち、21言語が音声で入力可能、16言語が音声出力可能。ダウンロード、利用は無料。
http://voicetra.nict.go.jp/index.html 

Googleがニューラル機械翻訳の作り方を公開

投稿日時:2017/07/13(木) 16:46

Google Research Blogに、2017年7月12日付で「Building Your Own Neural Machine Translation System in TensorFlow」という記事が投稿されました。

原文はこちら。
https://research.googleblog.com/2017/07/building-your-own-neural-machine.html

早速、Google翻訳にかけてみました。
意味、分かりますか?
興味ある人はチュートリアルをダウンロードして研究してみましょう。

---------------------------------------------------------
TensorFlowで独自のニューラルマシン翻訳システムを構築する
2017年7月12日水曜日
Thang Luong、Research Scientist、Eugene Brevdo、Google Brain Teamスタッフソフトウェアエンジニア

機械翻訳 - 言語間の自動的な翻訳作業は、機械学習コミュニティで最も活発な研究分野の1つです。機械翻訳への多くのアプローチの中で、sequence-to-sequence( "seq2seq")モデル[1,2]は最近、大きな成功を収め、Google翻訳などの商用翻訳システムのデファクトスタンダードとなっています。センテンスの意味を把握するために深いニューラルネットワークを使用する能力しかし、OpenNMTやtf-seq2seqなどのseq2seqモデルには豊富な素材が存在しますが、高品質の翻訳システムを簡単に構築するための知識とスキルの両方を教える素材が欠けています。

本日、TensorFlow用の新しい神経機械翻訳(NMT)チュートリアルを発表し、seq2seqモデルの完全な理解と、競争力のある翻訳モデルの構築方法を紹介します。このチュートリアルでは、NMTに関するいくつかの背景知識と、バニラシステムを構築するためのコードの詳細まで説明しながら、できるだけシンプルなプロセスを作成することを目的としています。それはNMTシステムが長い文章を扱うことを可能にする重要な要素である注意機構[3]、[4]に潜んでいる。最後に、このチュートリアルでは、GoogleのNMT(GNMT)システムで主要な機能を複製して複数のGPUをトレーニングする方法について詳しく説明します。

チュートリアルには詳細なベンチマーク結果も含まれており、ユーザはそれを自分で複製することができます。私たちのモデルは、GNMTの結果と同等のパフォーマンスを持つ強力なオープンソースのベースラインを提供します[5]。 WMT'14英語 - ドイツ語の翻訳タスクで24.4BLEUポイントを獲得しました。
他のベンチマーク結果(英語 - ベトナム語、ドイツ語 - 英語)はチュートリアルで見つけることができます。

さらに、このチュートリアルでは、seq2seqモデルをきれいにすることを目的とした、完全に動的なseq2seq API(TensorFlow 1.2でリリース)を紹介します。
tf.contrib.dataの新しい入力パイプラインを使用して、動的にサイズの変更された入力シーケンスを簡単に読み込み、前処理します。
パッド付きバッチ処理とシーケンス長バケット処理を使用して、トレーニングと推論の速度を向上させます。
人気のあるアーキテクチャとトレーニングスケジュールを使用して、seq2seqモデルをトレーニングします。
グラフ内のビーム探索を使用してseq2seqモデルで推論を実行します。
マルチGPU設定のseq2seqモデルを最適化します。
我々は、これが研究コミュニティによる多くの新しいNMTモデルの創造と実験を促進することを願っています。自分の研究を始めるには、GitHubのチュートリアルをチェックしてください!
--------------------------------------------------------------------
以上、Google翻訳の日本語出力。

「MTフェア2017」参加レポート(3)

投稿日時:2017/07/06(木) 15:33

講演の2番目は、注目のニューラル機械翻訳に関するもので、だいへん面白い内容でした。

講演2:「ニューラル機械翻訳ってどうなの?」
中澤敏明氏(国研 科学技術振興機構)

ニューラル機械翻訳(NMT)のプロダクト化

NMT-文をバーツごとに翻訳するのではなく一つの文として扱う。
Google NMT (GNMT)―https://translate.google.com/を使う。
英語とその他の言語間しか対応していない
単語/句の対応が表示されない(文全体の対応として表示される)

   
NMTの特徴
●フレーズテーブルは存在しない
単語アライメント不要、同じモデルで訓練もテストも行う
●SMTのように入力文を「置き換える」ことで翻訳するのではなく、入力文も見ながら、言語モデルのように翻訳文を作り出す
・<EOS>が(どこかで)出力されたら完了
・入力文を過不足なくカバーして翻訳することができない
●入口(入力文)と出口(翻訳文)以外は全て数値計算(行列の積など)だけで動いている


NMTの短所
●既存の(SMT用の)前処理・後処理が使えない
・事前並び替えは悪影響
・辞書が簡単には統合できない
・これまでのノウハウが活かせない
●計算量が多いので、ニューラルネットワークの学習に適したデバイス(GPU)が必須
●全然違う訳が出ることがある
●なぜそのような翻訳が出てきたかが全く説明できない
●翻訳文の流暢さは完璧に近いが正確性は完璧ではない
●NMTの主要な翻訳誤り
・平均的な翻訳精度は格段に向上するが訳抜けが起こりやすい
・たまに同じ単語を繰り返し出力
・低頻度語の翻訳に弱い

今後の展望
●NMTはここ数年で急激に発展し、平均的な翻訳精度はSMTを追い越している
●NMTの研究はまだ発展する可能性が高い
・現状のMNTはほとんど制御不可能
●現状のNMTには解決すべき課題が多く、実用的かどうかは疑問
・ざっと内容を把握する目的なら十分
・人間の翻訳の下訳として使うのはおそらく大丈夫
誤り傾向がSMTと異なるので、新たなノウハウの蓄積が必要
・翻訳結果をそのまま出版するのはやめた方がいい

(G)NMTを使う
●GNMTの結果をそのまま、もしくは多少の修正で納品する会社や翻訳者が多発
・GNMTを使ったかどうかを見分けるのが難しい
・訳抜けに気づくのが難しい
●平均的な精度は高いので、うまく使えば作業効率が向上するはず
・どのようにノウハウを蓄積するかが重要
・うまく使うためのツールの整備なども重要
●一般の人がGNMTの結果をそのまま使用し、Web上や街中に誤訳が氾濫
 
ニューラル機械翻訳の問題点が良く分かりました。
現在の勢いで研究が進められれば、おそらく、数年で改善されるように思われます。
産業翻訳でニューラル機械翻訳をどのように活用するか、十分に研究しておく必要がありそうです。


最後の講演は技術的な内容ではなく、機械翻訳をどのように収益に結び付けるかについてのものでした。

講演3:「機械翻訳の収益化の可能性」
佐藤弦(SDLジャパン株式会社)


SDL―翻訳会社
2005年 翻訳メモリ型CATツールのTrados社を買収
2010年 企業向け機械翻訳では世界トップのLanguage Weaverを買収

収益化の手段
●企業、政府へのシステムの販売
●アプリケーションなどのバックエンドでの使用
・Webページ(例:Trip Adviser)
・携帯アプリ
・API課金、ライセンス販売

汎用エンジンを産業翻訳に使用する場合の課題
●セキュリティ(情報が外に漏れる)
●カスタマイズ(用語、スタイル)
●タグの処理(基本的にMTはテキストのみ)

産業翻訳への機械翻訳の導入
●品質は重要だが、唯一の要素ではない
●GoogleやMicrosoftは、機械翻訳を産業翻訳のために開発しているわけではない
●プロセスの確立とそれに対するコンセンサスが必要(エンドクライアントがコントロールできるようにする)
●コストがかかるので翻訳できないものが大量にある。MTでコストが下がれば翻訳量が増大する可能性がある。
 
SDL社は、2016年11月にTrados Studio 2017を発売しました。

新機能として以下があります。
・upLIFT機能(翻訳メモリを細分化して、部分的にマッチさせる)
・AutoSuggestのアジア言語対応
・AdaptiveMT(自動学習するMT。リアルタイムで学習しながら改良される)

最後の自動学習MT(AdaptiveMT)が、MTを産業翻訳で活用する方法として一つの流れになると思われます。






 
«前へ

編集部宛メールフォーム

お名前:必須

メールアドレス:必須

メールアドレス(確認用):必須
(確認の為、同じものをもう一度入力してください)

記事タイトル:必須


メッセージ:必須

ファイル添付:

削除

プロフィール

小室誠一
1990年から機械翻訳のユーザーとして活用法の研究を行う。
バベル翻訳大学院で、翻訳者のためのテキスト処理など、ITスキルに関する講座を担当。
また、フリーの翻訳者として毎日CATツールを使うのが嬉しくてたまらない。
ブルーグラス、バードウオッチング、俳句をこよなく愛しているが、最近は孫と遊ぶのに夢中。

編集部宛投稿メール

編集部宛の投稿は以下のフォームからお送りください。

みなさまの投稿をお待ちしております。

 

【編集部宛メールフォーム】