翻訳の未来はあなたの選択次第
2013年1月14日 by Jaap van der Meer
翻訳の世界は技術革新があまり進んでいませんでした。それがやっとやってきたというか、現在、翻訳サービスのすべてが変わろうとしています。それほど遠くない将来、世界中の誰でもが自分の母国語で話して、それをほかの誰でもが理解できるようになるでしょう。私たちは、今「収束」の時代を迎えようとしています。翻訳は、アプリ、デバイス、看板やスクリーンといったあらゆるものに埋め込まれて、公共サービスの1つになるでしょう。
さまざまなビジネスが新たなマーケットで新たな顧客を見出して、より栄えていくでしょう。行政と市民は自然なかたちで連絡を取り合い、コミュニケーションを進めていくでしょう。消費者は、まるで言語の障壁など存在しないかのように、如才なく誰とでもどこででも情報を交換しあうようになっていくでしょう。
ところで、誤解しないでくださいね。おそらく技術革新は完璧なものではないでしょうから。それでも、技術革新によって次の時代のドアが開き、障壁が取り除かれていきます。技術革新によって翻訳業界は活気づき、グローバルコミュニケーションのギャップは埋められていきます。
これは夢物語なのでしょうか? 翻訳データの可能性を知っていれば、夢物語ではないことがわかるでしょう。翻訳データは機械翻訳(MT)技術のいわば燃料のようなものです。翻訳データはエンジンにパワーを供給します。でもそのエンジンは人間の言語能力と競い合うようなものではありません。私たちがこれまでに話したことがなかった、あるいはこれから話し始めるといった言語レベル程度で話す手伝いをしてくれるものです。ニコラス オストラー(イギリスの言語学者)によれば、MTは新たなリンガ フランカ(国際共通語)になるものと思われています。
こういったことを聞くと、翻訳業界の関係者は怯えてしまうでしょう。MTはこれまで長い間にわたっていろいろと試されてきましたが、一度たりとも使い物になったことがありませんでした。翻訳の自動化はユートピアのようなものだと思われてきました。しかし、それも終わりです。大衆の声が巻き起こり、何百万という人々が自分の検索しているものを見つけるためにコンピューターの自動翻訳ボタンを使い始めたのです。自動翻訳の品質が悪くて吹き出しそうなものであっても、人々は、自分でいつでもすぐにでも使える機能であるということに魅力を感じています。これは時代のサインともいうべきものです。ユーザーが主導権を握り、変化を推し進めていきます。
収束の時代の始まり
以下のグラフが示すように、1980年以降、翻訳業界は10年ごとにパラダイムシフトを経験してきました。しかし、そのどれよりもこれから迎えようとしている変化、「収束」は大きなものです。
| 翻訳産業の進化 |
|||||
| 1980 翻訳 |
1990 ローカリゼーション |
2000 グローバリゼーション |
2010 統合 |
2020 収束 |
|
| 翻訳業界の関心事 | ドキュメント | ソフトウェア | 世界同時発売 | システムに統合 | 埋め込み(ユビキタス化) |
| 翻訳するコンテンツの種類 | 紙 | 電子ファイル | ウェブ | ソーシャルネットワーク(共有) | 個人使用 |
| 言語ペア | 10 | 25 | 40 | 400 | 40,000 |
| 翻訳支援 | |||||
| ツール | なし | TMと用語管理 | ワークフロー (Global Management System) |
MTと高度なレバレッジ | カスタマイズMT (リアルタイム) |
| リソース | 用語集 | 翻訳メモリー | 集中翻訳管理システム (TMS) | 限定された共有データ | 無制限のビッグデータ |
(出典:TAUS)
コンテンツの量はゼタバイト(数兆ギガバイト)の単位にまで膨れ上がってきています。これは、数十億の新規ユーザーがコンピューターをクリックして好きなだけ翻訳することに匹敵します。 輸出志向の20世紀からオープンなグローバル社会の21世紀に移行している中で、言語ペアの組み合わせは、これからの10年以内に、現在の7ソース60ターゲット言語から200ソース200ターゲット言語にまで増加していくでしょう。こう考えると、この新時代を迎えるに人力による翻訳だけでは足りないことがはっきりします。
現在のフェーズである「統合」時代において、企業や公共機関はせっせと翻訳機能を構築していっています。注力しているその目的は、コンテンツ マネージメント システム(CMS)などのアプリに翻訳を統合することにあります。これによって、組織は単に通常のドキュメントや操作マニュアル、カタログ、そしてソフトウェアを翻訳するだけではなく、それ以上に翻訳能力を向上させることができます。
ところがその一方で現実を見わたしてみると、もっと早く翻訳してほしい、リアルタイムで翻訳してほしいという要求が強くなってきています。この要求に応えることで、革新的な挑戦者たちは言語を「収束」させるツールを確保し、これまでになかったソリューションを提供するというとてつもない機会を得ることができるのです。(「The Agents of Change: Insiders and Invaders videos」をご覧ください。)
2種類の「収束」
ここで2種類の互いにつながりあった収束について説明します。その2種類とは、純粋な技術的収束と機能的な収束です。技術的収束とは、2つ以上の技術を組み合わせて新しく強力な製品やサービスを創出することです。また機能的収束とは、いろいろな機能を組み合わせて新たなソリューションを創出することです。
日常生活の中では、携帯電話が技術的で機能的な収束の好例となります。今すでに、携帯電話は何千ものアプリを使ってカメラにもPDAにもナビにもその他いろいろなものになっています。結果として、このシンプルな携帯用デバイス(その言葉どおりドイツ語ではHandyと言います)は、私たちの体の一部といっていいぐらいかけがえのないものに変わっているのです。
流通業界では、スーパーマーケットがこの収束というフォームで出現しました。スターバックスによるコーヒーと音楽の組み合わせのサービスは、収束のもう1つの好例と言えます。 デジタル社会では、機能的な収束は、よくギブアンドテークという特徴をもって示されます。その例としては、ユーザーがサプライチェーンの中に組み込まれるということが挙げられます。たとえば、食べログなどのようなレストラン評価のサイトがこの好例です。ユーザーがレストランを評価して、その評価をみんなでシェアするというものです。評価サイトは無料なのですが、そのサイトのオーナーは広告によって潤うことができます。
機能的収束のより革新的な例としては位置情報アプリ(ローカリゼーションの別のかたち)があります。携帯電話のユーザーは(そのことを無意識のうちにやっていることがよくあるのですが)自分の正確な位置情報を発信することで、自分の現在地近くのお店やレストランの情報や、偶然同じストリートを通りかかった友達に会えますよという情報を受け取ることになります。
翻訳業界における「収束」
どんな収束が翻訳業界にとって意味があるのかということからスタートしてみましょう。実際に、技術や機能のあらゆる面で、収束はすでに始まっています。スピーチテクノロジーとMTの統合は、これが収束だというまさに印象的なデモンストレーションになりました。科学技術者がこの機能を使って仕事をさらに効率化させたらどうなるか考えてみてください。もう携帯電話で小さなキーに煩わされる必要はなくなりました。1つの言語で話しかければ、別の言語で出力されるのですから。
当然、自動翻訳にスピーチテクノロジーを組み合わせたのが、翻訳業界における機能的収束のベストな例です。技術革新によって、前述のとおり大衆の声が巻き起こりました。リアルタイムの翻訳を利用するために何百万ものユーザーが毎日コンピューターをクリックし始めました。ユーザーはその対価を支払ったりしませんが、もっとも、そのサイトの広告を見せられることで対価を支払っていることになるのかもしれません。検索エンジンの会社は、そのMT翻訳サービスをプロの翻訳者にまで広げるようにしました。
もっと上を行く収束のビジネスモデルもあります。翻訳データ(翻訳メモリー) をシェアすることで、ビジネス事業主側がカスタマイズされた(品質が向上した)機械翻訳を得ることができるのです。翻訳の世界におけるこの機能的収束の最近の例としてデュオリンゴ(Duolingo)があります。デュオリンゴはゲーム化した(gamified)オンライン言語学習サイトです。これは使用料金がかからないのですが、ユーザーはそのスキルレベルに応じて翻訳のお手伝いをすることになります。このようにして、プラットフォームを改善するのに役立つ翻訳データを供給しながら、それと同時にユーザーはサービスを受けるわけです。
今後10年間、私たちは収束していく機能や技術の新たな例をいろいろと目にすることになります。時として、この収束は、ただ1つの言語ペア、1つのドメイン、1つのニッチなマーケットでしか起きないかもしれません。また時として、それはもっと大きなスケールにまで広がるかもしれません。いずれにしてもこれらの収束の動きが重なって、翻訳業界が完全に変わっていくことになります。翻訳は、私たちを取り巻く日常すべてのものに埋め込まれて、公共サービス化していくでしょう。電気やインターネットと同様にユビキタスなものになっていくわけです。
翻訳は、ますます人々にとってなくてはならないものになっていきます。この翻訳公共サービスをまだ使えないでいる言語コミュニティは、先進のコミュニティに刺激を受け、時代に追いついていく努力を始めることでしょう(そのためには、必要な翻訳データを集積し、シェアすることが必要です)。この動きを加速化させるのが口コミによる、いわゆる「バイラル効果」です。「バイラル効果」によって、言語ペアやドメインが急速に増加し、翻訳公共サービスのパフォーマンスが飛躍的に向上していくのです。
クラウド(大衆)とクラウドとビッグデータ
収束の時代に沿ったもう1つのトレンドとなるのがクラウド(大衆)とクラウドとビッグデータです。クラウド(大衆)は機能的収束の一部であり1つのかたまりです。デュオリンゴは、そのプラットフォームをうまく動かしていくために数十万のユーザーが必要です。彼らがベストの翻訳を採決し、それによってシステムの全体的なパフォーマンスが向上するのですから。もう1つのクラウドは、クラウド(大衆)を結びつけ、必要な拡張性や効率性に達するための基本的なインフラ環境です。
翻訳の革新的ソリューションには、SaaS (Software-as-a-Service)やDaaS (Data-as-a-Service), IaaS (Infrastructure-as-a-Service)やPaaS (Platform-as-a-Service)などいろいろなものがありますが、すべてはクラウドベース ソリューションの変化したものです。ここで理解していただきたいのは、クラウド(大衆)やクラウドの背景にはビッグデータ(量が多いだけでなく、様々な種類や形式のものを含んだ巨大なデータ群)という隠された巨大なパワーがあるということです。これがトレンドの最大のものです。IBMのワトソン(Watson:人間と対戦するために開発された人工知能)が、2011年にアメリカのクイズ番組「ジェパディ」(Jeopardy)で人間に勝つということがありましたが、これは自然言語処理のマイルストーンとなる出来事でした。これは、十分なデータ量がありさえすれば、コンピューターがあいまいさを読み解き、ジョークやメタファーを理解できるということを証明するものです。
翻訳業界にとってビッグデータは非常に重要なものです。ビッグデータによってMTの翻訳パフォーマンスが向上するのですから。ビッグデータは、MTを含めて、自然言語処理のさまざまな分野で重要視されていくことでしょう。コンピューターは、自動的に意味的なクラスタリングや分野特定の処理をすることができるようになります。これはどういうことかというと、コンピューターがそれぞれの産業ドメイン(たとえば医療や放射線部門)やコンテンツの種類(たとえば操作マニュアルや特許)を認識し、識別するようになるということです。
このビッグデータは、MT技術が継続的に向上していくために必須のものです。最近のMTシステムに供給される言語ペアのパラレルデータ量がますます増大化していき、その許容量に到達し、従来のデータベース管理技術では対処しきれなくなるので、それに対処するためのビッグデータ技術が極めて重要なものになります。データ量が増大化すると、コンピューターは用語検索をもっと上手にできるようになります。
コンピューターは、同義語、関連用語、新語、特殊な専門用語を見分け、パラレルプロセッシングツールを使って自動的に統語論的分類を生成できるようになります。シンプルな統計的MT翻訳モデルは、階層(統語論またはアラインメントベース)ツリー構造を併せ持ったハイブリッドMTモデルに進化します。それにより、MTエンジンは長文での語順の並べ替えができるようになり、特に言語学的に遠い言語ペア同士でスムーズで適切な翻訳を生成できるようになります。
新たなコンテンツの組み合わせにマッチした翻訳支援とは
収束の時代になると、翻訳するコンテンツの組み合わせが、従来のドキュメントやソフトウェアから、数行だけのテキストや音声、複合スクリーンに映し出されるビデオなどに変わっていきます。そういったサービスを利用するエンドユーザーや一般市民、患者が主導権を握ることになり、企業や政府などの公的情報、フェースブックなどのSNS共有情報、マイクロソフトのサポートサイトなどで見られるようなユーザーが相互に提供しあう製品関連情報、そして個人情報などで翻訳の流れをつくり出していくのです。
翻訳メモリーソフトは従来からのプッシュ方式の静的なドキュメントの更新にはうまく使えますが、ユーザーが任意に試みるプル方式の動的なコンテンツを翻訳するのにはあまり役立ちません。MT技術は急速に成長し、翻訳サービス部門のメインのツールになっていくでしょう。MTのプラットフォームには新たな機能が装備され、そこにプロの翻訳者がデータ(クライアントごとや製品ごとの翻訳メモリー、用語集、ターゲット言語のテキスト)を追加します。結果として、それがリアルタイムでMTエンジンをトレーニングしカスタマイズしていくことになります。
このセルフサービス式のリアルタイムMTエンジントレーニングがすべての翻訳作業で成されます。一般的な言語ペアでのMT開発のプロセスにはお金がかかって時間もかかっていたことを思えば、このMTのパーソナル化は実に飛躍したものです。MTのパーソナル化によって、翻訳メモリーデータはより巨大化していくことが求められます。翻訳者はこの新たな仕事のためにマッチするデータを探し、それによってMTエンジンはチューニングされます。このようにデータへのニーズはとどまることを知りません。
こういった変化は翻訳業界の起業家たち(バイヤーやプロバイダー)をどこに導くのでしょうか。
不確実な将来に対するプラン
2010年にTAUSは、シナリオベースでの検討を行ってプランを立てた後、翻訳の調達側と供給側の責任者を交えてブレインストーミングの会議を実施しました。開催場所はコペンハーゲンとポートランド(オレゴン州)です。その目的は、不確実な将来に対して危機による強いられた変化を受け入れるという消極的なものではなく、積極的にチャンスを見出して変化に乗じていくための前向きなプランを考えることです。コンテンツの爆発的増加、マルチメディアや携帯メディアへのシフト、リアルタイムでの情報供給などといった翻訳の世界を変動させるトレンドについては、参加者たちに異論はなかったのですが、以下の3つの疑問については自信をもって答えることができませんでした。
- MTは翻訳業界で大きな役割を果たすか?
- 翻訳が誰でもただで使えるサービスになるのではと恐れる必要があるか?
- クローズな競争型のビジネスモデルとオープンな協調型のビジネスモデル、どちらが勝者となるか?
このうちの1.と2.の疑問については、ここ2~3年の間で答えが出ています。1.について:はい、MTは翻訳業界で重要な役割を果たすようになるでしょう。2.について:いいえ、翻訳は無料のサービスにはならないでしょう。翻訳の値段にはかなり幅が出てくるでしょうが、ともかくもユーザーは常に翻訳に対価を支払い続けます。しかしながら、3番目の疑問にはまだ答えが出ていません。クローズな競争型のビジネスモデルとオープンな協調型のビジネスモデルどちらが勝者となるか、はっきりした指標がまだ見えません。両方ともそれなりに機能していくのではないでしょうか。
オープンまたはクローズな翻訳の未来
翻訳業界の未来は現在と似たり寄ったりでクローズなままかもしれませんし、オープンで協調的なものになるかもしれません。クローズな翻訳の未来のシナリオは、こうです。翻訳会社数社が世界中の翻訳データを集め、その数社はそれを使って40,000またはそれ以上の言語ペアの世界中の情報を素早く効率的に翻訳できるように進めていきます。企業の調達部門や政府、公共機関を含めた大小さまざまな組織の翻訳担当者は、いろいろな作業に自社の翻訳エンジンを使えるようにするために、その翻訳会社のうちの2~3社に依存することになります。
現在の翻訳の世界では、翻訳会社が顧客用に所有し管理する翻訳メモリー程度で翻訳作業を効率的に進めることができます。しかし収束の時代を迎えると、どのコンテンツを翻訳するか、どのドメイン、またはどの言語ペアを翻訳するか予測することが難しくなっていきます。新たな翻訳を可能にするために、新たなデータが常に必要になります。
オープンな翻訳の未来のシナリオは、こうです。データは共同のプラットフォームでシェアされます。どの翻訳担当者でも対等にデータにアクセスできるので、データを利用したりそこから派生する新たなMTエンジンを開発したりできます。オープンな翻訳の未来のシナリオでは、業界関係者は、コンテンツや技術やプラットフォームをつなぐ共通のインターフェースを決めることを合意します。それによって、翻訳の仕事やデータのスムーズな交換が可能になります。また業界関係者は、自動翻訳エンジンの性能を測定、比較するための、またそのエンジンの進化を追跡調査するための共通の測定基準やベンチマーキングを設定することを合意します。
この2つのシナリオはどちらも正しいかもしれません。現時点ではどちらが優勢になるかわかりません。どちらのシナリオでもビジネス成長の機会はあります。しかし将来において翻訳のニーズが出てくるすべてのデータを手に入れるようなチャンスがないのであれば、つまり自社で世界中の翻訳データを集める力がないのであれば、オープンな翻訳の未来のシナリオを選択したほうがビジネス成長の機会はより大きくなります。
分岐点に来ていること
これからの2年間で翻訳の調達側と供給側は、オープンを選んで協力しながらデータを共有するかクローズのままでデータをそれぞれ囲い込むか決めることになります。突然不意を突かれて慌てるよりも、自社の翻訳の将来をしっかりと見つめた上で決定するほうがよいのではないでしょうか。私たちは今、分岐点に来ています。ここでの選択次第で、成功してビジネスを拡大できるかどうか大きく異なってきます。
オープンな翻訳の未来のシナリオを選択した場合は、所有する翻訳メモリーをオープンにして、クライアントや協力者にも同じことをするように説得することになります。翻訳メモリー以外のただの翻訳データを使って、個々のオリジナルのソースとターゲットドキュメントを再構成するのは簡単なことではありません。翻訳データは、医療業界でヒトゲノムのデータを扱うのと同じ視点で取り扱うようにすべきです。
すべてのライフサイエンスの会社や大学、そして世界中の誰でもが、人間のDNAを構成する13億もの化学塩基のペアの記述にアクセスすることができます。どの会社でも新薬や新技術を開発するために人間のDNAデータを使うことができます。これによって新たなアイデアや成長が刺激され、人類の文化が発展していきます。もちろん、翻訳データを共有することを選択しても、機密データや未発表商品の情報を共有するわけにはいきません。
オープンな翻訳の未来のシナリオを選択するということは、翻訳の品質を向上させたり業界の測定基準をベンチマーキングしたりすることを共同で進めることを意味します。現在の翻訳の世界では、翻訳担当者であれば誰でも自分なりに翻訳品質を評価する方法があります。しかしながら、業界の仲間たちと品質を比較したりその基準を決めたりする術がありません。収束の時代に規模を拡大したり成長を測ったりするために、MTエンジンの性能を測定できるようになりたいものですし、ドメインや言語ペアやコンテンツの種類を通して翻訳エンジンの進化を追跡し評価したいのです。
産業界全体という規模で、MT技術をいつ使っていつ使わないかというベストプラクティスを定着させたいものです。みんなに受け入れられるスコア、格付け、評価技術の業界協定を決めたいものです。こういったものが得られないのであれば、市場からの期待と規模の拡大に対応することが難しくなります。
力とそれに対抗する力
最後に一言、まだ翻訳の未来について不安に感じている人がいるようであれば、そんなことは気にしないでリラックスしてくださいと申しあげたいです。というのは、すべての力にはそれに対抗する力が存在するからです。不完全なままの自動翻訳がどこででも手に入るということで、(通常の翻訳である)人力による高品質な翻訳へのニーズも高まっていきます。特に人間の言語スキルが不可欠な「トランスクリエーション」や「パーソナリゼーション」の世界では、元のスタイルとかトーン、コンテキストは維持しながらもほかの言語に置き換えるクリエイティブ翻訳が求められます。
翻訳の未来は明るいでしょう。自分が居たいところ、それがあなたの選択です。