「WOVN.io」にワイルドカード翻訳機能–数字を含む文字列の翻訳を円滑に
今回は「「WOVN.io」にワイルドカード翻訳機能–数字を含む文字列の翻訳を円滑に」についてご紹介します。
関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
Wovn Technologies(WOVN)は2月28日、ウェブサイト多言語化ソリューション「WOVN.io」の新機能「ワイルドカード翻訳」を発表した。数字を含む文字列の翻訳の自動運用をより円滑にする。
ウェブサイトにおいてはHTMLタグで囲まれた文字が、ひとかたまりの文字列として認識される。そのひとかたまりの文字列に対し、品番や長さ・重さなどを示す数字だけが異なるパターンが存在するような場合、機械翻訳エンジンはそれぞれ異なる文字列と認識する。
例えば、ECサイトを機械翻訳する場合、同じ商品でありながらも「電源コード5m」「電源コード10m」「電源コード15m」といった数字のみが異なる商品ページは、それぞれ異なる文字列として認識される。そのため、「five m」「ten m」「15m」といった不統一な翻訳結果が表示されてしまうことがある。
このような課題に対応するには、HTMLのソースコードを修正し、個々の数字を翻訳対象から除外する、もしくは、数字を含む文字列を人力で翻訳する必要があった。
ワイルドカード翻訳は、数字部分のみを可変(ワイルドカード)として捉えることで、不要な機械翻訳作業を防ぐ。数字を含む文字列のパターンをWOVN.ioに一度登録すれば、再度同様の文字列パターンの自動翻訳時にも、数字部分を原文に合わせつつ、統一された翻訳対応が可能になる。
そのため、色違いを示す商品番号が商品名に入っている場合でも、パターン登録によって商品番号が変数として認識されるようになり、文字列自体は同一パターンとして翻訳される。
ニュースサイトやコーポレートサイトでも、曜日や日付を伴う記事コンテンツを翻訳する場合、曜日をパターン登録することで日付を可変と認識できるようになる。「2023/02/28(火)」の翻訳として「2023/Feb/28 (fire)」「2023/02/twenty eight (Tue)」といった揺れが発生するのを防ぎ、統一的な翻訳運用が可能になる。
WOVNは今後も機能の改良を続けると話す。例えば、WOVN.ioがウェブサイトの情報を収集することで、ワイルドカード翻訳の対象となり得るパターンを持つ箇所をあらかじめ検出し登録を推奨するなどして、さらなるユーザーの利便性向上を図りたいとする。