中国人を悩ませるレアな名字の文字コード問題

今回は「中国人を悩ませるレアな名字の文字コード問題」についてご紹介します。

関連ワード (中国ビジネス四方山話、開発等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 中国では、2023年8月1日に強制力のある国家標準規格「GB 18030-2022」(信息技術中文編碼字符集)が施行される。中国で「強制」という言葉が出ると「また締め付けが強化される」と反射的に考えてしまうかもしれないが、これは文字コードの標準規格を新たに導入するという話だ。珍しい名字などに使われ、既存の文字コードに未登録の漢字に対応しようというものになる。

 中国の面積は日本の国土の約25倍で、約14億人の人口を擁している。一部の地域限定で使われている漢字や、少数民族の固有名詞でのみ用いられている漢字もある。文字コードに含まれない漢字を使っている人は約6000万人もいるそうだ。例えば、山東省青島市郊外にシュイユー村という地元ではまあまあ知られた観光地がある。漢字で書くと、シュイが「山」へんにつくりが「色」、ユーが「峪」となる。このように、1文字目は対応する文字コードがないため表現できないのだ。

 シュイユー村には、手書きや印刷の看板、地名入りのプロパガンダなどが掲げられている。しかし、青島のメディアはこれまで「山色峪」と表示していた。まるで「深セン」のセンの文字が「土」と「川」で出来ているから「深土川」と書くようなものだ。「山色」を1文字化する文字コードの登録は地元紙の念願で、何年にもわたって「もうすぐ登録される」と報じては結局登録されないというのを繰り返してきた。

 印刷の場合は、レタッチツールなどで「山」と「色」をそれぞれ半分の幅に縮小して文字をつなげるという強引な方法で事なきを得ている。これは村の印刷屋やデザイナーの間だけで広まっている技ではない。地元小学校の校長によると、3年生になってPCの授業が始まると、「シュイユー」の漢字を文字コードで扱えないことや、レタッチツールで加工する方法を教えているという。「山色」は地元の子どもにとって最も身近な漢字の一つなので、就学前から当たり前のように書けると報じられている。

 ちなみに昔の中国での話だが、筆者の名前には「剛」という文字が使われているが、中国語の簡体字は表記が異なるため、中国語簡体字版Windowsの標準機能ではこの表記を入力できなかった。そこで、中国で名刺を印刷する際には別の漢字の「岡」を半分の幅に圧縮した上で他の漢字から部首のりっとうを借用し、スリムになった岡の右側に付けるテクニックを、印刷屋だったらどこでも身につけていた。それと同じことをシュイユー村の人々は、子供のころからやっているわけだ。

 中国の大都会である上海市には国内各地から人が集まり、名字が珍しい人も多く暮らしている。そこで上海市は漢字と文字コードの問題対策に年間1億円以上の予算を割いて取り組んでいる。ところが問題はそう簡単に解決しない。それぞれの役所で文字を登録することで部署内で解決を図ったが、地域や部署をまたぐと文字コードが登録されていなかったり、異なっていたりする問題が発生している。例えば、個人名は公安局、地名は民事局、科学系は科学技術部がそれぞれ対応するといった具合だ。

 中国人は、身分証カードと社会保障カードの2種類を所持しているが、管轄する部署が異なるため、それぞれの部署で独自の文字コード、つまり外字を当てた結果、両カードを使った照会手続時に「漢字としては一緒だがデータとしては異なるためエラーになる」といった問題が発生する。つまり、中国国内のあらゆる地域や部署で使用される文字コードが異なるためデータベースを相互に接続できず、結果的に銀行や病院の手続きなどに支障を来してしまうのだ。

 少数民族でもこんな話がある。中国の西南に位置する雲南省にはさまざまな少数民族が暮らしており、その一つのリス族は鳥を意味する「ニャ」という姓の人が多くいる。漢字表記では上に「鳥」、下に「甲」と書くが文字コードがない。代わりに鳥へんにつくりを甲をして左右につなげた「鴨」で表記され、鳥ではなく鴨・アヒル姓となる。見た目に意味が込められる表意文字の漢字で、他の文字に変えるしかないとあって、ニャ姓にとってはアイデンティティーを揺るがす問題だ。

 国際規格「Unicode」に新しく漢字が追加されるには長い時間がかかる。そこで、まずは2023年8月をめどに強制性国家標準で、漢字やチベット文字など少数民族の文字を含めて登録し、中国国内で利用する文字コードを共通化することで、長年抱えていたデジタル化の問題を解決するというわけだ。個人的な問題だけでなく、歴史的な資料についても、やっと正確な漢字と文字コードでデジタル保存できるようになる。だが、その前に「私の名前は漢字が入力できなくて困っています」という人を発見して、登録しなくてはならない。

 では、中国全土の都市から農村、沿岸部から内陸に至るまで、どうやって探し出すのか。動画などのコンテンツに強い騰訊(テンセント)が、前述の少数民族リス族のニャ姓に関するエピソードを発信・拡散させている。同社が提供する中国語の入力システム(IME)「捜狗」(ソーゴウ)に文字を手書き入力する登録フォームも用意した。

 確かに役所が主導するよりも、「WeChat」(ウィーチャット)やコンテンツ、ゲームに強い同社の方が認知度を高められそうだ。8月の施行までに外字を中国全土でどれだけ探し尽くせるか、その手腕が問われる。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
最も需要の高いAI関連スキルは機械学習–スタンフォード大調査
IT関連
2023-04-07 21:18
NTT Com、制御システムのセキュリティリスク可視化技術を実証開始
IT関連
2021-05-25 02:52
Qiitaで障害、アクセスしづらい状態に 原因は調査中【復旧済み】
ネットトピック
2021-03-29 15:48
Okta、特権アクセス管理/ガバナンス管理などの新製品を発表
IT関連
2021-04-09 20:03
事業者向けの顧客メッセージプラットフォームを構築、Quiqが同業のSnapsを買収
ネットサービス
2021-04-12 21:06
ピクセルカンパニーズ、生成AI向けコンテナー型データセンターを発表
IT関連
2024-08-24 13:09
これからのCIOに求められるソフトスキルと共感力
IT関連
2021-01-19 00:02
京都大と日本IBM、「Google Cloud」上に医療データ&AI基盤を構築
IT関連
2023-04-20 09:56
NVIDIA、Armベースのスパコン用CPU「Grace」を発表
IT関連
2021-04-13 16:03
三井情報、沖縄電力へプラントデータの収集分析システム基盤を提供
IT関連
2021-06-01 14:41
NECネクサソリューションズ、自動二輪車による走行中の違反検知と動画を提供
IT関連
2022-09-24 21:37
AWSのリモートデスクトップサービス「Amazon Workspaces」でUbuntu Desktopが利用可能に
AWS
2022-10-03 17:41
ヴイエムウェア買収は「不確実性とリスクの大きな嵐」–ニュータニックスのラマスワミCEO
IT関連
2024-05-29 06:12
通信教育大手のZ会、「Snyk」でアプリ開発のセキュリティを強化
IT関連
2024-09-20 20:55