中国語パソコン1号機を実現した技術者魂、限られたメモリに数千の漢字を詰め込むためSinotype IIIの発明者は限界に挑む

今回は「中国語パソコン1号機を実現した技術者魂、限られたメモリに数千の漢字を詰め込むためSinotype IIIの発明者は限界に挑む」についてご紹介します。

関連ワード (コラム、コンピューター、中国、中国語等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、TechCrunch様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


中国は、今や世界で最も裕福なデジタル経済大国の1つとなった。ハードウェアのサプライチェーンは他の追随を許さず、Alibaba(アリババ)、Tencent(テンセント)、ByteDance(バイトダンス)など、莫大な利益を上げている超一流企業が世界で主導的な役割を果たしている。しかし、このような最先端のイノベーションは、40年前にさかのぼる「中国語ワープロの開発」という、コンピューティングの大きな課題に対するソリューションの上に成り立っている。

1980年代初頭、中国は米国や欧米からのコンピューターの購入を飛躍的に伸ばした。1980年には600台しかなかった外国製マイクロコンピューターの輸入が、1985年には13万台にまで増加した。当時、日米欧の企業は、この「爆買い」にあやかろうと躍起になったものだ。

しかし、中国のコンピューターユーザーにとっても、欧米のメーカーにとっても、大きな問題があった。それは、欧米のパソコン、プリンター、モニター、OS、プログラムなどが、漢字の入出力に対応していなかったことだ。1980年代前半から中盤にかけて「そのまま」では、まったく使えなかったのだ。大量生産されたパソコンは、大がかりな改造をしない限り、中国語での処理をしたいユーザーにとっては、事実上、役に立たなかった。

最も重要な理由の1つはメモリの問題、特に中国語フォントを格納するためのメモリ容量が不足していたのだ。アルファベット用のコンピューターが登場したとき、欧米のエンジニアやデザイナーは、英語のフォントは5×7のビットマップグリッドで表現できると判断し、記号1つにつき5バイトのメモリしか必要としなかった。このグリッドは、見た目には美しいとはいえないものの、コンピューターの端末や紙の印刷物にアルファベットの文字を読みやすく表示するのには十分な解像度を備えていた。米国のASCII規格の95文字を格納するのに必要なメモリは475バイトで、これは例えばApple II(アップル・ツー)の当時のマザーボード上のメモリ48KBに比べればごくわずかだ。

しかし、漢字を最低限読めるレベルで表現するには、5×7のグリッドでは小さすぎた。中国語のビットマップフォントをデザインするには、アルファベットのグリッドサイズである5×7ピクセルから16×16ピクセル(256ピクセル)以上に幾何学的に大きくする、つまり漢字1文字あたり32バイト(256ビット)以上のメモリを搭載する以外方法はなかった。漢字のビットマップだけでも(簡体字、繁体字のどちらの場合も。ただし両方同時ではなく、メタデータも含まず)最もよく使われる8000の中国語の文字を格納するには、合計約256KBのメモリが必要となり、これは1980年代初頭に一般に市販されていたパーソナルコンピューターの総メモリ容量の4倍にも及んだ。しかもこれは、オペレーティングシステムやアプリケーションソフトウェアに必要なメモリを考慮する前の話だ。

デジタル入力に向けて用意されたSinotype III用中国語フォントの手書きビットマップ(画像クレジット:Louis Rosenblum Papers、Stanford University Special Collections)

こういった背景から、現代のコンピューティングにおける偉大なエンジニアリングの歴史の1つが生まれた。ここでは、果敢な起業家魂とエンジニアリングの創意工夫がもたらしたデジタル革命の世界的発展をユニークな視点で描いていく。

この記事は、TechCrunchに掲載する2つの記事のうちの1つで、中国語の入出力が可能な最初のパーソナルコンピューターとなる実験機Sinotype III(サイノタイプ・スリー)について調査したものだ。サイノタイプIIIは、市販のアップルIIをベースに、独自に開発したワープロソフトウェアとOSを実装したもので、欧米製のコンピューターを中国語に「翻訳」することで、新しい巨大市場の開拓に向けた「概念実証」の役割を果たした。

前編では、サイノタイプIIIの開発者らが直面したコンピューターのメモリ、フォント、OSなど、深刻な技術的課題と、それを克服するための斬新なソリューションを生み出した過程を見ていく。

このエピソードは、チャイニーズ・コンピューティングの原点ともいえるGraphic Arts Research Foundation(GARF、グラフィック・アーツ・リサーチ・ファウンデーション)から始まる。1950年代後半、MITの電気技師Samuel Hawks Caldwell(サミュエル・ホークス・コールドウェル)氏は、GARFの資金提供を受けて「Ideographic Composing Machine(イディアグラフィク・コンポージング・マシーン)」通称「Sinotype(サイノタイプ)」を発明した。1960年に同氏が若くして亡くなり、プロジェクトは暗礁に乗り上げたが、1960年代から70年代にかけて、Itek(アイテック)、RCA(アール・シー・エー)、そしてやはりGARFなど、いくつかの団体によってサイノタイププロジェクトは受け継がれた。

1950年代後半、サミュエル・コールドウェル氏が設計したSinotype Iのキーボード(画像クレジット:Louis Rosenblum Papers、Stanford University Special Collections)

サイノタイプの里帰りには、1人の男の存在が大きかった。Louis Rosenblum(ルイ・ローゼンブラム)氏だ。1921年にニューヨークで生まれた同氏もまたMITファミリーの1人で、1942年に応用数学の学士号を取得して卒業した。電気工学の教授として世界的に有名なHarold Edgerton(ハロルド・エジャートン氏、1930年代に有名な「ミルククラウン」の写真を撮影した人物)に師事したローゼンブラムは、卒業後すぐにPolaroid(ポラロイド)に就職し、Edwin Land(エドウィン・ランド)氏とともにインスタント写真の開発などさまざまなプロジェクトに携わった。1954年にはPhoton(フォトン)に転職し、非ラテン語系文字の写真植字に取り組んだ。ローゼンブラム氏は、故コールドウェル氏のサイノタイプの先駆的な取り組みに詳しかったため、このプロジェクトを効果的に採用し、1970年代半ばにGARFにコンサルタントとして参加した際に、このプロジェクトを復活させた。

Nova 1200(ノヴァ1200)のCPUで動作するSinotype IIシステムの構成図(画像クレジット:Louis Rosenblum Papers、Stanford University Special Collections)

GARFは、1980年代初頭においてもサイノタイプ・プロジェクトを継続しており、それまでに中国に精通した学者や著名な学者を顧問として迎えていた。ハーバード大学の言語学者であるSusumo Kuno(久野暲)氏や、1972年のRichard Nixon(リチャード・ニクソン)元米国大統領の訪中で重要な役割を果たしたことで知られ、当時RAND Corporation(ランド・コーポレーション)の社会科学部門の責任者だったRichard Solomon(リチャード・ソロモン)氏などが参加した。

しかし、この顧問団に劣らぬ輝きを放つ新星によって、サイノタイプ・プロジェクトは大躍進を遂げる。1979年にGARFでサイノタイプIIプロジェクトのデータ管理に2週間携わっただけの大学生の参加がきっかけとなり、サイノタイプは、ミニコンピューターベースのシステム(Sinotype II[サイノタイプ・ツー])からマイクロコンピューターベースのシステム(サイノタイプIII)へと大きく前進したのだ。その大学性は、ルイ・ローゼンブラム氏の息子、Bruce Rosenblum(ブルース・ローゼンブラム)氏だ。

サイノタイプIIIシステムを使用するブルース・ローゼンブラム氏(画像クレジット:Louis Rosenblum Papers、Stanford University Special Collections)

ペンシルバニア大学でフォトジャーナリストを目指していたブルース氏は、学業と、学生が運営する独立系新聞「Daily Pennsylvanian(デイリー・ペンシルバニアン)」のフォトエディターとしての役割を両立させていた。この新聞は、使用する機材や担当する学生の深い専門知識の面で、非常に先進的なものだった。

ブルース氏が3年生の秋に、既存の植字機(Compugraphic[コンプグラフィック]製の植字機2台)が寿命を迎え、交換が必要になった。ブルース氏は同僚の学生3人と一緒に、代替機の調査を行い、最終的に2社と総額12万5000ドル(当時約2800万円)の契約を結んだ。カンザス州Wichita(ウィチタ)のMycro-Tek(マイクロ・テック)とマサチューセッツ州Wilmingto(ウィルミントン)のコンプグラフィックだ。

サイノタイプ・プロジェクトについては、ブルース氏は父親のおかげでよく知ってはいたものの、自身はまったく関与していなかった。しかし、1981年5月初旬、重要な転機が訪れる。期末試験を終えたばかりのブルース氏は、新聞社のオフィスを訪れた。そこには同僚のEric Jacobs(エリック・ジェイコブス)氏がいて、RadioShack(ラジオシャック)で買ったTRS-80 Model II(ティー・アール・エス・エイティ・モデル・ツー)というマイクロコンピューターと格闘していた。ジェイコブス氏は、このマイコンを新聞社の運営に利用する方法を考えており、ブルース氏は、その様子を30分ほど観察した後、自分の仕事に戻った。

しかし、この30分がブルース氏の心を掴んだ。「マイクロコンピューターを扱う人を見たのは初めてだった」とブルース氏は著者への電子メールで述べ「この30分に感化されてサイノタイプIIIのプロジェクトを開始し、最終的にコンピューターの世界に入ることになった」と語る。

その週末、ブルース氏は父親との電話でちょっとした思い付きを話した。ブルース氏は、サイノタイプIIの製作に使用していたData General(データ・ジェネラル)製のハードウェアに対してGARFが莫大な費用をかけていたことに触れ、マイクロコンピューターであれば同等以上のプログラムを作ることができるのではないかと勧めたのだ。当時、GARFが支出していた10万ドル(当時約2200万円)以上に対して、1万ドル(同約220万円)程度に抑えられることになる。

父親のルイ氏も強い関心を持ち、ブルース氏にそのような機械のプログラミングができるかどうか尋ねた。ブルース氏は、コンピューターサイエンスの正式なトレーニングは受けていなかったが、高校時代にコンピューターに親しみ、PDP-8(ピー・ディー・ピー・エイト)のアセンブリ言語とBASICを独学で学んでいた。「差し迫った仕事があるはずもない、ほやほやの新卒社員の図太さ」ゆえ、同氏は父親の問いに「もちろん」と答えた。

ブルース・ローゼンブラム氏は、世界旅行の間も、ニューデリーで入手したメモ用紙などを使って、サイノタイプIIIプロジェクトを進めた(画像クレジット:Louis Rosenblum Papers、Stanford University Special Collections)

1981年6月、ブルース氏はニューヨークでBill Garth(ビル・ガース)氏、Prescott Low(プレスコット・ロー)氏、そして父のルイ氏と正式な会合を持ち、サイノタイプIIIの提案を説明した。その時、ブルース氏は、スリーピースのスーツだった。ブルース氏の提案書には、ハードウェアの7500ドル(当時約165万円)に加え、プログラム料として5000ドル(同約110万円)の合計金額が記載されていた。アップルIIで動く中国語のワープロを、約4カ月で納品するというものだ。それが上手くいけば、中国語ワープロのコストは桁違いに安くなる。

ブルース氏はこの仕事を受注し、1981年6月から11月まで、フィラデルフィアの独立記念館で国立公園局のツアーガイドの仕事と両立させながら、サイノタイプIIIのプログラミングを行った。昼間の休憩時間には手書きでアセンブリコードを書き出し、夜にはそれを入力していた。1981年のレイバーデーにツアーガイドの仕事が終わり、ブルース氏はその後2カ月間ひたすらコーディングに専念し、サイノタイプIIIをGARFに納品した。

GARFとローゼンブラム両氏が最初に直面した問題は、コンピューターのメモリ容量の不足だった。初期の中国製パソコンの開発者たちは、システムからできるだけ多くのメモリを搾り取ろうと、あらゆる手段を講じていた。ここでは、単独で採用されることもあったが、主に同時に利用された2つの戦略を紹介する。「アダプティブメモリ」と「漢字カード」だ。

サイノタイプIIIのシステムは、5つのコンポーネントで構成されていた。Sanyo(三洋電機)の12インチモニターDM5012CM、Epson(エプソン)のプリンターMX-70、漢字のビットマップデータベースとそれに対応する「記述子コード」を格納するCorvus(コルバス)の10MB「Rigid Disk Storage(リジッド・ディスク・ストレージ)」「テキストファイル格納用」のApple Disk Drive(アップル・ディスク・ドライブ)、そしてアップルIIの本体だ。

標準のアップルIIには32KBのメモリが搭載されていたが、マザーボード上で48KBまで拡張することができた。ブルース・ローゼンブラム氏は「アップルIIが店から出る前に最大にした」と電子メールで語る。ブルース氏は、48KBのメモリではまだ足りなかったため、当時の「パワーユーザー」と呼ばれる人たちがよく行なっていた、16KBの増設メモリボードをスロット0に追加して64KBのメモリにするという、メーカー標準のアップグレードをおこなった。

しかし、それでもまだ足りなかった。「エンコーディングシステムのすべてを格納するためには、より多くのメモリが必要だった」と同氏はいい「頻繁に使われる漢字100種の16×16ビットマップを格納するためには、さらに多くのメモリが必要だった」と続ける。

そのため同氏は、それまで誰も試したことのないであろうアップルIIの「改造」を始めた。「なんとか、アップルIIのスロット2に16KBのボードをもう1枚入れて、合計80KBにすることができた。まったく仕様外だが、市販の部品を使うことができた」と同氏はいう。

しかし、この改造はマシンの限界を超えるものだった。アップルIIに搭載されている6502マイクロプロセッサーは、64KBのメモリにしか直接アクセスできなかった。つまり、ブルース氏がなんとか2枚目のメモリボードを組み入れ16KBのメモリを追加しても、アップルIIにはこの追加されたメモリアドレスに一度にアクセスする方法が組み込まれていなかったのだ。ブルース氏がアップルの技術者と何度も相談している中で、アップルの技術者にそのことを伝えたところ、その技術者は「そんなことをするなんて、聞いたことも考えたこともない」とショックを受けたほど「規格外」の改造だった。

ブルース氏は、アップルIIが64KBのメモリだけではなく80KBのメモリにアクセスできるようにするために、純正のOSは諦め、自分でアセンブリ言語を使ってプログラムを作った。そのカスタムプログラムの秘訣は「アドレスが重複する16KBのメモリバンクを個別に選択できる」ということだ。つまり、一度にアクセスできるメモリは64KB分しかないが、2枚の増設メモリボードを非常に速いタイミングで交互にアクセスすることにより、ユーザーから見ればコンピューターが両方のメモリにアクセスしているように動作させるというものだ。これにより、システムから25%の追加メモリをひねり出し、400字程度の漢字を増設メモリボードに格納することができた。

ブルース氏は、感謝祭の前の週にGARFに最終コードを納品し、その後、ヨーロッパとアジアを縦断するワールドバックパッカーズツアーに出発した。それ以降、サイノタイプIIIの開発は、ルイ・ローゼンブラム氏とGARFが中心となって進めていったが、ブルース氏もコンサルタントとして関わり続け、ヨーロッパ、中国、インドなど、どこにいても父親と頻繁に連絡を取り合っていた。

しかし、ブルース氏の巧妙な改造によっても、ルイ氏とブルース氏が試算したところでは、増設メモリボードに格納できる漢字の数は600~1000字程度だった。サイノタイプIIIのOS、アプリケーション、漢字に必要なメモリ容量を考えると、システム辞書に登録されている漢字の大部分は、フロッピーディスクや外付けハードディスクなど、他のハードウェアに保存する必要があった。

サイノタイプIIIコンピューターのモニター画面(画像クレジット:Louis Rosenblum Papers、Stanford University Special Collections)

ブルース氏は当初、PROM(プログラマブル・リード・オンリー・メモリ)チップの使用を考えたが、このアイデアはすぐに行き詰まってしまった。1981年から1982年当時、市場に出回っていた最大のPROMチップのメモリ容量は2KBで、漢字に換算すると28~51文字にしかならなかった。これでは、7000字の漢字を記憶させるためには、138~250個のPROMチップが必要になってしまう。「これは大変な量だ」と、ブルース氏は気づいた。

次に同氏は、フロッピーディスクに漢字を格納することを考えた。しかしこれも、実用的ではないことがわかった。多くのフロッピーディスクが必要なだけでなく、その遅いアクセススピードのため、フロッピーディスクに保存されている漢字のビットマップを取り出すのにも時間がかかるためだ。そこでGARFはサイノタイプIIIに、当時のマイクロコンピューターの周辺機器としてはほとんど例がなかった、外付けハードディスクを接続するという第3の方法をとった。深刻なメモリ不足の問題を解決するため、GARFは使用頻度の低い数千の漢字を外付けハードディスク(10MBのコルバス製「Rigid Disk Storage[リジッド・ディスク・ストレージ])つまりシステム本体とは別の「倉庫」に保存した。

しかし、これはサイノタイプIIIの動作が遅くなるという副作用をもたらした。コンピューターの内部では、ほとんどの処理がミリ秒単位の速さで行われるため、ハードディスクは厄介な代物だった。特に当時のハードディスクは「プラッター」と呼ばれる硬い磁気ディスクがレコードプレイヤーのように内部で回転しており、レコードの溝を針で読み取るように、各トラックの内容をヘッドで読み取るものだ。そして読み取り速度は、ヘッドの位置と、読み取り要求があった時点でのディスクの回転位置によって決まる。停留所に着いたらバスが出発していた、というのと似たようなもので、またバスが回ってくるまで待たなければならない。

実際、ハードディスクに保存されている漢字の読み取り速度は、メモリに保存されている漢字の読み取り速度に比べて10倍以上も遅かった。具体的には、メモリに保存された漢字の読み取り時間は、1文字あたり約100ミリ秒と、タイプする人にとって気になる遅延ではない。一方、外部ハードディスクに保存されている漢字の場合、1文字入力するたびにフォントの読み取りに1秒もの時間を要し、これは人間の感覚では無視できないレベルだ。

1980年代半ばのパーソナルコンピューターの世界では、英語圏のユーザーはリアルタイムタイピングに急速に慣れてきていたため、1文字の入力に1秒かかるというのは壊滅的な遅さだった。そして、1秒は100ミリ秒の10倍の長さであるため、一般のユーザーは使用頻度の低い漢字を入力するたびに、この大きな差を感じてしまうことになる。

この問題を軽減するために、ルイ・ローゼンブラム氏は「アダプティブ一時ストレージ」というアイデアを思いついた。サイノタイプIIIでは、ユーザーが直近に入力した文字に応じて、メモリに保存される文字セットを調整できるようにしたのだ。起動直後は、サイノタイプIIIの増設メモリには、あらかじめ決められた使用頻度の高い漢字だけが記憶されるようになっている。ハードドライブに格納されている頻度の低い文字の入力には、前述のように最大で1秒かかる。しかし「頻度の低い漢字をキーボードで入力すると、そのコードとドットマトリックスパターンがランダムアクセスメモリに記憶される」と、同氏は当時の手紙で説明している。つまり、そのような文字は一時的にハードドライブから増設ボードに割り当てたメモリキャッシュにコピーされ、その後の検索時間を短縮することができる。

サイノタイプIIIの文字データベースとメタデータが記載されたGARFの内部資料(画像クレジット:Louis Rosenblum Papers、Stanford University Special Collections)

メモリバンク切り替えやアダプティブメモリを駆使しても、そういった工夫だけでは手に負えない何千もの文字が残されていた。実際の漢字入力では、使用頻度の高い漢字が全体の大きな割合を占めているが、技術的な内容や専門的な内容の文章を作成する場合には、ユーザーは必ず「倉庫」の漢字リポジトリに繰り返しアクセスすることになる。中国語のコンピューターを英語のコンピューターと同じように、快適なスピードで使えるようにするためには、これらの「低頻度文字」をより多く「現場」に運び入れておく必要があった。

1970年代後半から1980年代前半にかけて、エンジニアたちは別のハードウェアソリューションを模索し始めた。「Chinese Character Cards(Hanka)[漢字カード]」「Chinese Cards(Zhongwenka)[中国語カード]」「Chinese Character Generators」(漢字生成機)「Chinese Font Generator(Hanzi zimo fashengqi)[漢字フォント生成機]」、そしてある記事では「Chinese-on-a-Chip(チャイニーズ・オン・ア・チップ)」などと呼ばれていた。こういった「漢字カード」類は、メモリーボードやグラフィックボードのように、マザーボードの拡張スロットに直接実装するように設計され、何千もの中国語のビットマップとキー入力をビットマップに対応させるエンコーダーが論理回路として組まれていた。実際、漢字カードは、外付けのハードディスクと同じ役割を果たすと同時に、より高速で安定した性能を発揮した。

しかし「チャイニーズ・オン・ア・チップ」カードは、GARFの研究対象ではなかった。というのも、漢字カードは、パーソナルコンピューターが普及する前の中国語システムの専用機向けに開発されたものだったからだ。そういったシステムは、Chan Yeh(チャン・イェー)氏のIdeographix IPX(イディアグラフィク・アイ・ピー・エックス)やOlympia 1011(オリンピア・テン・イレブン)などが挙げられ、漢字ビットマップの生成と入力記述子の保存のみを目的としたマイクロプロセッサーを搭載していた。中国語ワープロ「オリンピア1011」は、電動の中国語タイプライターであるが、3個のIntel 8085(インテル・エイティ・エイティファイブ)プロセッサーの内1個が漢字生成専用であったという。

1980年代初頭には、この漢字生成機がコモディティ化し、市販品として単体で販売されるようになった。そのため、漢字生成機の恩恵を受けるためにオリンピア1011のような本格的なワープロを買う必要はなくなり、代わりに「漢字カード」を購入して、それを自分のパソコンにインストールするだけでよくなった。

最も早くから漢字カードに取り組んでいた中国コンピューティングの中心の1つである清華大学では、約6000種類の中国語ビットマップパターンを32×32ドットマトリックス形式で格納できる先駆的なカードを開発した。そして、1980年代半ばから後半にかけては、日本、中国、台湾、香港、米国などの企業によって製造・販売された数十種類の「Hanka(漢字カード)」類似製品が市場に出回ることになった。

また同時に「チャイニーズ・オン・ア・チップ」のアプローチは非常に重要かつ一般的なものとなり、特に中国語や日本語に対応したコンピューターでは、何らかの文字生成カードが搭載されるようになっていた。

このように、1950年代のコールドウェル氏のサイノタイプから、1980年代のローゼンブラム親子とGARFのサイノタイプIIIに至るまで、漢字に関わるメモリ問題を解決することは、コンピューティングにおける中国市場の幕開けの重要な基盤となった。コンピューターの改造によるメモリの拡張、文字の優先度に適応するメモリ管理アルゴリズムの考案、問題の解決のための専用ハードウェアの構築、それらすべてが中国におけるコンピューター革命の引き金となったのだ。

しかし次のステップは、コンピューター本体だけではなく、コンピューターに接続されるすべての機器に、漢字対応をどのように拡大していくかということだった。TechCrunchでまもなく公開されるこのシリーズのパート2では、中国語のテキスト出力に対応した初期のコンピューターモニター、プリンター、その他の周辺機器で見られた、設計とプログラミングにおける課題について深く掘り下げていく。

画像クレジット:Louis Rosenblum Papers, Stanford University Special Collections


【原文】

China is one of the world’s wealthiest digital economies today, with a hardware supply chain that is unrivaled and a panoply of prominent and massively profitable companies like Alibaba, Tencent and ByteDance taking a leading role in the world. Yet, all of this cutting-edge innovation rests on a 40-year-old solution to one of the great computing challenges: the development of Chinese word processing.

Beginning in the early 1980s, China dramatically expanded its computing purchases from the United States and the West, importing just 600 foreign-built microcomputers in the year 1980, as compared to 130,000 in 1985. Companies in the United States, Japan and Europe clamored to get in on this “buying binge,” as one observer called it.

There was a major problem, however, both for potential Chinese computer users and Western manufacturers: No Western-built personal computer, printer, monitor, operating system, program or otherwise was capable of handling Chinese character input or output — not in the early- and mid-1980s, anyway, and certainly not “out of the box.” Without some major overhauls, mass-manufactured personal computers were effectively useless for anyone wanting to operate in Chinese.

The major problem for both potential Chinese computer users and Western manufacturers was that no Western-built personal computer, printer, monitor, operating system, program or otherwise was capable of handling Chinese character input or output.

One of the most important reasons was the problem of memory — specifically the memory required for Chinese fonts. At the advent of Latin alphabetic computing, Western engineers and designers determined that a font for English could be built upon a 5-by-7 bitmap grid — requiring only 5 bytes of memory per symbol. Although far from aesthetically pleasing, this grid offered sufficient resolution to render the letters of the Latin alphabet legibly on a computer terminal or a paper printout. Storing the 95 printable characters of U.S. ASCII required just 475 bytes of memory — a tiny fraction of, for example, the Apple II’s then 48 KB of motherboard memory.

To achieve comparable, bare-minimum legibility for Chinese characters, the 5-by-7 grid was far too small. When designing a bitmap font for Chinese, engineers had no choice but to increase the size of the Latin alphabetic grid geometrically, from 5-by-7 pixels to upward of 16-by-16 pixels or larger, or at least 32 bytes of memory per Chinese character. The total memory required to store just the bitmaps (in either simplified or traditional form, but not both, and with no accompanying metadata) would equal approximately 256 KB for the 8,000 most commonly used Chinese characters, or four times the total capacity of most off-the-shelf personal computers in the early 1980s. All this, even before accounting for the RAM requirements for the operating system and application software.

Draft bitmaps from the Sinotype III Chinese font, prepared prior to digitization. Image Credits: Louis Rosenblum Papers, Stanford University Special Collections

Such is the context for one of the great engineering histories of modern computing, a tale of entrepreneurial daring and engineering ingenuity that provides a unique look into the global development of the digital revolution.

This is the first of two articles on TechCrunch in which I examine the Sinotype III, an experimental machine that was among the first personal computers to handle Chinese-language input and output. Built atop a store-bought Apple II — but outfitted with a custom-programmed word processor and operating system — Sinotype III served as a “proof of concept” that demonstrated how one could “translate” Western-manufactured computers into Chinese, and thereby open up a vast new marketplace.

In this first part, I will examine the profound technical challenges around computer memory, fonts and operating systems faced by the creators of Sinotype III, and how they devised novel solutions to overcome them.

“The chutzpah of a newly minted graduate who had no immediate job prospects”

Our story begins with the Graphic Arts Research Foundation (GARF) — the organization where, arguably, Chinese computing was born. The Ideographic Composing Machine, also known as the Sinotype, was invented in the late 1950s by MIT electrical engineer Samuel Hawks Caldwell with GARF funding. Following his untimely death in 1960, the project came to a standstill. During the 1960s and 1970s, the Sinotype project was kept alive by a number of different parties, including the Itek Corporation, RCA, and finally, GARF once again.

Keyboard of Sinotype I, designed by Samuel Caldwell in the late 1950s. Image Credits: Louis Rosenblum Papers, Stanford University Special Collections

Sinotype’s homecoming was thanks in large part to one man: Louis Rosenblum. Born in 1921 in New York City, he was yet another member of the MIT family, graduating in 1942 with an undergraduate degree in Applied Math. Studying under Harold Edgerton, the world-renowned professor of electrical engineering (and who shot the famous “milk drop coronet” photo in the 1930s), Rosenblum took a job at Polaroid immediately following graduation, working with Edwin Land on a variety of projects, including the development of instant photography. In 1954, he moved to Photon — where he worked on photocomposition of non-Latin writing systems. Deeply familiar with the late Caldwell’s pioneering work on Sinotype, Rosenblum effectively adopted the project, and revived it when he joined GARF as a consultant in the mid-1970s.

Diagram showing configuration of Sinotype II system, running on a Nova 1200 CPU. Image Credits: Louis Rosenblum Papers, Stanford University Special Collections

GARF continued to work on the Sinotype project well into the early 1980s, by which point it had developed an advisory board featuring a host of renowned scholars, as well as those with deep China experience. Harvard linguist Susumo Kuno came on board; as did Richard Solomon, known for his pivotal role in Richard Nixon’s visit to the PRC in 1972 and then head of the Social Science Department at the RAND Corporation.

As stellar as this brain trust was, however, GARF’s major breakthrough on the Sinotype project — the leap from a minicomputer-based system (Sinotype II) to one based on a microcomputer (Sinotype III) — was catalyzed by a college student whose only experience at GARF to date was a brief, two-week gig working on data management for the Sinotype II project in 1979. He was Bruce Rosenblum, Louis Rosenblum’s son.

Bruce Rosenblum using the Sinotype III system. Image Credits: Louis Rosenblum Papers, Stanford University Special Collections

As an undergraduate at the University of Pennsylvania and an aspiring photojournalist, Bruce was balancing his time between coursework and his role as photo editor for the independent student-run newspaper Daily Pennsylvanian. The paper was remarkably advanced in terms of the equipment it ran, as well as the deep expertise of the students in charge.

By the fall of Bruce’s junior year, the paper’s existing typesetting equipment (two Compugraphic typesetters) were on their last legs and needed to be replaced. Along with three of his student colleagues at the paper, Bruce assisted in the process of researching potential replacements, eventually settling on a combined $125,000 contract with two companies: Mycro-Tek in Wichita, Kansas, and Compugraphic, in Wilmington, Massachusetts.

As for the Sinotype project — one that Bruce was well aware of, thanks to his father, but with which he had no involvement — a pivotal moment came in early May 1981. Bruce had just completed his final exams, and stopped by the offices of the paper. His colleague Eric Jacobs was there, hard at work on a TRS-80 Model II personal computer from Radio Shack. Jacobs was contemplating how this microcomputer might be used to run the newspaper’s business operations. Bruce observed for perhaps 30 minutes, before heading on with his day.

Those 30 minutes stuck with him, however. “It was the first time I’d ever seen anyone work on a microcomputer,” Bruce recalled by email to me, “and those few minutes were the inspiration that triggered the whole Sinotype III project and eventually my career in computers.”

Later that same week, Bruce made a somewhat off-the-cuff remark in a phone call with his father. Referencing the immense cost of the Data General hardware GARF was then using to build Sinotype II, Bruce remarked that someone could probably program something equivalent or better on a microcomputer for a fraction of the cost — perhaps with as little as $10,000 worth of hardware, as compared to the more than $100,000 price tag for the equipment GARF was currently funding.

His father was intrigued. Louis asked Bruce if he himself might be up to the task of programming such a machine. Bruce boasted no formal training in computer science, although he had worked extensively with computers in high school and taught himself both PDP-8 assembly language and BASIC. “Sure,” he responded to his father’s query with “the chutzpah of a newly minted graduate who had no immediate job prospects.”

During his world tour, Bruce Rosenblum continued to work on the Sinotype III project, including on notepaper from New Delhi. Image Credits: Louis Rosenblum Papers, Stanford University Special Collections.

In June 1981, Bruce had a formal meeting in New York with Bill Garth, Prescott Low and his father Louis to present his Sinotype III proposal. Bruce dressed for the part, arriving in a three-piece suit. In Bruce’s formal proposal, he cited a total of $7,500 in hardware costs, with an additional $5,000 for programming fees. The plan promised a Chinese word processor, running on an Apple II, delivered in approximately four months. If this worked, it would reduce the cost of such a machine by an order of magnitude.

Bruce got the job and went on to program Sinotype III from June to November 1981, balancing time between this and his full-time job as a tour guide for the National Park Service at Independence Hall in Philadelphia. During daytime breaks he would write out assembly code by hand, transcribing it at night. When Labor Day in 1981 came, and Bruce’s tour guide job ended, he dedicated two months straight to finishing the code and delivered it to GARF.

Memory hacking

The first problem that GARF and the Rosenblums faced was that of computer memory. Developers of early Chinese personal computers explored every available option in their effort to juice as much memory as possible out of their systems. We will explore two strategies in particular, sometimes employed in isolation, but often in concert: Adaptive Memory and Chinese Character Cards.

The Sinotype III system comprised five components: a Sanyo DM5012CM 12-inch monitor; an Epson MX-70 printer; a Corvus 10 MB “Rigid Disk Storage” for storing the Chinese character bitmap database and their corresponding “descriptor codes”; an Apple Disk Drive “for storage of text files”; and the Apple II itself.

Out of the box, the Apple II came with 32 KB of RAM, extensible to 48 KB on the motherboard. “We maxed that out even before the Apple II left the store,” Bruce Rosenblum remarked by email to me. 48 KB of memory was still far too little for his purposes, however, and so Bruce opted for what, at the time, was a fully standard modification, commonly employed by so-called “power users” of the era: namely, to insert an additional 16 KB memory card in slot 0, thereby bringing the total available memory to 64 KB.
Even this was too little, however. “I needed more RAM to store a full encoding system,” he said, “and also the 16-by-16 bitmaps for the 100 most frequent ideographs.”

He began to explore a “mod” of the Apple II that few if any others had tried before. “Somehow,” he said, “I figured out I could put a second 16 KB board in slot 2 of the Apple II, and that gave me a total of 80 KB. Completely nonstandard,” he continued, “but it worked with off-the-shelf components.”

This modification pushed the machine past its own limitations, however. The 6502 microprocessor on the Apple II was only capable of accessing 64 KB of memory directly — meaning that, even with the additional 16 KB Bruce had managed to bootstrap in with the second memory board, there was simply no built-in way for the Apple II to simultaneously access these additional addresses in memory. So “nonstandard” was this mod that, when he told an Apple engineer about it during one of his many conversations, the Apple rep was shocked — he had never heard of, or thought of, doing such a thing.

To enable the Apple II to access 80 KB of memory, rather than just 64 KB, Bruce dispensed with the out-of-the-box operating system and programmed his own in assembly language. Key to his custom-designed program was the possibility of “selecting between two banks of 16 KB that overlap each other.” In other words, although only 64 KB worth of memory locations would be accessible at any one instant, by rapidly oscillating between the two memory expansion cards, he could in effect trick the computer into accessing both at speeds that, from the perspective of the user, would have been negligible. That squeezed 25% more memory out of the system, enabling the inclusion of perhaps as many as 400 more Chinese characters in on-board memory.

Bruce delivered the final code to GARF the week before Thanksgiving, and then set out on a world backpacking tour that would take him across Europe and Asia. From this point on, development of Sinotype III would be largely in the hands of Louis Rosenblum and GARF, although Bruce continued to serve as a consultant, exchanging frequent correspondence with his father from wherever in Europe, China, India or elsewhere he found himself at the moment.

Speeding toward real-time Chinese typing

Even with his ingenious mod, however, Louis and Bruce estimated that a mere 600 to 1,000 Chinese characters would be able to fit in on-board memory. When accounting for the size of Sinotype III’s operating system, program applications and the memory requirements of each Chinese character, the vast majority of Chinese characters in the machine’s lexicon would need to be stored somewhere else, whether on floppy disks, an external hard drive or via some other hardware solution.

Sinotype III Computer Monitor. Image Credits: Louis Rosenblum Papers, Stanford University Special Collections

Early on, Bruce briefly contemplated using PROM (programmable read-only memory) chips — but this idea quickly revealed itself to be a dead end. Circa 1981 and 1982, the largest PROM chips on the market maxed out at 2 KB of memory, which translated into a mere 28 to 51 Chinese characters. In order to store 7,000 Chinese characters in this fashion, then, Bruce would have needed either 138 or 250 PROM chips. “That’s a lot of chips,” he remarked.

Bruce then considered the possibility of storing characters on floppy disks. This, too, proved unworkable, not only because of the large number of disks it would have required, but also the slow access and retrieval speeds involved in fetching character bitmaps from floppy drive storage. GARF opted instead for a third solution: to outfit Sinotype III with an external hard drive, which at the time was an almost unheard-of microcomputer accessory. In order to overcome the profound memory limitations, GARF would store thousands of lower-frequency Chinese characters “off-site” in the system’s external hard drive: a 10 MB Corvus “Rigid Disk Storage.”

This had negative implications for the operating speed of Sinotype III, however. Within the space-time continuum of computing, in which most operations take place at blazing subsecond speeds, hard drives were cumbersome beasts. Particularly at this time, they relied on rigid magnetic disks — “platters” — that rotated within the device, not unlike a record player. The contents of various “tracks” were read by a head, similar to how the grooves on a record are read by the needle. Retrieval speeds depended upon the location of the head, and the particular rotational position of the disk at the moment of the retrieval request. Not unlike arriving at the stop to find that the bus has just departed, one had no option except to wait until the bus came back around again.

In concrete terms, retrieval times for Chinese characters stored on the hard drive were 10 times slower than those stored in RAM. Specifically, the retrieval time for those Chinese characters stored in RAM could be achieved in approximately 100 milliseconds per character — a unit of time imperceptible by human cognition. As for the characters stored in external storage, however, the input of any of these characters required as much as a full second to access and retrieve — a unit of time well within the threshold of human perception.

A one-second input time would have proven devastatingly slow within the context of mid-1980s personal computing, where users in English-language contexts were quickly becoming accustomed to real-time typing. In addition, one second is, obviously, 10 times as long as 100 milliseconds, meaning that the average user would be able to feel this differential each and every time they wished to input lower-frequency characters.

In order to mitigate this problem, Louis Rosenblum hit upon an idea that he referred to as “adaptive temporary storage.” Sinotype III would be able to adjust the set of characters stored in RAM depending upon what the user had recently inputted. Upon initial boot, Sinotype III’s on-board RAM would be outfitted only with a predetermined set of high-frequency characters. The inputting of any hard-drive-based infrequent character would take up to one second, as noted above. However, “as each of the less frequent ideographs is keyboarded,” he explained in a letter at the time, “its code and dot matrix pattern will be noted in the random access memory.” In other words, such characters would be temporarily copied from the hard drive to on-board RAM cache, thereby reducing subsequent retrieval times.

Internal GARF document showing Sinotype III character database and metadata. Image Credits: Louis Rosenblum Papers, Stanford University Special Collections

Chinese-on-a-Chip

Even with recourse to toggling and adaptive memory, there remained many thousands of characters that fell beyond the limits of such strategies. While high-frequency Chinese characters accounted for a large percentage of overall usage, the production of any kind of technical or specialist content would have certainly brought the user repeatedly into the “off-site” repository of Chinese characters. More of these “low-frequency” characters needed to be brought “on-site” if the experience of Chinese computing was ever going to approach the same feeling of instantaneity enjoyed by English-language counterparts.

Engineers in the late 1970s and early 1980s began to explore a different hardware solution, referred to as “Chinese Character Cards” (Hanka), “Chinese Cards” (Zhongwenka), “Chinese Character Generators,” “Chinese Font Generators” (Hanzi zimo fashengqi) or, as one article delightfully referred to them, “Chinese-on-a-Chip.” Much like memory cards and graphic cards, “Chinese character cards” were designed to be installed directly into motherboard expansion slots. Hardwired into these cards were thousands of Chinese bitmaps and input encodings. In effect, they served the same role as an external hard drive, but at far faster speeds and with more reliable performance.

“Chinese-on-a-chip” cards were not the focus of research at GARF. Rather, they grew out of the earlier era of custom-designed Chinese systems, all prior to the personal computing revolution. These included systems such as the Ideographix IPX, by Chan Yeh, and the Olympia 1011, which were outfitted with microprocessors whose sole purpose was the generation of character bitmaps and the storage of input descriptors. On the Olympia 1011 Chinese word processor — basically a single-purpose electric Chinese typewriter — one of the three Intel 8085 processors was dedicated exclusively to Chinese character generation.

During the early 1980s, such character generators were commoditized and turned into salable products themselves. No longer did one need to buy a full-fledged word processor, such as the Olympia 1011, to gain access to this kind of on-board character generator. Instead, one could purchase a “Chinese Character Card” and then install it on one’s personal computer of choice.

Among the earliest centers of Chinese computing to focus on Chinese Character Cards was Tsinghua University, where researchers developed an early card capable of storing approximately 6,000 Chinese bitmap patterns in 32-by-32 dot matrix format. By the mid- and late-1980s, there were dozens of different “Hanka” on the market, manufactured and marketed by companies across Japan, China, Taiwan, Hong Kong, the United States and elsewhere.

By the mid- and late-1980s, the “Chinese-on-a-chip” approach became so important and common that practically all computers boasting Chinese or Japanese-language capabilities featured a character generator card of one sort or another.

Thus, from the 1950s with Caldwell’s Sinotype to the duo father-son Rosenblum team and GARF around Sinotype III in the 1980s, solving the memory problems associated with Chinese characters was the linchpin to opening the Chinese market to computing. Hacking computers with more memory, creating adaptive memory algorithms for prioritizing characters, and building dedicated hardware bridged the problem and initiated the computer revolution in China.

Yet, the next step was how to expand beyond the computer itself to everything that might connect to it. In part two of this series, coming up shortly on TechCrunch, our discussion will continue with a deep dive into the challenges of designing and programming early computer monitors, printers and other peripherals capable of handling Chinese text output.

(文:Tom Mullaney、翻訳:Dragonfly)

中国語辞書 - Weblio日中中日辞典

約160万語の収録の日中中日辞典。意味を用例やピンイン、声調付きで解説するオンラインの中国語辞書サービス

中国語 - Wikipedia

中国語(ちゅうごくご、中: 汉语/漢語/中文 、ピンイン: Hànyǔ/Zhōngwén; 英: Chinese )は、シナ・チベット語族に属する言語。 中華人民共和国 (中国)・ 中華民国 (台湾)・ シンガポール共和国 の 公用語 であるほか、 世界 各国に住む 華僑 ・ 華人 の間でも使用されている。

中国語翻訳 - Weblio翻訳

Weblio 中国語翻訳は、中国語を日本語へ和訳、日本語を中国語へ中国語訳する、無料の機械翻訳サービスです。辞書や辞典との連携により単語の意味や発音も確認できます。

中国語翻訳 - エキサイト翻訳 - excite

エキサイト翻訳の翻訳サービスは、中国語の文章を日本語へ、日本語の文章を中国語へ、翻訳が可能な無料のサービスです。左に原文、右に訳文が表示され、原文と訳文を比較しながら翻訳が可能です。

中国語の日常会話のおすすめ勉強方法とは?【初心者必見 ...

これから中国語を学ぶとなると「"謝謝(シェイシェイ=ありがとう)"くらいしか分からないけど、何から始める?どう勉強したらいい?」と感じませんか?今回はそう感じる中国語初心者の方、学び始めたばかりの方に向けて、中国語の勉強方法をご紹介します。

中国語ピンイン変換や、簡体字・繁体字変換・多音字辞典なら ...

中国語の読み方をカタカナに変換するピンイン変換ツールなど、中国語学習に役立つコンテンツを公開しています。中国語学習どーんとこーい!

中国語単語 例文・音声付きの1200単語

中国語単語. 中国語単語 には1200単語あり、すべての単語に用例と音声がついています。. サウンドマーク を押すと聞くことができます。. 単語の「中国語」「ピンイン」「日本語」に関しては、クリックするたびに表示・非表示を切り替えることができます。. 各ページの上部にある一括切り替えボタンを押すことですべての単語の中国語を非表示にすることなども ...

中国語の勉強法

中国語の発音は日本語の発音とはだいぶ違う、ところがその違う音が実は日本語の中にもあるのです。たとえば中国語は「ン」の音が2つあります。それを発音記号ではnとngで表します。この異なる「ン」を日本人が耳で捉え、発音

中国語のフレーズ・例文を検索|語学学習コミュニティ ...

NHK語学番組で放送された中国語のキーフレーズや例文・表現を、ビジネス中国語、ニュース中国語、中国語会話、基礎中国語、中学中国語、トレーニング、アニメ、表現などのジャンルから簡単検索。フリーワードでも絞り込み検索ができる!

Google 翻訳

中国語(繁体) checkhistory 日本語 フィードバックを送信 サイドパネル 履歴 保存済み 投稿 文字数制限は 5,000 文字です。さらに翻訳するには、矢印を使用してください。 完了 前へ 次へ 完了 保存済み 履歴 Google アプリ メインメニュー ...

COMMENTS


49005:
2021-07-11 23:07

『農林水産省によると国内で外資が取得した農地は46ヘクタール、森林は7560ヘクタール。他に「名義が日本人でも背後は中国資本という例がある」(公安関係者)』 だが土地規制法案の策定に当たっても公明党や一部野党が反対した。国家安全保障という意識…

49002:
2021-07-11 21:39

英海軍が空母打撃群を東アジアに派遣し日米と合同軍事演習を中国の目と鼻の先で繰り広げようとしているが、新たな大規模な戦争を起こす前兆と見て警戒すべきでしょう。

48996:
2021-07-11 18:41

復興五輪をダメにした中国には言及無しですか? お前ら、おかしいわ

49006:
2021-07-11 17:52

誰か、 「ここは日本だぞ!服着ろ!露出狂か?おめーは!」 を、英語と中国語で教えてくれ。

48997:
2021-07-11 17:26

同じ海でとれたビンチョウマグロの短冊。日本で水揚げされた日本産は割引を待たずに完売。中国で水揚げされた中国産は割引を受けたあとにも売れ残り。つまりはそういう事です。

48995:
2021-07-11 15:37

中国「千人計画」を批判する日本人は滑稽であり逆効果だ、とサヨク知識人が中国側を全面的に擁護 ほか最新韓国ニュース!

49001:
2021-07-11 06:52

中国シノバックのインドネシア臨床実験責任者、新型コロナで死亡。シノバックワクチンの効能を疑う声が高まった。6月から現在まで131人の医療関係者がコロナにかかって死亡したが、その大部分がシノバックワクチン接種を完了していたことが分かった。…

48994:
2021-07-11 04:05

要約すると自由主義陣営とは距離を取り中国と仲良くしろと言っている訳だ。 武漢ウィルスを蔓延させ、南シナ海、台湾、尖閣沖縄の強奪を図り、ウィグルチベットで人権蹂躙する国と融和を図れと。 お花畑脳か中国から金も…

48998:
2021-07-11 03:55

めちゃくちゃ怒鳴られましたから。夜の中国舞踊雑技団に移行できませんでしたから。正座のあとにお説教ですよ。

49000:
2021-07-11 03:32

昨日そうめんを買いにT&Tへ行ったら、中国製、韓国製、オーストラリア製の’’そうめん’’と日本語で書かれたそうめんがありましたが、日本製はありませんでした。 別のお店へ行こうと思っています。 韓国も中国のようにどんどん日本の商品を奪っていっているのが分かりますね。

49004:
2021-07-11 03:31

マクドナルドは素晴らしい! マックは1976年から約40年続けてきたオリンピックのスポンサードを辞めた。表向きには「経営の優先事項に注力するため」としているが述べているが、五輪協賛費の高騰や東京五輪のIOC対応などに嫌気がさしたのが本音と噂され…

49003:
2021-07-11 01:38

Q.いちごの原産地はどこ? 1.アメリカ 2.中国 3.日本 A.1 招待コード【09438766】を入力して復活カードを手に入れてクイズに参加しましょう!atTheQ

48999:
2021-07-11 00:39

海自、英空母と“初訓練”へ 識者「『中国の横暴許さない』というメッセージだ」 岸防衛相「英国とともに海上交通の安全を確保していく」

Recommended

TITLE
CATEGORY
DATE
DTCブランドがビッグテックの顧客データから脱却するのを支援するOkendo
ネットサービス
2021-07-24 05:15
HubSpot、生成AI搭載の新機能群「HubSpot AI」発表–「Sales Hub」も刷新
IT関連
2023-09-10 02:36
エクスペリエンス管理基盤「XM OS」を打ち出したクアルトリクスの思惑とは
IT関連
2021-03-05 17:02
日銀の「ステルステーパリング」続く–中央銀行は最強のファンドマネージャー?
IT関連
2021-02-04 07:20
オフィスを廃して完全リモート–実践企業が語るベストプラクティス
IT関連
2022-07-07 18:19
EV充電施設のEVgoがSPACとの合併を通じて上場へ
モビリティ
2021-01-24 23:31
ハッカー集団アノニマス、ロシア国営TVなどの配信チャンネル乗っ取りウクライナでの戦闘映像流す
IT関連
2022-03-09 12:49
ONE WEDGE、サーバーレス開発支援「Serverless ONE」を提供–文科省も業務活用
IT関連
2021-02-04 19:00
「上上下下左右左右BA」誕生35周年、コナミが記念サイト公開
くらテク
2021-04-24 03:13
ネットワン、ネットワーク特化の独自LLMを開発へ–エンジニア業務の効率化・品質向上を目指す
IT関連
2023-10-27 08:36
AWSジャパンが今日からテレビCMを全国で放映開始。実在のサービスを少年や少女が活用
AWS
2022-08-15 00:42
アマゾンのジェフ・ベゾスCEOが「Amazon創業の日」7月5日に退任と発表
ネットサービス
2021-05-28 18:46
OpenAIに集団訴訟、「ChatGPT」などの訓練用データ収集で
IT関連
2023-07-01 23:00
HashiCorp、「Terraform Cloud」で「Streamlined Run Task Reviews」機能を一般提供
IT関連
2023-10-04 17:16