入力方式として仮名漢字変換方式が最有力

様々な入力方式を研究している内、日本語ワープロの入力方式として、仮名漢字変換方式がマッチしているのは分かった。だが、具体的に日本語を仮名やアルファベットで表記する場合どうすればよいのかである。それには「分かち書き」と呼ばれる方法があり、(1)「べた書き方式」(2)「漢字指定方式」(3)「文節指定方式」(4)「自立語/付属語分かち書き方式」などがある。研究チームは、各方式について自動変換方式を開発、どの方式が一番優れているか、またハードウエアとの相性なども研究した。

「漢字指定方式」と「文節指定方式」を採用

「べた書き方式」は、当時のマイクロプロセッサでは大きくなる変換プログラムの容量が入りきらない。このため、「漢字指定方式」と「文節指定方式」を採用することとなった。使う側にとっては、「べた書き方式」は入力の際にタッチ数が少なくて済み、分かちを細かくするとタッチ数が多くなり、使いにくくなる。そして、文節ごとに分ける「文節指定方式」が日本語入力方式として最も自然であるとの結論に至った。

「局所的意味処理」により変換効率向上

「漢字指定方式」は、漢字と仮名をシフトキーで区別する方式で、例えば手書きの原稿を見ながら打ち込むのには効率の良い方式である。また、「文節指定方式」は文章を考えながら打つのに適しており、結局、初の日本語ワープロ「JW-10」には、「文節指定方式」「漢字指定方式」の両方を採用、使う人が文書を作る際に選べるようにしたのである。

「文節指定方式」が日本語入力方式として最も自然であるのだが、文法、それもコンピューター処理に適した文法解析が必要になってくる。動詞の活用語尾や、文節の定義などコンピューターが処理しやすいようにしてやらなければならない。そこで文節の定義は、普通文節、数詞文節、固有文節の3種類に定義した。これが「局所的意味処理」を行うのに役立ち変換効率を高めることに成功したのである。

「できる道理がない」と断言されていたものを可能に

「て、に、お、は」などの格助詞がある部分を文節の切れ目として選ぶ。また「局所的意味処理」では、固有名詞や数詞の前後にくる特別の接辞の処理を行う。そして正しく変換されたり、同音意義後の中からオペレーターが入力する単語を選んだりした場合、その単語の使用頻度を辞書にフィードバックする学習機能を採用した。当時、東京大学の情報工学の権威である渡辺教授が著書の中で「できる道理がない」と断言していたものを遂に可能としたのである。

コンピューター用辞書とディスプレイへの漢字表示から研究

森さんから仮名漢字変換方式の研究を勧められた河田さん、天野さんは、「コンピューターに入れる文法、辞書をどうすればよいのか」、また、「ディスプレイに漢字を表示するためにはどうすればよいのか」の2つの問題から研究をスタートすることにした。何しろ当時のコンピューターはアルファベットと数字しか受け付けない。ディスプレイに漢字を表示するといっても、ベースとなるものも無く、アングラ研究だけに予算もわずかで、高価な機器を購入することもできない。

そこでやむなく某社の安いミニコンを使ってアルファベット表示機能を、一旦バラバラにしたり、組み合わせたりする改造を行い、漢字で会社名「東芝」の2文字を表示することに成功した。アルファベット文字を分解して、使える部分、部分をつぎはぎした漢字だから、お世辞にもきれいな文字と言えるものではなかったが、何とか読める漢字を表示することができた。これにより、漢字の表示に関する原理的なものは把握することができた。

「文節」という概念を初めて採用した「橋本文法」に着目

「コンピューターに入れる文法、辞書」は、当時主流となっていた「橋本文法」に目を付けた。国語学者の橋本進吉氏が研究した文法で、「文節」という概念を初めて採用した画期的なものだった。「文節」という概念を採用したことによってコンピューターにものりやすいと考えられたからである。だが、実際にコンピューターにのせようとすると、例の日本語の曖昧さから例外も多く飛び出し、単純に処理できないことが分かってきた。

このケースの場合は、こう処理する、また、別のケースの場合は違う処理をする必要がある、といった具合で、それをコンピューターに教え込んでおくのが難しい。一つひとつの例を記憶させておくには、膨大なメモリーが必要になるのだ。当時のメモリー容量やコストから言ってそんな贅沢な設計は許されなかった。

同音意義語処理に欠かせない文法解析

コンピューターに適した日本語の文法解析や辞書の研究をゼロからスタートすることになった2人は、気の遠くなるような膨大な作業を延々と続けることになる。そしてコンピューター用の辞書に登録していった言葉は10万語を超えてきた。また、文法解析プログラムの開発も必要となった。同音意義語の多い日本語では、オペレーターの操作を楽にするためにも文法処理は欠かせない。

例えば「走らない」と入力しても、文法処理をしなければ「柱ない」「橋らない」「歯しらない」「葉しらない」などと変換される。走ら+ない(動詞+形容詞/助動詞)が文法的にあり得るが、名詞(柱、葉、歯など)に形容詞や助動詞が付くことはない。さらに、名詞でも動詞化するものがある事が分かった。「交渉」にサ変動詞「する」を付けると「交渉する」と動詞化することになる。こうした名詞を「サ変名詞」と名付けて分類することで変換がスムーズになった。

同音意義語処理が非常に有効だった頻度情報

さらに研究を続ける内に、人命、地名などの固有名詞が含まれる時の処理、単語の頻度情報を利用した同音意義語処理が非常に有効だということも分かってきた。同じ固有名詞を何度も繰り返し使うことが多いのが日本語文書の特徴であることに気付いた。そして頻度情報は長期頻度情報と、短期頻度情報に分けることができる。長期頻度情報とは、ワープロを使いこなしていくと、ユーザーによってよく使う単語を統計データにまとめてコンピューターに優先的に変換させるのである。また、短期頻度情報とは、1つの文書を作成するときに同じ言葉に変換することが多いことに注目したものである。

そして仮名漢字変換時に、これを優先的に表示させる。例えば、ゴルフコンペや忘年会の案内文などで「幹事」と変換すると、次に「かんじ」と入力したらやはり「幹事」と変換し、「漢字」や「完治」、「感じ」などより優先的に変換した方が、同音意義語の処理がスムーズになる。つまり2度目の変換も同じ漢字が使用されるケースが多いからである。

大型コンピューターを使った実証実験を行う

こうした、地道な基礎研究を続けることによって仮名漢字変換プログラムとコンピューター用辞書を作ることができた。そして1976年(昭和51年)3月、大型コンピューターを使った実証実験が行われることになった。アルファベットで日本語を発音通りに入力し、当時、大型コンピューターで使われていた紙テープに打ち出す。さらに、この紙テープからコンピューターに入れて磁気テープにする。そして、この磁気テープを研究室に持って帰り、漢字プリンターにかけて日本語文書を打ち出すといった一連の作業を行った。その結果、予想通りの精度で仮名漢字変換され、原理的に有効だということが証明された。

「アンダー・ザ・テーブル」から「オン・ザ・テーブル」に昇格

こうした研究の成果を背景に「日本語処理の研究」は、着想以来5年、「アンダー・ザ・テーブル」から「オン・ザ・テーブル」に昇格したのだった。研究所の正式な研究テーマとなり、漢字プリンターの研究グループと合わせて10名の研究体制となった。そして、商品化に向けてミニコンを使った仮名漢字変換機の試作品を作る計画がスタートした。日本語ワープロ誕生へ大きく前進することになったのである。

photo

参考資料:「新・匠の時代」(内橋克人著:文芸春秋)、東芝科学館、「日本語ワープロの誕生」(森健一、八木橋利明:丸善)、社団法人情報処理学会HP、ほか