エレクトロニクス立国の源流を探る
No.44 日本のエレクトロニクスを支えた技術「日本語ワープロ」第2回
専門的な技術無しでも使えるものを目指す
「漢テレけん盤」でのオペレーターによる打ち込みは確かに速かったが、取材記者が現場で記事を書くのに使うような代物ではない。あまりにも大きすぎ、しかも専門的な技術が必要だった。新聞社が必要としていたのは、「手書きより速く日本語を打ちこめ」、「小型軽量のポータブルでどこにでも持ち運べること」、そして「打ち出した内容を電話で本社に送信できる」ことであった。
(1)スピード | 手で書くより速いこと |
(2)サイズ | 小型軽量で持ち運びできること |
(3)機能 | 電話を使って伝送できること |
文法や辞書などエレクトロニクス技術以外の研究が必要に
これらの条件をクリアするには、多くの難題が立ちはだかっていた。「小型軽量化」や「送信機能」については、新しいエレクトロニクス技術の開発により解決方法を見いだせるだろうが、入力に関しては、日本語の処理の問題であり、文法や辞書などエレクトロニクス技術以外の研究が必要となる。当時でも、日本語入力に関する研究はあったが、いずれも専門家向けであり、一般の人が使え、しかも手書きより速いなどということは全く不可能とされていた。
「アンダー・ザ・テーブル」の研究
そんなわけで、企業が本格的に取り組むテーマではなく、大学などで細々と研究されていた程度だった。森さんがいた東芝の研究所でも当然のことながら大勢のスタッフを割き、予算を付けるようなテーマとはされなかった。まだ海のものとも山のものとも判断できないものに企業が投資するわけにはいかない。当時、東芝の研究所では、正式の研究テーマではないものを「アンダー・ザ・テーブル」の研究と呼んでいた。
かなりの確率で物になり(商品化)そうと判断された研究には、人・金・物が投入されるわけだが、まだ暗中模索のものについては、個人や2〜3人の研究員が「アンダー・ザ・テーブル」として研究していた。このあたりはどの企業でも似たりよったりで、日立製作所の中央研究所でも、そうした研究テーマは「闇の研究」と呼ばれていた。
日本語ワープロも正規の研究テーマとはされなかった
東芝の研究所では、日本語を入力する機械(後の日本語ワープロ)も、正規の研究テーマとはされなかった。まだ、物になりそうだと判断できるだけの材料は見当たらないのである。すでに実用化されているコンピューターを使って、キーボードによる日本語入力が最も近道であることは予測できるのだが、漢字を扱う日本語の入力をどうすればできるのか、エレクトロニクス技術者にとっては専門外の研究と言えた。
京都大学や九州大学で進められていた日本語処理の研究
当然のことながら、森さんのいる東芝の研究所でも計算機で言語処理を研究しているような人は誰もいない。当時、日本語の言語処理を研究していたのは、京都大学と九州大学だけだった。そこで森さんは、新入社員として研究所に入ってきた河田勉さんを京都大学へ留学させることにした。そして河田さんが留学を終えて帰ってくると同時に、京都大学を卒業し東芝に入社した新人、天野真家さんと3人で研究チームを組んだ。とはいっても研究はあくまで「アンダー・ザ・テーブル」であった。彼らの本業はOCR(文字読み取り装置)であり、言語処理は水面下の研究テーマであった。
形態素解析エンジンを1976年に完成
当時、森さんは20数名の大所帯をあずかる研究室のリーダーであり、「手書き郵便番号自動読み取り区分機」など、大きな国家プロジェクトを抱えていたので、河田さんと天野さんが実質的な研究を開始した。河田さんは仮名漢字変換を研究することになったが、そのころNHKの相沢さんが開発していた実験システムを参考にして大型コンピューターで行う形態素解析エンジンを1976年に完成させた。
このNHKの実験システムは、九州大学の栗原さんらが研究した文節分かち書き、単語辞書照合、構文解析法、意味解析などを参考に沖電気が仮名漢字変換実験システムを試作。これを基礎にNHKの相沢さんが作成したものだった。このほかにも、日本ソフトの木村さんや、大阪大学の牧野さんなども仮名漢字変換の方法を研究していた。
変換効率が70%〜80%止まりで実用化に至らず
これらはいずれも中型機以上のコンピューターで処理するものだった。しかし、同音意義語の多い日本語を処理するには難があった。このため変換効率も70%〜80%止まりで実用化までに至らなかった。今のワープロなら「きしゃのきしゃはきしゃできしゃした」と仮名で入力すれば一発で「貴社の記者は汽車で帰社した」と漢字混じりの日本語に変換してくれる。
だが、当時の仮名漢字変換では「最長一致法」と呼ばれる、仮名文と辞書に載っている単語を比較してもっとも長く一致した仮名文字部分から第一候補にして分析するもので、「ひとは」の場合「人は」に変換され、「日とは」「火とは」などには変換されないものだった。
日本語の不思議さに遭遇するばかりで、まさに驚きの連続
森さんは、河田さんや天野さんに仮名漢字変換の研究をやってみないかと言ったものの、コンピューターにおける日本語入力、出力の困難さは予測していた。実は、森さん自身も「文字認識」や「画像処理」技術の研究に多忙な日々を送っていたが、その合間を縫ってコンピューターでアルファベット以外に仮名、漢字の日本語も使えるようにできないかと模索していたのである。国語学の専門家を訪ね歩いたり、国語辞書を数多く買って読みあさったりの毎日だった。しかし、そうした研究をすればするほど日本語の不思議さに遭遇するばかりで、まさに驚きの連続だった。
日本語ならではの曖昧さが開発の障害に
まず文書にする日本語と、日常使用する日本語で違いがあるばかりでなく、辞書には日常頻繁に使う言葉でも載っていないことが多い。また、文法に対する解釈も、ある言葉はAという辞書では自動詞になっているが、Bという辞書では他動詞とされている。また、日本語は曖昧さを持った言語であるところも、コンピューターで使うのにネックとなる。
例えば、犬(いぬ)と小屋(こや)をつなぐと犬小屋(いぬごや)となり、(いぬこや)とはならない。また、大島(おおしま)、小島(こじま)でも(こしま)とはならないのだが、(こしま)と呼ぶ地名ならある。さらに、「こうしょう」でも、交渉、考証、口承など動詞と、鉱床、厚相、高尚、公傷、校章などの名詞がある。「こうしょう」と打ち込んで入力したい漢字を選び出すには、機械に動詞か名詞かを区別させなければならないことになる。
入力例 | 変換された形 |
ひとは | (1)人は (2)日とは (3)火とは |
こうしょう | (1)交渉 (2)鉱床 (3)厚相 (4)公称 (5)公証 (6)口承 (7)公傷 (8)校章など |
日本語の研究を進めれば進めるほど熱帯のジャングルか、富士の樹海に迷い込んだようになってくる。複雑で曖昧な日本語の「辞書」と「文法」、これをどうやって機械に教えるのか難題が待ち受ける。森さん、河田さん、天野さん達の「アングラ研究」は、大きな壁にぶち当たった。
参考資料:「新・匠の時代」(内橋克人著:文芸春秋)、東芝科学館、「日本語ワープロの誕生」(森健一、八木橋利明:丸善)、社団法人情報処理学会HP、ほか