なんでも「データベース」

0.データベースとは何か
1.既存のCD-ROMデータを利用する
2.英語科職員室はデータの宝庫
3.データベースの作り方


0.データベースとは何か


単語を入力するとその意味や用例が表示される「データベース」構築を夢見てパソコンを使い始めた.自分の集めた英文から必要な英文を取り出し,教材などに使用できたらどんなに素晴らしいことだろうか,と夢は膨らんだ.それからもう20年近くになろうとしている.私の思い描いたデータベースはかなり狭義なもので,高性能なパソコン,多様なソフトを手にしている現在,データベースの概念はインターネット利用も含むかなり広い領域を取り込むようになった.本稿ではインターネットを除く単体としてのパソコンをいかにデータベース(データを備えて,普段の研究,教材作成に利用できる基地)として機能させるか,筆者の環境を紹介してその可能性を探りたい.

1.既存のCD-ROMデータを利用する

 机上を占拠しそうな辞書類がCD−ROMデータとして提供されるようになって久しい.現在ではジーニアス英和・和英をはじめとして小学館ランダムハウス英語などの英和辞典,OALD, COBUILDといった英英辞典,さらに英語,日本語の大百科事典も提供されている.こうした辞典類を同時に使用するにはつい最近まではCDドライブをできるだけ多く増設するしかなかった.ところが,1,2年前にハードディスク上に仮想的にCDドライブを作るソフトが発売された.同時にハードディスクの大容量化,低価格化がすすんだために,ドライブを増設することなく上記辞典類をパソコンのハードディスク上に何冊も内蔵できるようになった.

Ddwinというフリーソフト(http://www.vector.co.jp/soft/win95/writing/se025915.html?y他)を使えば同じフォーマットで記録された辞書ならば(EPWINGという規格)同時に何冊もの辞書を使用できる.10年前に同僚が「一つの単語を引いたら,複数の辞書の記述を一覧できるようなソフトはないかね」と夢のような要求をしたが,それが今では現実のものとなっている.筆者のDdwinでは研究社活用英和,リーダーズ+プラス,英中和・和英,ジーニアス英和・和英,グローバル・センチュリー和英,日本大百科全書など13冊の辞書を一度に相互参照できるようになっている.これにブリタニカ,平凡百科,ランダムハウス英和,COBUILD,などの辞書も同時に起動し,利用できるので,パソコンはまさに小さな図書館の辞書コーナーの趣を呈している.(図1参照)

紙の辞書ではできないような検索で,辞書を読んだり,辞書の記述を比較したり,また辞書の記述内容をコピーし,ワープロソフトに貼り付けて補助教材を作るなど,コンピュータならでは利用が手軽にできる.

2.英語科職員室はデータの宝庫

もともとのデータベースのイメージは自分でデータを採取し,それを入力して,利用する,という語法の大家たちが長年行っていたカードの電子化であった.ところが実際に入力を始めるとデータは小規模にとどまり,実際の利用に際してもヒットしないことが多い.個人のデータ収集には自ずと限界があることがわかってきた.

10年ほど前から教科書本文や付属問題集がフロッピーで提供されるようになった.ほとんどのフロッピーはテキストデータでも提供されている.このデータを集めて,簡易な検索ソフトを使えば1種のデータベースに早変わりする.そこで,職員室内を探索したり,時には近隣の高校にもお世話になってこうした教科書本文のデータを集めるようになった.

当時から複数のファイルを検索してそのファイルから特定の語を含む部分を抜き出して一覧にするソフトが存在していた.例えば,seemという単語を検索すれば,seemを含む英文を複数のテキストの英文から検索してその全ての英文が表示される.

Newhori1\JE1NHL09.JXW(176): S:  Really!  In  comics  and  stories, crows  seem  funny, but  in  real  life  they  are frightening.

New Horizon Tの9課の英文という意味)

このようなソフトはGrep(Globally search for the Regular Expression and Print the lines containing matches to it)と呼ばれていて,エディタと連携して利用することができる.

これを利用して,あるテーマと密接に関連した単語で検索し,同じテーマの英文を他の教科書から見つけだせば,関連した副教材の作成も可能になる.

いつのまにかこのようなテキストの集まりはコーパスと呼ばれるようになり,コンコーダンサーと呼ばれるそれ専用のソフトも数多く紹介されるようになった.「実践コーパス言語学」(鷹家秀史・須賀 廣,桐原書店,1998)では7つのコンコーダンサーが紹介されている.そのうちの一つTXTANA(http://www.biwa.or.jp/~aka-san/txtana_overview.html/)を利用するとパソコンを使い始めた頃には夢物語であったことが現実のものとなっていることをあらためて実感できる.

英語科職員室にあるのは教科書テキストデータだけではない.データをテキスト形式で保存さえできれば,そのデータはほぼ全て貴重な簡易データベースとなりうる.ジェイシー教育研究所から「全国大学入試問題データベースXam」という入試問題集が年度版で毎年発売されている.このCD自体がデータベースソフトでできており,大学名,テーマ,問題形式などで検索し,教材作りに利用できるようになっている.データはWord形式で提供されているので,この問題をテキスト形式に変換して,大学名などを識別できるようにすれば,TXTANAを使って私家版大学入試データベースができる.

たとえばextraordinaryといった単語を含む英文を年度別,大学別に一覧し,かつ,その語と名詞のつながり状況なども概観できる.(図2)また教科書データと同様にキーワードによって同一テーマの英文を検索することも可能だ.

さらに単語・熟語・構文問題集に付属している問題作成用ソフトもある.これも工夫すればテキストデータに変換して,簡易問題データベースにして,参考書や出版社の壁を越えて利用することができる.

スキャナーとOCRソフトを用いた紙から電子データへの変換も長足の進歩を見せている.筆者の使っているe.Typistバイリンガルはその認識精度もさることながら,通常のフラットヘッドスキャナでも連続して50ページまで(見開きなら100ページ)読み込めるようになった.教科書なら1回か2回の作業で1冊のデータが入力できるし,ペーパーバックでも3回ほどの作業で1冊まるごとデータにすることが可能になった.そこで読了したペーパーバックはテキストデータに変換して,語法確認のためにコーパスとして利用することにした.残念ながら読書量が追いつかないためまだデータ量はごくわずかである.

小規模なテキストデータベース(コーパス)の構築という視点で職員室を眺め直すと,利用できそうな素材がたくさん存在していることに気づく.「テキストデータとして利用できないだろうか」という観点からもう一度職員室内を点検し直したらどうだろうか.

3.データベースの作り方

いわゆるデータベースソフトを利用してのデータベースの構築(通常はマイクロソフトのAccessか管理工学研究所の桐を利用している)はなかなか難しい.ワープロソフトや表計算ソフトの機能が充実した現在あえて敷居の高いデータベースソフトに手を出す必要はないように思われる.

それでもデータベースソフトを利用した方が良い場合がある.例えば,各種試験の個人成績表や小テストのまとめはデータベースソフトを利用したほうが柔軟性に富み,より簡便にできる.

私がデータベースを構築する場合には次のようなチェックポイントを設けている.

1)     データの量がかなり多くなりそうか.

2)     データを並べ替えたり,複雑な書式で印刷したり,利用する可能性があるのか.

3)     他のデータと照合,置換をしたり,データを多量に加工する機会があるか.

具体的なデータベースの構築については他の参考書に譲るが,同僚には「習うより慣れよ」,何をしたいのか目的を明確にして,ソフトのヘルプファイルなどを丹念に読み,独力で解決する態度,習慣を身につけなさい,とエラそうな忠告をしている.明確な目的と一人で身につけるという意志を持たないでデータベースソフトを使いこなしている人を私は知らない.

本誌に「パソコンの英語教育への活用について」(1984年6月号)というささやかな実践研究を発表して15年の歳月が流れた.当時夢のように思っていたことは次々と実現し,当時では思いもよらなかったことさえも可能になっている.使用中の教科書にGo across the Sousa Bridge, out Pennsylvania Avenue and turn left at Mortons.といった英文が出てきた.out Pennsylvania Avenueが「通りのはずれ」なのか「通りを抜ける」なのかはっきりしない.この英文の意味のしっかりした裏付けを取ろうと思えば,Sousa Bridge付近の地図が入手できればいい.昔ならほぼ不可能であったが,現在ならいくつかの方法で可能である.実際インターネットで地図を手に入れ,「通りを抜けて」の意であることが確認できた.大変な時代になったものだ.

さまざまなデータを容易に利用できる現在,あとは我々がいかにこの巨大なデータの中に埋もれることなく,支配者として使い切れるかにかかっている.