コーパス利用のすすめ




コーパスとは?

コーパス(corpus)はもともと,「ある目的のために集められたテキスト・データ」を 指しました。例えばアングロ・サクソンの作った詩を集めたデータなら the corpus of Anglo-Saxon verse です。しかし,現在ではコーパスといえば,一般に「機械可読テキストの集積」を指します。 つまりコンピュータで処理できるテキストの集まりをいいます。さらには,ただ単にテキスト・データを 集積しただけではなく,ある特定の言語の「様々な分野」から「バランスよく」抽出したテキスト・データの集まり を指します。こうしてサンプリングされたテキストデータこそ,その言語の特徴を代表しているものと考えるわけ です。もっとも,「様々な分野」とはどういう分野か,また「バランスよく」とはどのようなものかについては はっきり決まってはいません。そもそも細かく規定することよりむしろ量を増やすことの方がかえって現実を 表しているのではないかという考えもあります。



どんなコーパスがあるのか?

コーパスの筆頭はブラウン大学が1964年に完成した Brown Corpus です。これは15のジャンル から500のサンプルを各2000語ずつ集めたもので,500×2000=100万語のコーパスです。 当時は磁気テープに記録されていました。その後,このアメリカ英語コーパスと比較するために イギリスでも全く同じようなサンプリングで LOB Corpus が作られました。この二つのコーパスを利用してこれまで(そして今も!)実に様々な研究が行なわれ,これらの言語学に対する貢献度は計り知れないものがあります。しかし,使って見ると わかりますが,実は100万語くらいでは必要な表現がほとんど出てこないことが多いのです。当初は磁気テープが媒体が100万語が精一杯だったのですが,その後 コンピュータの目覚しく発達した結果,現在は億レベルのBritish National Corpus(BNC) や Bank of English が作られています。



コンコーダンサーとは?

コンコーダンサーとはコーパスから必要な表現を抽出し,検索した語(Key Word)がモニター画面 の中央にくるように出力してくれる(Key Word in Context, KWIC表示という)機能などを有する ソフトです。これは膨大なデータを処理するためには必須の道具です。下の例は映画「タイタニック」のシナリオから"class"という語をWordSmith Tools を使って検索したものの一部です。(この映画は見方によってはアメリカに存在する階級意識を扱ったものともいえます)よく眺めて見ると"Jack is third class."のように the をつけない例や,"Will the lifeboats be seated according to class? I hope they're not too crowded--." などという階級意識丸だしの Ruth の発言があったりします。

concordancer



コーパスをどのように英語教育に利用するのか?

例えば私が日頃使っている状況を描写してみます。
授業の中で His opinion is different ( ) mine. の答として from を正解とした ものの,than でもいいという記述がどこかにあったような気がすると思いながら職員室に戻って きました。そして机上のノート型パソコンを立ち上げて,コンコーダンサーのアイコン をクリックします。私は独自に集めた米語書き言葉300万語と米語話し言葉300万語 をこのパソコンに入れていますのでそれで検索してみます。すると different from は 書き言葉で91,話し言葉では54,一方 different than は書き言葉で21,話し言葉 では68の例が見つかりました。もはや米語の話し言葉ではdifferent from より different than の方が 上回っているのです。このように,疑問に思ったことがまるで有能なネイティブ・スピーカーがそばに いるかのように(むしろ彼らよりある面では客観的に)解決できるわけです。



コーパスはどうして手に入れる?

「コーパス関連サイト」のコーナーにも書いていますが,Brown Corpus および Lob Corpus についてはノルウェーの ICAME (International Computer Archive of Modern and Medieval English)から入手できます。ただし,その際に所属長の サインが必要になります。詳しくは次のところにアクセスしてみてください。

ICAME

また,現在最も良質のコーパスの一つBritish National Corpus は50ポンドで入手可能となっています。詳しくは「コーパス関連サイト」をご覧下さい。

既成コーパスでなく独自のコーパスを構築してみたいと思われる方は,目次に戻って私たちの「私の執筆論文」をご覧下さい。その手がかりがつかめると思います。

コンコーダンサーはどうして手に入れる?

  1. コンコーダンサーの定番はやはり WordSmith Tools (Windows版) でしょう。かなり豊富 な機能がありますので,使いこなすまで時間がかかります。まずはよく使うKWIC表示からはじめて,だんだんと他の機能を覚えていくといいでしょう。ただし,イギリス製なので当然マニュアルはすべて英語です(^^ゞ 関心のある方は次のところにアクセスしてみてください。

    WordSmith Tools

    ※ なお,WordSmith についての主な機能を知りたいと思われる方はコーパス言語学の可能性(1999中四国ネットワーク)をご覧ください。

  2. TXTANA(テクスターナ) は赤瀬川氏によるシェアウェアのコンコーダンサーです。Learning Editionは3,800円でWin95,98,NTに対応しています。また,Standard Editionは1,2000円でWin2000にも対応しています。もちろん日本語のマニュアルも完備し,今では WordSmith より使いやすいと評判です。私も今ではもっぱらこのTXTANAを利用しています(^^ゞ 15日間の期間限定で試用できます。ご希望の方は,次のURLへアクセスしてください。

    TXTANA

さらに他のコンコーダンサーをお知りになりたい方は 「コーパス関連サイト」 のコーナーをご覧下さい。またマックの方は MonoConc などそれ用のものがありますのでサーチエンジンなどで調べてください。

Home Pageへ