コーパスの利点と欠点

１．論文・レポートの作成――インデックスの重要性

私たちが論文やレポートを書く場合のことを考えてみましょう。私たちが何かあることを調べようとするとまずその資料集めを行います。たとえば，作家Aの女性観を研究するとしましょう。まずはさしあたって作家A自身が書いた作品（第1次資料）を可能な限り入手し，それを「女性観」の観点から熟読することが必要です。さらに作家Aに関してこれまで行われてきた様々な研究や，他の作家やその時代の「女性観」をあらわす様々な資料（第2次資料）も手に入れる必要があるでしょう。しかし，これらはあまりにも膨大なものに上るため，後からもう一度必要な資料や箇所にアクセスしたいと思ってもなかなか目的の所までたどりつけないものです。そこで第1～2次資料を読む過程の中で，自分が今研究しようと思っている事柄に関して述べられている箇所や，面白いと思った事実などをカードやノートに抜書きして自分専用の「インデックス」（これを第3次資料と呼びましょう）を作成することになります。この第3次資料があなたの論文やレポートの骨組みとなります。必要ならばそこから第1，2次資料にアクセスすることもできるわけです。

２．コーパスとアーカイブ

論文やレポートの作成は一般にこのような過程を経ることが多いのですが，作家Aの著作があまりにも多く，しかも雑誌や小説，日記など様々な形態に分かれている場合は，全集のように第1次資料がひとまとまりになっているものがあれば便利ですね。例えばシェークスピアならばシェークスピア全集などのように。かつてはこうした「関係資料のひとまとまり」を「コーパス（corpus）」と呼んでいました。シェークスピアならばthe corpus of Shakespeare's works（シェークスピア全集）です。corpusという語はもともと「体」を意味する語です。つまり「様々な部分からなるまとまり」ということで，辞書を見ればわかることですが現在ではcorpusというと「人･動物の体(組織)，死体」という解剖学的な意味と「文書などの集成・全集」という言語学的な意味の二つに分かれます。例えば「コーパス・クリスティ(Corpus Christi)」は中世ラテン語でbody of Christ「キリストの聖体」という事でローマカトリック教で「聖体の祝日」を表わし，キリストの最後の晩餐を記念する日です。ここでいうcorpusは前者の意味で使われています。一方，the Darwinian corpusと言えば「ダーウィン全集」で，これは後者の意味で用いられています。
しかしコンピュータの発達した現在ではこの意味をさらに狭めて，コーパスといえば，一般に「ある言語分析ために系統的に集められた機械可読テキスト形式データの集積」を表わします。たとえば，a corpus of spoken English（話し言葉英語のコーパス）などという場合はこの意味で用いられています。この「系統的」というところが重要で，ただ単にでたらめにデータとして集められたものは「アーカイブ(archive)」と呼んで corpus とは区別されますが，実際はこの境界はファジーな場合が多いのが現状です。上記の「ダーウィン全集」や「シェークスピア全集」はこの定義からすれば　corpus　なのか　archive　なのか議論の分かれるところです。
それでは量についてはどうでしょうか。たとえ紙一枚分程度の量のテキストでも corpus と呼べるのでしょうか。もしそうでなければ，一体どれくらいの量があれば corpus と言ってよいのでしょうか。一般には数百万語レベル以上あればコーパスの機能を果たすと考えられています。(p.171 "Corpus, Concordance, Collocation", Sinclair, OUP 参照)　韻律研究などのように限られた特殊な研究の場合は，5万語レベルのものでも十分です。実際，1992年にその目的で作られた the Lancaster/IBM Spoken English Corpus(SEU) は成人イギリス男性の話し言葉52,600語を集めたものでした。しかし，語法などの研究には100万語以下ではなかなか用例が発見できない場合が多いのです。例えば “rain cats and dogs”（土砂降りに降る）といったよく知られた表現は1億語のコーパス(British National Corpus 略称BNC)でさえ数例ヒットする程度なのです。（拙著『実践コーパス言語学』参照）

(注)BNCでは以下の３件です
It was raining cats and dogs and teachers were running in and out. c-ch-che
rain cats and dogs h-hg-hgr
What must you be careful of when it’s raining cats and dogs? c-ch-chr

３．カエサル暗号と頻度分析

何千年も前から国家の指導者たちは，敵対する国々に知られないように戦地の将軍に宛てた命令文を暗号を使って書いてきました。ジュリアス・シーザー（カエサル）もしばしば暗号を用いていたことで有名ですが，彼の用いた暗号は普通のアルファベット順を「3文字」ずらしたものでした。つまり，abcdefg…がdefghij…となるわけです。このようにアルファベット順を何文字かずらして作る暗号を「カエサル暗号」と呼びます。ずらす位置を１文字から25文字まで変えれば25種類の暗号が作れることになります。しかし，もし敵がこの暗号文を入手した場合，これがカエサル暗号だということがわかればたった25回の試行錯誤で見破られてしまいます。暗号の中では見破られやすい暗号といえるでしょう。ところが，この26文字のアルファベットをランダムに並べかえてしまうとすると26×25×24×…3×2×1通りというとほうもない数字になります。ただむやみやたらにアルファベットをかき混ぜてしまうと，受け取った側もそれと同じもの（暗号表）を持っていなければならなくなります。もしこの暗号表が敵の手に渡ってしまうと暗号は簡単に解読されてしまいます。
そこで考え出されたのがキー（鍵）を用いる方法です。つまり，暗号の送り手と受け手の間で秘密のキーを決めておくのです。たとえば，キーを“William Shakespeare”だとします。まず，このキーの中で2度目以降に現れるアルファベットを削除し，空白を取ります。すると“wilamshkepr”となります。そしてこのあとにこのキー以外のアルファベットを続けていきます。そうすると出来上がった暗号アルファベットは“wilamshkeprtuvxyzbcdfgjnoq”です。これを見ればもとのアルファベット順がかなりランダムにかき混ぜられていることがわかるでしょう。これを普通のアルファベットabcdefghijklmnopqrstuvwxyzと対応させて暗号文を書いていくのです。ためしに “corpus linguistics”をこの暗号で書けば “lxbyfc tevhfecdelc”です。この暗号は非常に強力であるためにカエサルの時代から1000年にわたって利用され，解読は不可能と思われてきました。
ところが9世紀にアラブの哲学者キンディーがこの暗号を解読する画期的な方法を発見します。彼はその暗号の解読に統計的な「頻度分析」を利用することを思いついたのです。もしそれがどの言語で書かれているかがわかれば，まずその言語で書かれた紙1枚程度のサンプル文を用意します。内容は別になんであってもかまいません。次にそのサンプル文に用いられている各文字の頻度数を数え，最も多く用いられている文字を「第1」，その次の頻度の文字を「第2」と名づけていきます。すべての文字に頻度を数え終わったら，今度は暗号文に用いられている文字の頻度数を同じように数えていきます。こうした作業の後で，暗号文で最もよく用いられているアルファベットをサンプル文の「第一」のアルファベットに，暗号文で2番目の頻度の文字をサンプル文の「第2」の文字で置き換えていきます。これを続けていくと暗号文が意味のある文章に姿を変えていくわけです。暗号文が極端に短い場合はこうした手法は使えませんが，ある程度の量の暗号文であればまず解読されてしまいます。文字の使用頻度というものはアルファベットがどんなに置き換わっても同じであるというところがポイントです。暗号というものはたった一つのほころびからあっという間に全体が解読されてしまうのです。フランスの言語学者シャンポリオンがヒエログリフを解読したときも「ラムセス」という１語の解読が発端でした。
さて，暗号解読では文字単位に頻度数が問題になりましたが，コーパス言語学では主に単語レベルでの頻度数を扱います。いずれにせよ，文字と言うデータを数値として扱い，統計的手法を用いているという点では，暗号解読とコーパス言語学は共通するところがあるといえます。

４．チョーサーとテレビコマーシャル

1974年，大学では仏文学科に籍を置きながらも英語教師の免許をとるために英文科の必修科目も受講していた私は，「演習英語学」のレポートに「Nun's Priest's Tale について ―チョーサーとフランス語」を書いたことがあります。仏文学と英文学の二足のわらじをはいていた強みを生かしたレポートが書けないかと考えた結果，英語とフランス語が直交した時代，すなわち Norman Conquest から14世紀末までの間で思いつくイギリスの作家といえばチョーサーでした。14世紀半ばまでイギリスの小学校ではフランス語が教えられ，法廷でもフランス語が公用語であったという時代背景の中で，渡仏経験もありフランス語を熟知していたチョーサーの作品に一体どのくらいのフランス語借用語が使用されているのか調べてみようと思いたったのです。テープレコーダーでさえまだオープン・リールであった当時のこと，コンピュータなどというものは一般の人が目にするようなものではありませんでした。私はチョーサーの Nun's Priest's Tale という物語の一行一行を目で追いながら，イギリスでMiddle Englishの時代から使われだしたフランス語からの借用語を一つ一つ「正」の字をつけながらカウントしていったのです。コンピュータがあれば瞬時にできるようなこうした作業を私は何日もかけて行っていたのです。
さらに時代を10数年さかのぼった1960年代の初め，イギリスのロンドンで，自室にこもったまま来る日も来る日もレンタルで借りた白黒テレビをつけっぱなしにして，そこで放映されるコマーシャルばかりを食い入るように見ている風変わりな大学院生がいました。彼はしきりに何かを紙切れに書き付けてはそれを靴の空箱に投げ込んでいます。その空箱も今やすでに投げ込まれた紙切れであふれんばかり。この男は修士論文も書かずに一体何をしているのでしょうか。彼は別にテレビのコマーシャルを楽しむという一風変った趣味を持っていたわけではありませんし，何かを買うつもりでコマーシャルに出ている商品を物色していたわけでもありません。実はこれこそが，つまりテレビ・コマーシャルを観察するということ自体が彼の論文執筆の一環だったのです。60年代といえば，コンピュータは発明はされていたものの，まだ一般にはとても手に入いる代物ではありませんでした。この大学院生はなんと617本ものテレビ・コマーシャルを何度も見ては，そこに現れる生の英語をすべて手で書き写して，「コマーシャル英語のコーパス」を作り上げていたのです。当時のイギリスにおいては「テレビ・コマーシャル」などという「低俗なもの」は，いやしくも大学院生が研究の対象とするようなものではないと考えられていました。また60年代の初めと言えば，イギリスにおいてもチョムスキーの影響で「経験主義的なデータ」はどちらかと言うと多くの言語学者に軽んじられる傾向があったのです。しかし，こうした風潮にもめげずこの大学院生はただ黙々と自前のコーパスを作りに励んでいたのです。大学院生の名は Jeoffrey Leech といい，彼はやがてその結果をもとに最初の著書“English in Advertising”を出版することになります。

（参考）
Jan Svartvik “Corpora are becoming mainstream”, Using Corpora for Language Research(1996)

５．経験派と理論派

以上の例で共通していることは何でしょうか。文学作品を読み，その内容について論述したり，テレビ・コマーシャルに関してその社会的影響を考察するなどといった，これまでの一般的なアプローチとは少し異なっていませんか。いずれも英語という対象を「客観的で量的なもの」としてとらえ，それを数量的な方法でアプローチしようとしています。「コーパス言語学」の最も基本的な特徴はこの「数量的アプローチ」なのです。
上田(1998)は，外国語研究者には「経験派」と「理論派」があると述べています。前者はデータを集め，分類し，頻度を求め，言語現象の傾向を探ることに関心があり，どちらかというと言語構造を細かく分析したり，そのモデル化を考えたりすることにはあまり興味を示しません。このグループに属するものとしては，「方言学・言語地理学」「社会言語学」「歴史言語学」そして「コーパス言語学」があるとしています。一方，後者の「理論派」は言語の運用などというものはそもそも不完全なものであるから，研究対象とするには値しないと考え，むしろ言語の形式化・抽象化に熱意を燃やします。論点となる資料は周囲にあるデータでなく，ネイティブの直観をもとに作成します。このようなグループに属するものとしては，「生成文法」「認知言語学」などがあるとされます。「経験派」と「理論派」はお互いの間にはあまりにも共通点がないとして相手のすることに関心を示さないことが多いのですが，例えば上に挙げたJeoffrey Leechや上田のように「他派」に対して一定の理解を示す人もいます。お互いの知見を学びあい，前向きに批判しあってこそ学問は発達すると私には思えるのですが。

（参考）
上田博人「パソコンによる外国語研究への招待」（くろしお出版，1998）

６．コーパス言語学は経験派

この指摘の中で「コーパス言語学」が「経験派」の中に入っていることに注意してください。Michael Stubbs(1996)は過去50年以上にわたってイギリス言語学の中核をなしてきた原則は，多分に経験主義的かつ実用主義的なものであったと言っています。そして「言語は実際に用いられている本物の用例を対象に研究すべきである」と考えられてきたし，コーパス言語学もこの延長線上に生まれたとしています。前述のように「理論派」はネイティブ・スピーカーの直観を重視しますが，「経験派」であるコーパス言語学は「実例」に重きを置きます。コーパス言語学の先駆者の一人であるJohn Sinclair(1991)も，ネイティブ・スピーカーの直観というものは「証拠を作り出す」のではなく「証拠の評価をする」ことに活用すべきだと述べています。ありのままのデータに一切の人為的操作を加えることなく，それ自体を基にしてわかった事実を記録することの重要性を主張しているのわけです。話し手が自分の頭の中で勝手に考えた短文を研究対象とするのではなく，誰かによって実際に用いられた生の用例を対象とし，それを独立した文ではなく，文脈の中で存在するデータとして捉えていこうとするのがコーパス言語学です。このような観点から見れば，「コーパス言語学」は「記述的(descriptive)」であると言えるでしょう。実際に用いられている膨大な言葉の海（データ）の中から，コンピュータを武器に必要な用例を抽出し，それらの間に存在する一定の法則を発見していくというのが「コーパス言語学」であるとすれば，「コーパス言語学」は当然「経験派」に属すと言えるでしょう。

（参考）
Stubbs, Michael(1996) Text and Corpus Analysis, London:Blackwell.

７．コーパスの弱点

コーパス言語学はコンピュータの発明依然からその芽生えがあったのですが，コンピュータの発達とともに飛躍的に進歩してきたことも事実です。今やコーパス言語学とコンピュータは不可分な状態にあります。しかし，このコンピュータには困った問題があるのです。コンピュータは文字から画像にいたるすべての事象を電圧の高低による二進法に「換算して計算」します。その際，コンピュータは人間の指示（プログラム）通りに忠実に実行します。この「忠実さ」は文字に対しても厳格に適用されます。コンピュータはたとえコンマ一つであってもないがしろにはしません。これが実はコンピュータの利点でもあり，欠点でもあるのです。「たとえコンマ一つと言えども見逃さずにきちんとチェックしてくれる」という意味では「利点」ですが，「ここは別に重要でもないんだから，そんなに固いこと言わずにコンマ一つくらい大目に見てよ」という場合でも頑としてコンマ一つを主張して止まない頑固さはまた「欠点」とも言えるでしょう。これまでなんらかのコンピュータ言語を使ってプログラムを作ったことのある人でしたら必ず経験をお持ちだと思いますが，コンピュータのプログラムでは「コンマ一つ」が間違っていてもパソコンは動かず，最悪の場合は暴走します。「ああ，ここに余分なコンマがあるが，これは常識的に考えてもおかしい。おそらく入力ミスだろうから無視しておこう」などという「常識」はコンピュータにはありません。
こうした「欠点」がそのまま「コーパス言語学」の「弱点」でもあるのです。もし大学の課題として次の三つのいずれかを調査をするようにという指示が出た場合，皆さんはどのテーマを選びますか。

①　“Could you please help me move this table?” と “Would you please help me move this table?” とではどちらがより丁寧な表現かをコーパスを用いて調べなさい。
②　一般に“die of ～”は「直接的な原因で死ぬ」場合に用い， “die from ～” は「間接的な原因で死ぬ」場合に用いるといわれるが，実際にそのように使い分けが行われているかをコーパスを用いて調べなさい。
③　「～し始める」は “begin ～ing” または “being to+不定詞” のどちらがより多く用いられているかをコーパスを用いて調べなさい。

その調査内容に興味を持つか否かは別として，ただ単にルーズである私は文句なしに③を選びます。もしそれがだめな場合は次善の候補として②を選ぶでしょう。①はよほどのことがない限り避けて通りたいものです。まっさきに③を選んだ理由は，簡単です。実はこの課題が最も楽にできるからです。コンコーダンサでbeginの後に～ingがくる頻度数と，to+不定詞がくる頻度数を調べる程度ならほぼ瞬時にできます。②になるとそれよりも少し手がかかります。まずdie ofとdie fromを検索し，その後ろにどのような語がきているかを調べます。そしてそれが「直接的な原因」であるのか「間接的な原因」であるのかを弁別する作業が必要になってきます。中にはファジーなものも予想されるので，その場合はその語の含まれている段落にもどって読み込まねばならなくなるかもしれません。そして③ですが，これはまず数日間（ひょっとすると数週間）はかかると覚悟してください。”Could you please”と “Would you please”の検索くらいは簡単にできますが，問題は「頻度数」ではなくて「丁寧度」であるということです。「丁寧度」というのは，その表現が誰がどのような関係の人に向かって発っしているのか，すなわち会話をしている二人の関係がどのような関係にあるのかを知る必要があります。親しい友人なのか，会社の同僚程度なのか，また，会社の同僚でも好意を抱いている人なのか，いやな奴だと思っているのか…人間関係はとかく複雑です。そもそも昨日の恋人が，話がこじれて今日はストーカーということもあります。そうした人間関係を理解するためには，段落どころかはるか彼方の文章（ひょっとすると第１頁）から読み始めねばなりません。これはもう気の遠くなるような作業です。どうしてこのようなことが起こるのでしょうか。それは「意味」が関係してくるからです。コンピュータは「形態的な」ものを扱うのは得意ですが，「意味」がからむとどうしても我々人間が判断を下さなければならなくなります。「コーパス言語学は意味について切り込めない」としてこれまでしばしば非難されてきたのも，こういうことが原因だったからです。

８．なぜ辞書ではだめなのか

確かに，その語についての詳しい背景を文脈の中で深く読み解く必要があるような作業ではコーパスはとても時間がかかります。しかし，「その語がその文の中でどのような役割を果たしているのか」「その語としばしば共起(collocate, いっしょに現れるということ)する語は何なのか」「Aという語とBという語にはどのような使い分けがあるのか」などという場合にはコーパスが威力を発揮します。
語の使い方を知るためには辞書で十分ではないかと思われる方もいるかもしれません。最近の辞書の進歩は目を見張るものがあります。しかも，コーパスを本格的に活用した辞書がどんどん出版されるようになっています。コーパスによって最も使われる語義を最も使われている用例で示すことできるようになりました。ただ，こうした辞書にはいくつかの弱点があります。まず第一に挙げられるのは「スペースの制約」です。1999年私たちは881名の高校生および大学生を対象に学習英語辞典がどこまで利用されているかという調査を行いました。その中で辞書に対する不満として最も多かったのが「辞書は重い」ということでした。毎日の通学に分厚い辞書を持参するのはたいへんなことです。かといって軽くて薄い辞書は語彙が少なすぎて役に立ちません。辞書は編纂の時点から「コンパクトにする」ということと「多くの情報を盛り込む」という相反する二つの使命を負わされているわけです。そして辞書編集者はそのはざまで，データの採否に関してぎりぎりの選択を迫られるのです。編集者は狭いスペースに多くの情報を掲載するということから極力「冗漫な記述」を避けます。例文は極端に切り詰められ，同じ用法の例文が二度現れることはありません。これが裏返せば辞書の弱点にもなるのです。そもそも外国語の習得においては，同じような語法をさまざまな用例を通じて何度も体験することでその用法を習得することが多いのです。大野(1999)も「言葉づかいが適切かどうかの判断は，結局それまでに出あった文例の記憶によるのです。人間は人の文章を読んで，文脈ごと言葉を覚えます。だから，多くの文例の記憶にある人は，「こんな言い方はしない」という判断ができます」と述べています。
さて，皆さんは次の英文をどのように訳しますか。

His story had us weak with laughter.

おそらく早速手元にある学習英和辞典を引く人も多いことでしょう。ポイントとなるweakという単語を学習英和辞典で引くと，およそ10前後の語義が挙げられています。そのいずれの語義も上の英文のweakに当てはめてもしっくりいきません。というのも学習英和辞典の語義はすべてweakを「望ましくないもの，マイナスなもの」という語感で定義されているからです。ところが，上の例文に用いられているweakはマイナスの意味だけではありません。ただ単に「力が入らない，力が抜ける」という，善悪のバイアスがかからない「無色」の意味なのです。日本語にすれば「彼の話に笑いすぎて体に力が入らなくなってしまった」というくらいの意味になるでしょう。こうした意味がわかるにはどうしても多くの用例やその前後の文脈が必要です。コーパスはそうした点をカバーしてくれるのです。コーパスという膨大なデータがあればこそ，そうした語（句）が実際にネイティブ・スピーカーによってどのように使用されているかがわかるのです。辞書の中に収められている限られた用例ではこのような発見は望めません。

９．ネイティブスピーカーは万能か

　英語のネイティブ・スピーカーの頭の中がどのようになっているのかは知る由もありません。しかし，よく考えてみると私たちも日本語のりっぱなネイティブ・スピーカーであるわけです。そこで日本語のネイティブ・スピーカーであり，毎日膨大な日本語を見聞きし，それを使いこなしている皆さんにいくつか質問をしてみたいと思います。みなさんはいくつ答えることだできるでしょうか。

①　「どこへ」と書くが，どうして「どこえ」と書かないのか。
②　「嘘をつくな」という意味でどうして「嘘をつけ」というのか。
③　探し物を見つけたとき，現在のことなのにどうして「アッタ」と過去形でいうのか。
④　「考える」と「思う」はどう違うのか。

日ごろ考えたこともない質問だけに，どう答えればよいか戸惑ってしまいますね。日本語のネイティブ・スピーカーである皆さんでさえ，答えに窮する問題が上記の他にもたくさんあるのです。確かに日ごろ日本語を使いこなし，それで生活をしているわけですからその使い分けは「無意識のうち」にできているはずなのですが，いざそれを説明するとなるとなかなか難しいことが多いのです。一般にネイティブ・スピーカーは「直観」に基づいて，母語の中の一定の言い回しに関して，その適不適を一瞬のうちに判断できますが，しかしその理由必ずしも理論的に説明できるわけではありません。これは英語のネイティブ・スピーカーにとっても同じです。
私はかつてアメリカ人の神父に「英語の単語はどうすれば効率よく覚えられるのですか」と質問したことがあります。するとその神父は非常に困った顔をしました。当時高校生であった私は，このような質問は英語をマスターしているはずのネイティブ・スピーカーなら，英語を外国語として学んでいる私に対して然るべき助言ができて当然だと思っていたのです。しかし，今，もし私が外国の方から「日本語の単語はどうすれば効率よく覚えられるのですか」とたずねられたらきっとあの神父さんと同様の反応をするに違いありません。単語を覚えるといったって，私たちは別に日本語を覚えようと努力したわけではなく，いつの間にか身についてしまっていたのですから。
つまり，英語に対する疑問が生じたとき，ネイティブ・スピーカーに聞けば必ず正しい答えが得られるわけではありません。中には一生懸命考えて自分の思う意見を述べてくれる人もいるでしょうが，かといってそれが必ずしも正しいとはいえないのです。このことは上の４つの問題に私たちが自分なりの答えを出すことを考えてみればわかるでしょう。ネイティブ・スピーカーはある表現について，自分の経験に照らし合わせて，それが一般的であるか否かの判断はできます。しかし，それがなぜ一般的なのか（または一般的でないのか）を説明することは難しいのです。つまり，その言語についてそれなりの勉強をしていなければ，ネイティブ・スピーカーといえでも，その言葉の仕組みを系統立てて説明ことは難しいのです。
ではネイティブ・スピーカーの意見が本当に正しいのか，私たちはどのようにして判断すればいいのでしょうか。それはさほど難しいことではありません。現在，実際に様々なネイティブ・スピーカーによって使われている様々な種類の英語の膨大なデータ（コーパス）をもとにしてその語や用法の使用頻度，共起関係，使用領域などを調べればいいわけです。逆にいえば，たとえネイティブ・スピーカーが正しいといっても，あまりに頻度の少ない用法は私たちノン・ネイティブ・スピーカーは避けるに越したことはないと言えるでしょう。コーパスはこのように頻度を調べることにより，ある語法や使用例の確からしさの検証を行うこともできるわけです。

（参考）
大野晋「日本語と私」（朝日新聞社，1999）

Home Pageへ