Graeme Kennedy "An Introduction to Corpus Linguistics" 書評

以下は英語コーパス学会の学会誌「英語コーパス研究」第６号（1999）pp.109-114 に掲載された私の書評です。

Graeme Kennedy

An Introduction to Corpus Linguistics

Harlow: Addison Wesley Longman Limited, 1998
ISBN 0-582-23154-X / 0-582-231541(hardcover)
須　賀　　廣

ここ数年でコーパス言語学関係の入門書が次々と出版されていることは，コーパス言語学への関心が高まっていることの証拠でもあり，コンピュータを用いることにより，日常使われている膨大な言語情報の中から何らかの法則性を見出そうとするアプローチに注目が集まっていることを示している．先に出版されたTony McEnery & Andrew WilsonによるCorpus Linguistics（以下McEnery & Wilsonと略す）が学部学生を主たる対象としているのに対し，本書は学生から教師まで語学に関係するすべての人々を対象としている．また第3章において全ページの約1/3にあたる紙面を「コーパスに基づく辞書・文法等の記述に関する詳細な解説」に割いているという点でも類書に見られぬ特徴がある．
　コンピュータを中心とするハードウェアの進歩があまりにもめざましく，それをどのように使いこなしていくかというソフトウェアがなかなか追いつけないでいるのが現状である．コーパス言語学においてもコーパスそのものの構築は急速に進歩しているが，それをどう利用するかという理論の方がさほど進んでいるようには思えない．著者は序論である第1章でその点を指摘し，コーパス研究の解決すべき問題として，「どうすればコーパスというデータをうまく活用できるか」「コーパス研究にはどのような言語理論がふさわしいか」「どういった言語事象に着目すべきか」そして「コーパス研究から得られた知見をどう応用するか」の4点を挙げている．著者はまた，コーパス言語学者の関心も次の4タイプに分類できるという．すなわち「コーパスそのものの構築に関心があるタイプ」「コンコーダンサーの開発に関心があるタイプ」「コーパスを用いて語彙・文法の記述に関心があるタイプ」そして「言語獲得・語学指導・自然言語処理など様々な分野への応用に関心があるタイプ」である．これらはさらに次の二つのタイプに統合できないだろうか．すなわちコーパスの構築やコンコーダンサーの開発など「コンピュータに近い所からコーパス言語学に基本的材料や道具を提供しようとする立場」と，コンピュータからやや距離を置き，ユーザーとして「提供された材料や道具を応用しつつ様々な言語事象を明らかにしていく立場」である．これらはいわば車の両輪であり，いずれを欠いてもコーパス言語学の発展は望めない．
第2章ではコーパスがどのような形で，またどういう目的で構築されてきたかについて詳しく述べられている．すでに19世紀末にはドイツのKaedingが5,000人のアシスタントを使って1,100万語のコーパスを作っており，またアメリカでは1920年代にThorndikeが英語教育の教材用語彙を調べるために450万語のコーパスを作成している．しかし，著者によれば現在の大規模コーパスに多大な影響を与えたコーパスはR.QuirkのSurvey of English Usage (SEU) Corpusであるという．R.Quirkはまだコンピュータが未発達であった1959年に，このコーパスの作成に着手し，完成したのは30年後の1989年であった．SEUは後にA Comprehensive Grammar of the English Language (Quirk et al.,1985)という優れた文法書を生み出し，また口語部門は切り離されLondon-Lund Corpus(LLC)として様々な研究に貢献してきた．そして，さらに特筆すべきことはこのSEUのデザインが，後にBrown Corpusを構築するためのカテゴリーを決定する上で重要な参考となったという．そういう意味からも著者が次のように述べていることはもっともなことである．
It would be hard to exaggerate the importance of the SEU Corpus. Not only did it have to break new ground in establishing a principled basis for corpus design, but also it initiated and made possible a large number of studies of corpus-based English Grammar by many scholars,….(p.19)
また，このSEUの頃から現在に至るまで，コーパスが真に現実の言語の有様を反映しているのかという，いわゆるrepresentativenessがコーパスの有効性を云々する上で常に問題となってきた．日常生活においてどういう分野の言葉がどの程度の割合で用いられているのかを推測する工夫はこれまでいろいろと試みられている．本書では，ニュージーランドのテレビ・ラジオで放送されているマオリ語放送のジャンルとその量を分析し，それを参考にマオリ語の口語コーパスのサンプリングを行うという例が紹介されており，興味深い．
それではいったいどのくらいの語数があれば言語実態を反映するコーパスとなり得るのだろうか．これについて著者は，そもそもコーパスをどのような研究に用いるかによって異なってくるとし，韻律学の研究なら10万語，動詞の形態分析なら50万語，そして統語法や高頻度語彙の研究なら50～100万語コーパスで十分だという．然るに，低頻度語彙や特殊なコロケーションの研究となると億レベルのコーパスが必要となるというのが著者の見解である．これはおおむね妥当な数値であるが，「低頻度語彙や特殊なコロケーション」に限らず億レベルのコーパスが必要なことは実は多々ある．たとえば"have an ax to grind"のように，さほど頻繁には使われないがネイティブスピーカーなら誰でも知っている慣用表現を検索する場合（しかもこうした熟語を検索することが実によくあるのだが），100万語レベルではほとんど役立たないことが多い．
元来，語彙というものはテキスト上に均等に散在しているわけではない．Sinclair(1991:18)は「あるテキストの約半分はそのテキストでたった1回しか出現しない語から成り立っている」という．第3章ではコーパスを用いた様々な研究とその問題点について述べられているが，この"hapax legomena"(ギリシャ語で「一度しか発せられぬもの」)もその一つである．著者は500万語のうち40%が"hapaxes"であるようなコーパスは頻度数の少ない語彙研究には向いていないとし，大規模なコーパスが不可欠であることを示唆している．
この章ではまた，コーパスを英語教育に役立てる研究の例として次のようなものが紹介されている．すなわち，LOB CorpusとBrown Corpusいずれにおいても，if節のうち直説法は75%，仮定法は25%であった．英語教育ではともすれば仮定法の教授に重きを置く傾向があるが，ごく普通に用いられている「if+現在形」についてもっと教えるべきではないかというのが著者の意見である．しかし，こうした頻度だけで教育方法を考えることには慎重であるべきだと私は考える．単に頻度の上で，仮定法が1/4しか使われていないからといって，それを軽く扱ってよいということにはならないからだ．文法というものはそれを母語とするものにとってはなんでもないことでも，ＥＦＬとしての学習者にとっては理解しにくいことがよくある．とりわけ日本の英語教師はこの仮定法が学習者にとっていかに理解しにくい概念であるか痛感しているはずである．EFLやESLの教育課程については頻度だけでなく，学習者の母国語との統語構造の相違等についても十分考慮されねばならない．
「コーパスを用いた言語教育」に関しては，第5章でさらに詳しい紹介がなされている．たとえば，ある書き言葉コーパスおいて「現在」を表わすのに「現在形」が95％用いられ，「進行形」は5％にすぎなかったというH.V.Georgeの研究を引き合いに出し，世界中の語学教室で相変わらず早い時期から「進行形」が学習されていることを批判している．また，「不規則動詞」の理解も学習者にとってたいへんな負担であり，こうした負担の多い事項は頻度の高いものから系統的に教えられるべきであると主張する．「そもそも動詞の形態などというのは学習者がかなりのレベルに達するまで必要ないのではないか」と本書では言う．コーパスを用いることで，どの時期にどういった文法事項をどの程度教えるべきか，また，どういった表現がより現実の言語表現に近いかがわかるのも事実である．むろん，頻度だけで教育内容を云々することの危険はすでに述べた．本書でも，言語教育においてコーパスを用いる場合，コーパスを過信しすぎないことが大切だとある．すなわち，規範主義に再び戻ることを避けるためにも，教育でのコーパス利用は慎重であるべきあり，教育においてはコーパスは決定的なものというよりは，情報を提供してくれるものとして捉えることが望ましいという本書の指摘を忘れてはならない．
このように様々な研究に役立っているコーパスであるが，それ自体は単なる「文字データの集積」にすぎない．こうした文字データの総語数を数える場合，まず「語」とは何かを定義する必要がある．語を「スペースで挟まれた文字列である」と定義すると，"the United Sates of America"は5語になってしまう．また"go, went, gone, going, goes"はそれぞれ別の語と見なすべきだろうか，それとも同じ語と考えるべきだろうか．第4章ではこうした"lemmatization"の問題や"tagging"（品詞情報などの付加）の問題をテキスト分析ツールとの兼ね合いの中で論じられている．人間の目ではいともたやすく弁別できるこうした品詞の識別もいざコンピュータに行わせるとなると至難の業である．本書によると，Brown Corpusに用いられた自動タグ付けプログラム"TAGGIT"の性能は77％で，残り23％に当たる23万語は10年かけて手で入力されたという．自動タグのプログラムはその後コーパスの頻度表に基づく確率を利用することで精度が高まり，たとえばCLAWSというプログラムは96～7％の精度となっているらしい．とはいえ残りの数パーセントを訂正するのに100万語コーパスなら，一人の人間が40分に1,000語をチェックするとして，40年かかるという．今や，より高精度な "tagger" の開発が急がれているのも無理はない．一方，主語・目的語・補語などの構文を分析するツールである "parser" はどうか．本書によれば現在のparserはまだtaggerのレベルにさえ達していない状況だという．構文解析のための文法理論には様々なものがあり，現在はいずれもまだ実験段階にある．parsingに関連して本書は"rule-based approach"や"probabilistic approach"については触れているが，McEnery & Wilsonがかなり詳しく紹介している"sublanguage approach"については全く触れていない．無制限の自然言語そのままを集めたコーパスではなく，主題・構文・語彙などを十分制限した言語（sublanguage）を集めたコーパスには様々な利用が考えられるが，中でも構文解析の研究に利用されていることは是非紹介してもらいたかった．
最終章の第5章はコーパス言語学の意味とその応用について述べている．McEnery & Wilsonではコーパス言語学を「『実生活』の言語運用例に基づく言語研究」と定義しているが，本書は基本的に「新しいテクノロジーを用いた記述言語学」としている．コーパス言語学が「言語運用」に基づき「個別言語」を対象とするという点では両者とも同じスタンスに立つ．ただ本書の場合，コーパス言語学を従来の言語学と異なるものと見なすのではなく，言語がどういう姿であるかを客観的に記述しようとするこれまでの記述言語学の延長線上にあるという立場を明確にしている．本書はまた，コーパス言語学はデータを重視するという点から，チョムスキーの考え方とは当然対立するが，コーパス言語学においても「直観」は必要であり，両者は敵対すべきものでなく相補的であるべきだと述べており，この点は賛同したい．辻井潤一(1998:111)が言うように，「この二つの，相反する潮流が計算機という道具の上で融合し，コーパス言語学的な手法が，チョムスキー言語学の経験的な側面を補完するといったことは不可能ではない」はずである．このように対立から相互補完へという点では本書とMcEnery & Wilsonの主張とは共通している．ただ，McEnery & Wilsonではわざわざ第1章19ページを割き，チョムスキーとコーパス言語学との対立の過程と今後の協力関係の重要性を指摘しているのに対し，本書ではpp.270-271で軽く触れているに留めている．
言語の記述において，今後コーパス言語学の中心テーマとなると考えられるものとして，本書は「語彙（コロケーションを含む）の研究」「品詞の共起関係の研究」「あるジャンルを対象に因子分析などを利用した言語学的特質の研究」「口語における談話構造の研究」などを挙げている．コンピュータになじみやすいという点で，コーパス言語学ではここで挙げられている「因子分析」の他にも，「クラスター分析」や「数量化理論」など様々な統計学的手法が用いられてきた．コーパス言語学は，対象が膨大な文字データであるが故に，「どのような手法を用いるか」が非常に重要になってくる．著者は現在，「コーパス言語学には，より洗練された，幅広い統計学的データ分析の利用が望まれている」と述べている．私見であるが，こうした統計学の利用はもとよりコンピュータという共通の土台の上で，これまで試みられなかった全く異種の学問分野の手法を応用することによって，コーパス言語学の思いがけない展開が期待できるのではないだろうか．
タイトルにあるように本書はコーパス言語学の入門書である．入門書という性格上，どうしても先行研究について触れる必要が頻繁に生じてくる．むろん様々な書物に言及されていることは，参考文献が充実することでもあり，さらに深く知りたいという読者にとっては貴重な情報源ともなる．しかし，反面，著者自身の声がこうした引用の間に埋没してしまい，読者に届きにくくなってしまっていることも事実である．あまりにも多くの言及があると，要点が不明瞭になりがちである．本書では多岐にわたる研究や論文が次々と紹介されているのだが，そのためにかえって著者自身の意見が見えてこない面もあるような印象を受けた．出典を明らかにするということもあるのであろうが，入門書ということを考えるとあまり多くの引用や言及は適当と思えない．文章中の先行研究への言及は必要最小限にとどめ，あとは著者自身がそうした成果をかみ砕いた上で，著者自身の言葉として語ってくれたほうがコーパスに慣れない読者にとっては理解し易かったのではないだろうか．
ともあれ本書には難しい統計学の数式もなければ，わかりにくい言語理論もない．コーパス言語学とはどういうものかということについて極力平易に幅広く説明しようと努めている本書の姿勢には好感が持てる．著者のグレイム・ケネディ氏はウェリントン・ヴィクトリア大学の教授であり，コーパス言語学以外にも聴覚障害者のための手話言語辞典編纂など幅広い分野で研究を進めている学者である．

[参考文献]
McEnery, T. and Wilson, A. (1996) Corpus Linguistics. Edinburgh: Edinburgh University Press.
Sinclair, J. (1991) Corpus Concordance Collocation. Oxford: Oxford University Press.
辻井潤一(1998) 「計算言語から見たチョムスキー」『大航海』No.23, pp.106-111.

（倉敷天城高校）

Home Pageへ