英語教師のためのコーパス言語学入門

『実践コーパス言語学

　――英語教師のインターネット活用』

　　　　高梁工業高校　教諭　須賀　廣

　　　　岡山朝日高校　教諭　鷹家秀史〔共著〕

著書名　『実践コーパス言語学』

発行所　株式会社　桐原ユニ

発行年月日　1998年11月10日

1.　研究の動機

　近頃は中学校や高等学校に外国人教師がいても何の違和感もなくなってきています。職員室で本場の英語が聞こえてきても誰も振り返らなくなりました。こうした状況の中にあってもなお，日本人教師と外国人教師の間には文化的理解不足による誤解が生じているように思われます。あるとき，外国人教師に「日本人の話す英語で一番気になるのは何か」と尋ねたところ，「私は日本人が頻繁に ‘You must…’というのが気になってしかたがない」と即座に答えました。 ‘You must come by 8:30.’ ‘You must attend the meeting.’　私たちとしては親切に教えているつもりでも彼（女）らには頭ごなしの命令のように感じられていたのです。

日ごろ教えている英語のテキストの中には「その表現がどういった場面でどのような相手に対して用いるのか」といった社会言語学的な観点の記述はほとんど見当たりません。そこで私たちは「日本語に敬語があるように，英語でも親しさの度合いに応じて表現を変えているのではないか。ALTがこんなにたくさん来ているのだから，彼らから多くの情報が得られるはずだ」と考え，県下のALTにアンケートを送付しました。そこでは「許可・要求・依頼・招待・提案」の5つの場面を設定し，それぞれに10程度の表現(例文)を用意して，それぞれの表現の丁寧度を5段階評価してもらいました。分析した成果は，1994年に『丁寧さとコミュニケーション—表現の適切さの位相』と題して「STEP BULLETIN Vol．6」（日本英語検定協会）に発表しました。

さらにこの研究を発展させるため，クローズド・キャプション付きの映画（レーザーディスク）を19本購入しました。その台詞をライメックス・エレクトロニクス社のＣＣデコーダを使ってコンピュータに取り込み，35万語の映画英語字幕データベースを構築し，そのデータと前回のALTの回答との比較研究を行いました（「英語字幕データベースを利用した機能別英語表現の丁寧さ・語法・ニュアンスの研究」平成6年度文部省科学奨励研究Ｂ，課題番号06903008）。しかし，私たちはまだこの時点では自分たちの構築したデータが一種の「口語コーパス」であることをはっきりとは自覚していませんでした。

　その頃，あるところで島根大学の井上永幸先生がコンコーダンサー（MicroConcord）とその利用法，およびBrown Corpus（Brown Corpusについては（第４章「コーパスの分類と紹介」参照）のことについて紹介してくださったのです。私たちは先生のお話を伺って目から鱗が落ちるような気がしました。自分たちもBrown Corpusのようにきちんとしたコーパスを構築したいという気持ちが湧き起こりました。そこでBrown CorpusとLOB Corpusを基にCD-ROMから得た新聞・雑誌記事とイメージ・スキャナーで読み取った小説などを組み合わせて，英と米，そして19世紀と20世紀という空間軸と時間軸からなる4種類のコーパス（各210万語計840万語）のコーパスを作りました。そして，研究の対象を「丁寧さ」から「受験英語」に変えることにしたのです。

　私たちが学校で教える英語は，結果として，受験によってその成果が試されます。それゆえ，「入学試験に合格する英語力」を生徒につけさせることがわれわれ英語教師に要求されているわけです。ところが，そうした入試に出題された英語の中には首をかしげざるを得ないようなものが多々あります。受験に頻出する表現が現代も使われているのかどうかを客観的に確かめてみたい。わたしたちはこのように考えました。そこで，入試にはよく出るけれども実際に使われているかどうか疑わしい英語表現を100近くピックアップし，その一つ一つについて私たちが作ったコーパスで検証し，その中から有意な差が見られた18構文を選び，それらについてさらに詳しい検証を行いました（「光学文字読み取り装置を用いての英語構文使用頻度および有効度の研究」平成7年度文部省科学奨励研究Ｂ，課題番号07903008）。

こうして構築したコーパスですが，一つ問題がありました。それはすべて文字として書かれたものをもとにしているということです。しかし，以前のように映画のシナリオをレーザーディスクから取り込むには膨大な費用と時間がかかります。そこに強い味方が現れました。インターネットです。インターネットには映画のシナリオが多数公開されており，またCNNなどではテレビのトークショーなどのシナリオもテキストファイルで公開しています。映画のシナリオは自然の話し言葉とはいえないという意見があります。確かに映画の台詞には日常頻繁に起きている言い違いやいいよどみなどはあまりありませんが，EFLとしての英語学習環境を考えるとそこまで厳密なものを求める必要ありません。書き言葉と話し言葉にはっきりした差が出ればそれでよしと考えます。

こうして私たちはインターネットを利用することにより，1990年代のアメリカの書き言葉と話し言葉のコーパス（各300万語，計600万語）を作り上げました。このコーパスを使えば，ある表現が書き言葉と話し言葉のどちらで多く用いられているかが即座にわかります。私たちはこのコーパスを利用して21の意味が類似する口語体と文章体の表現の使用頻度の比較を行いました。そしてその結果を「インターネットを利用した米語データベースの作成と英語教育への利用 ― 90年代の口語体・文章体にみるアメリカ英語の語法」と題して，1996年11月に山口東京理科大学で行われた日本英語表現学会第3回地区研究発表会で報告しました。その後，桐原ユニの村木幸一氏とお話する機会があり，私たちの研究についてお話したところ，ぜひ出版しようということになり本書が生まれることになったわけです。

2.　現代のコーパス言語学

Brown Corpusの時代には100万語というのが技術的にみて一つの基準でした。しかし，使ってみるとわかりますが，100万語程度の規模では欲しい表現がなかなか見つからないことがあります。 Sinclair(1991)は「非常に大きなテキストであっても，そのvocabularyの半分はそのテキストの中でたった一度しか出現しない語から成り立っている」と述べています。 Brown Corpusの場合，100万語といっても，その中で「異なり語」は約5万語にすぎません。これでは比較的珍しい言い回しなどを研究する場合，ほとんどその例が見つからないことになります。

しかし幸いにも，ご存知のようにコンピュータはその後飛躍的な発展を遂げ，より高性能にまたより低価格になってきました。The British National Corpus (BNC)やThe Bank of Englishといった代表的コーパスはいずれもすでに億単位のレベルに達しており，兆単位となる時期もそう遅くはないことでしょう。そして今後はこうした量的拡大の他に，質的な問題も重要になってくるものと思われます。

　コーパスについては様々な考え方があり，まだ一定の基準といったものがありません。 Brown Corpusの採った「15のジャンル，500のサンプル」の方法では，実際に世界でコミュニケーションの手段として用いられている英語の現状を十分に反映しているとは思えません。BNCはBrown Corpusよりはるかに綿密な計画のもとにサンプルを集めてはいますが，しかし，これとてまだ十分ではありません。それでは一体どういう方法をとれば，その言語が実際に使用されている現状を的確に反映するコーパスを作ることができるのでしょうか。また，どういう分析処理を行えばより均質で高品位なコーパスが構築できるのでしょうか。こうした問題の解決こそが現代のコーパス言語学で緊急の課題であると思われます。

　「1957年にチョムスキーが『統語構造』(Syntactic Structures)を公刊した際のインパクトは，精神的傷（トラウマ）を生ぜしめるほどの異例のものであり，この大変動期をくぐり抜けたものでなければ，とうてい理解できないであろう」。心理学者のHoward Maclayはこう述べたといわれています（『抗争する言語学』）。チョムスキーは現在でも「世界で最も支持者の多い学者であると同時に，最も敵の多い学者でもある」（同書）のです。いずれにせよ，チョムスキーの理論はそれまでの言語学を完全に変容させてしまうほどのものでした。彼はすべての人間は生まれながらに備わった文法能力（普遍文法）を持っていると考え，そうした言語の本質的な部分は社会や環境から独立したものであるとみなします。これはまさに社会言語学とは真っ向から対立する考え方です。さらにコーパス言語学からみて重要なことは，チョムスキーの考え方は「演繹法的」であるということです。様々な事象を研究する方法に「帰納法」と「演繹法」があります。前者はデータの収集と実験を重視し，それを基礎にして一般法則を見出す手法であり，後者はデータを跳び越えた創造的仮説が重視されます。

　チョムスキーはデータを重視する構造言語学から出発しましたが，やがてその方法論に限界を感じ，「足りないのはデータではない。データを説明する理論なのだ」と考えて演繹法的説明法に移行していきました。すでに述べたように，彼によればある文が文法的に正しいか否かを判断するのは現実の発話における使用頻度の統計的確率とは全く無関係であるということになります。

　たとえば‘Birds eat．’という文よりは，‘Now，look，what I really mean is –well，okay，whatever you say．’というような会話のほうが頻度は高くなるでしょうが，だからといって‘Birds eat．’ の方が非文（文法的に間違っている文）とはいえないというのです。重要なのは人間の頭の中にある普遍的な文法構造であって，それから派生した言語事象をいくら研究しても本質に至ることはできないと彼は考えます。そして，文法的な要点を説明する場合にもネイティブスピーカー（たいていは言語学者自身）が考え出した直観的孤立的な二次的なデータにもとづくことができるとしました。彼の理論は時代とともに変化を遂げてきましたが，こうしたデータに対する考え方や普遍文法生得説などの中核となる理論は全く変わってはいません。

　コーパス言語学は，上記のようなチョムスキーの考えとは逆に，現に存在する何億語というデータの中にこそ真理が存在すると考えます。おびただしいデータの海の中から，コンピュータを駆使して特定の表現を瞬時に抽出し，それに統計的な処理を加えながら分析することを主な手法とします。コンコーダンサーを用いて, 様々な資料から収集した同一表現をコンピュータの画面に分析しやすいように表示し（KWIC表示），様々な角度から検討していくという方法は，まさしく文を外側からその表面的な形を分析していこうとした構造言語学の流れを汲むものであり，帰納法的接近法であるといえます。

　Firth， Halliday， Sinclairといったコーパス言語学の中心を担ってきた人たちは，言語学を多分に実用主義的なものとみなしてきました。彼らもまた，チョムスキーと同じく言語学の自律を主張しましたが，チョムスキーと違って，言語と社会的関係を切り離すことはありませんでした。とりわけ，HallidayとSinclairは母国語あるいは第二言語として英語を教えるといった，教育に関する言語学において主な業績をなしてきました。 Sinclairの著作にはevidenceというキーワードがよく出てきます。

　これまでの言語研究では，多くの言語学者が自分の頭で作った少数の用例をもとに議論を組み立ててきました。たとえば，‘The farmer kills the duckling．’などといったおそらく私たちが生涯に一度も使わないのではないかと思われるようなものもありました。コーパス言語学では，言語の研究は様々な分野やレベルで実際に用いられているようなauthenticで豊富な使用例を基に研究されるべきだと考えます。言語学者が自ら作った用例は二次的直観的なものであり，こうした用例を使用して自らの理論を説明しようとすればどうしても主観的なものになりがちです。ともすると，知らず知らずのうちに自分の説に都合のよい用例のみを自作してしまうといった恐れもあります。その点，コーパスからの用例はより客観性が高く，様々な仮説の検証に大きな威力を発揮するのです。

3.　成果としての発見

(1) ‘cannot help doing’ or ‘cannot help but do’？

あるとき私の同僚が｢最近，‘cannot help doing’の表現をあまりみないね｣と感想を漏らしていました。私自身はこの表現のvariationのいくつかにはなじんでいましたが，やはり普通の英文でも日常的によく見聞きするものと思い込んでいましたから「むしろ高校では基本的な表現（‘cannot help doing’）のみを教えればよいのではないですか」と答えていました。英米比較のできるそれぞれ100万語から成る4つのコーパスで頻度を調べてみて驚いてしまいました。表1-2はその検索結果です。

（表1-2） cannot help doing/ cannot help but do

　　　　　４つのコーパスでの頻度比較

	Brown (米)1961	LOB (英)1961	ST(米) 1990s	ST(英) 1990s
can’t help doing	5	14	1	10
can’t help but do	4	2	13	2
can’t but do	3	7	0	0

もちろんこのようなデータを取り扱う場合注意が必要で，この結果をそのままうのみにできませんが，より大きなコーパスで検索するための仮説を立てるには便利です。私は以下のような仮説を立ててみました。

最も基本的な ‘cannot help doing’の構文は1961年当時では英米ともによく使われる表現であった。1990年代になるとアメリカ英語では圧倒的に ‘cannot help but do’の構文が使われるようになった。しかし，イギリス英語では依然として ‘cannot help doing’が標準的な表現である。文語的な ‘cannot but do’は90年台の大衆小説では目にすることはほとんどない。

大きなコーパスで，しかもさまざまな種類の書き言葉や話し言葉をも対象にして慎重に検討していくべき問題なのですが, 最初の仮説を得るのには上で使ったような簡単なコーパスで十分ではないかと思っています。面白いことに「ミステリー(英)1990s」のコーパスの中で ‘prevent help doing’の用例に出くわしました。生徒に教える必要はないのですが話の種にはなりそうです。注意を要するのは,われわれはすぐに｢～の構文はもう使われない｣と軽率な判断を下してしまうことです。　英米の比較とともに時代別の変化をも考慮に入れていかなかればなりません。今後より大きなコーパスで慎重に調べていきたいと思います。

(2) You’ve got the wrong number.

　英語教師の皆さんには，次のような問題を解くことは朝飯前ではないかと思いますが，どうでしょうか。

次の空欄に適切な語を入れなさい。

｢間違い電話ですよ｣

= You’ve got ( )( )( ).

ほとんどの人がthe wrong numberを入れるのではないかと思います。それはそれで正解なのですが，われわれがこの｢間違い電話｣について生徒に説明するときには「自分のところにかかってきた間違い電話の番号は特定化されているからtheなのだ」というふうなことを言うわけです。しかし本当にそうなのでしょうか。 ‘a wrong number’としたら間違いなのでしょうか。このようなことを申し上げるのも，コーパスをもとに作ったというCOBUILD ²，CIDE (Cambridge International Dictionary of English: 1995)という二つの辞書の中に次のような用例があるからです。特にCOBUILD¹では ‘You’ve got the wrong number.’の用例をあげていたのに，COBUILD²では以下のように用例を変えているところも気になります。

‘You must have a wrong number，’ she said. ‘There’s no one of that name here.’ (COBUILD²)

‘Is that Mike Fraser?’ ‘No. I think you’ve got a wrong number ―― this is 456678.’ (CIDE)

試しに，第５章で紹介するBNC On-Lineで「間違い電話」の意味のwrong numberを検索すると1億語中39例が検索されました．

検索結果を見ると，やはり ‘have [get] the wrong number’の形が普通であるようです。ときに ‘have [get] a wrong number’ となることがあること（用例の29），be動詞の後では ‘It [that/ this] is a wrong number.’ となることが多いということが予想されますが，その他の場合は原則として‘have [get] the wrong number’となるように見えます。なぜ，COBUILD²，CIDEはわざわざ ‘have[get] a wrong number’ の用例をあげているのでしょうか。彼らが利用したコーパスでは‘have [get] a wrong number’の出現頻度が‘have [get] the wrong number’の形より大きかったのでしょうか。それとも，コーパスでの出現頻度とは別にレキシコグラファー(辞書編纂者)の直感がそうさせたのでしょうか。

もしそうだとすると，コーパスを使って頻度が多い少ないといっていることがむなしく思えてきます。1億語に1回の頻度でも｢直観｣で「そういえる」と判断することもあるというのですから。そもそも,一体どれくらいの大きさのコーパスならば誰もが納得できる客観的なデータを集めることができるのでしょうか。チョムスキー(第2章「コーパス言語学の考え方」参照)であれば「(そんな無駄なことは止めて)なぜnative speakerの直観を利用しないのか」というかもしれません。

(1)で述べ ‘rain cats and dogs’の場合も事情は同じです。COBUILD Dictionary of IDIOMS (1995)によれば ‘these (idioms) are expressions which are current in English, but occur less often than once in each 10 million words of corpus text’ということになります。われわれのBNC On-Lineでの検索では ‘rain cats and dogs’ の表現は1億語中3回しか出現していません。にもかかわらず，このイディオムが現代英語の中で ‘current’であると ‘native speaker’がみずからの直観にもとづいて判断しているとするならば，コーパス言語学の有効性はどこにあるのかでしょうか。こうなるとコーパス言語学の限界のようなものも意識しないではいられません。

しかし次のように考えることもできます。コーパスは現代英語の相対的な姿をあらわしているのだ。たとえ，レキシコグラファーの｢直感｣にもとづいて‘current’であると判断していても，コーパスに用例が少ないという事実はその表現が平均的な ‘native speaker’の目には次第に影の薄いものに映っているということを表しているのだ。しょせん個々の ‘native speaker’は自分の言語体験に基づいているに過ぎないのだから，と。どちらの立場を取るにせよ，コーパス言語学の限界をわきまえたうえでその有効性をわれわれの日常的な英語研究に生かしていきたいと考えています。

(3) I’m tired from working too late.

現在の英語教育の大きな欠陥の一つとして，何の検証もなくある表現の文法的説明が長年にわたって繰り返されているということがあります。たとえば‘be tired of～’と‘be tired from～’の違いについてはどのように教えられているでしょうか。たいていの学習参考書や学習英和辞典には，

tired （形容詞）

1．[肉体的疲労]［…で］疲れた［from］

2．[精神的疲労]［…に］飽きた [of]

(『ジーニアス英和辞典』1996.4.1)

のように説明されています。私たちは210万語の書き言葉コーパスを4種類作成しました。 19世紀のアメリカ英語（米19C）とイギリス英語（英19C），20世紀のアメリカ英語（米20C）とイギリス英語（英20C）です。すると，表3-1のような結果になったのです。

（表3-1）be(get) tired of / be(get) tired from

	A19C	B19C	A20C	B20C	合計
be tired of	43	42	36	15	136
be tired from	0	1	1	0	2

また，主な学習英英辞典でも‘be tired from’の例を示しているものはあまり見当たりません。コーパスに現れた‘be (get) tired of’の例はほとんどが，

And I am tired of hearing of how brave Tom Hanks is!　　(『Time』誌:1994.2.7)

のように「～に飽き飽きしている」の意味で用いられていました。それでは「肉体的に疲れた」のほうはどうでしょうか。表3-1のように‘be (get) tired from’の例は840万語のコーパスの中で2例あったにすぎません。「肉体的疲労」の場合は，

I’m only afraid you are very tired talking to me． (Little Woman: Alcott)

のようにfromを省略したり，

Immediately after last week’s debate，Perot looked tired and grumpy．(『Time』誌:1993.11.22)

のようにfromを介在せずに原因を併記するか，または疲労の原因がcontextから自明であることが多いため，

He felt tired and full and calm． (Brown Corpus)

のように原因を書かない例が多く見られました。つまり，実際にはほとんど使用されていない‘be tired from’をあたかも‘be tired of’と対等に言い分けられているかのように記述することはmisleadingであると言わねばなりません。

(4) make it a rule to do

　もう一つ例を挙げてみましょう。「これでいいのか大学入試英語（下）」（Gareth Watkins・河上道生・小林功，大修館書店，1997）のP. 340に

For my health, I make it a rule to go for a morning walk for an hour or so, however bad the weather may be.（下線は引用者）

という入試問題例について，「受験英語らしい文である。make it a ruleは可能だが，このような場合ではまれ。」と述べられています。この‘make it a rule to～’は「受験問題集」にも頻繁に現われ，高校の英作文でもしばしば教えられている表現です。それを学習した生徒が日常の英会話の中で使うことは当然予想されます（現に私自身使っていました）。これをコーパスで検証してみてはどうでしょうか。まず，インターネットでCobuildDirectを呼び出し，そこのCobuildDirect Corpus Samplerを使って調べてみました。CoubildDirectには5,000万語のコーパスがあり，無料でも制限内で利用することができます。ここでは「it a rule to」と入力して検索してみました。すると，

…for I had told him that I made it a rule to dispense with the evening…（下線は引用者）

という１例が出てきました。しかし，5,000万語で１例とはあまりにも少なすぎます。

　私たちがアメリカのＴＶドラマのシナリオなどから作成した300万語のアメリカ話し言葉コーパスや，TIMEやBrownコーパスから作成した300万語のアメリカ書き言葉コーパスには１例見つけられませんでした。ただ唯一，イギリスの書き言葉コーパスであるLOBコーパスに次の１例がありました。

Because of this I have made it a rule to see each set of parents individually…　（下線は引用者）

どうやら，この‘make it a rule to’表現は『これでいいのか大学入試英語（下）』にあるように，「可能だがこの（日常会話）ような場合ではまれ」（括弧は引用者）であるようです。この表現は間違っているわけでも，現在は使われていないわけでもありません。しかし，何度も繰り返し受験参考書でとりあげるほどの価値ある表現ではありませんし，また，教える以上はそのスピーチレベルについて言及しておくべきでしょう。でないと私のように日常会話の中で多用するといった場違いなことをしでかすことになりかねません。

　このようにして，コーパスを用いることにより「ある表現が実際にどの程度使われているか」，またそうした表現は「英語を使ってコミュニケーションしていく上でどの程度役立つのか」を検証することができます。こうして一つ一つの文法項目を検証することにより，これまで「辞典や参考書の孫引き」によって拡大再生産されてきていた「英語教育的な言辞」に，一つの新しい視点を加えることができるのではないでしょうか。