...

言語系統解明のための計算的取り組み - 村脇有吾 MURAWAKI Yugo

by user

on
Category: Documents
0

views

Report

Comments

Transcript

言語系統解明のための計算的取り組み - 村脇有吾 MURAWAKI Yugo
1
特 集 言語系統解明のための計算的取り組み
Computational Approaches to Understanding Linguistic Phylogenies
村脇 有吾
京都大学
Yugo Murawaki
Kyoto University
[email protected], http://murawaki.org/
keywords: linguistic phylogeny, cognates, linguistic typology, linguistic universals
1. は じ め に
-2
+4
{1, 2, 3}
日本語の起源はどうなっているのか? 別の言い方を
+5
すれば,日本語と他の言語は歴史的にどのような関係に
-3
{1, 2, 3, 5}
-2
BP (before present)
あるのか? この問題に対する現代科学の挑戦は優に 100
図1
年を超えるにもかかわらず,いまだに確実な答えは得ら
{1, 3, 4}
{1, 2, 5}
{1, 3, 5}
0 (‫ݳ‬େ)
系統樹の例
れていない [Vovin 10].本稿もこれに対する直接の答え
を用意できているわけではないが,この問題への取り組
類型論的特徴は言語群の関係を決定するための手掛かり
みとして,計算機を用いた統計的手法が前途有望である
とはみなされてこなかった.その大きな理由は,語彙と
ことを示したい.
比べて手掛かりとして不確実性が高く,人手による論証
「人工知能と歴史」というお題で言語史を取り上げる
が難しかったことだと筆者は考えている.そして,計算
ことに対して意外に思われるかもしれない.実際,言語
機を用いた統計的手法であれば,類型論的特徴が歴史的
史の研究は,長らく言語学者が人手で行う分野であった
にどのような振舞いをするか明らかにし,系統推定に応
(2 章).しかし,2000 年頃から,計算機を用いた統計的
用できるのではないかと見込んでいる(5 章).まだまた
手法によって新たな成果が次々と報告されている(3 章).
始めたばかりの研究だが,これまでの経過と今後の展望
計算的取り組みが一定の成功を収めている理由の一つと
を述べたい.
して,人間が苦手とする推論のなかに,計算機であれば
扱えるものがあることがあげられる.人間は記号の離散
2. 歴史比較言語学
的な操作や,一歩一歩積み上げるような論証を得意とす
る反面,年代のような数量を含む問題や,不確実性が解
言語史の解明に取り組む言語学の下位分野は歴史言語
候補の組合せ爆発を生む問題は苦手である.近年の研究
学と呼ばれる.言語史を解明するための最初の手続きは,
は,こうした問題であっても,計算機であれば(近似的
文献を可能な限りさかのぼり,記録上最古の状態を明ら
に)解ける場合があることを実証してきた.
かにすることである.しかし,文字記録には限りがあり,
人工知能といえば昨今は過剰な期待が集まりがちだが,
有史以前 ∗1 の状態を知るには別の手法が必要となる.そ
実際のところ,計算的取り組みは,データ,手法の両面
こで歴史言語学が採用した手法は,複数の言語を比較し,
で伝統的な言語学なしでは成り立たない.統計的手法を
それらが共通祖先(祖語)から生じたことを立証すると
適用するためにはある程度まとまったデータが不可欠だ
いうものである.そのため,この分野を特に歴史比較言
が,そうしたデータはもっぱら言語学者が人手で作成し
語学とも呼ぶ.
ている.手法面では,現在主流の統計的手法は,手掛か
複数の言語の歴史的関係は通常木構造により要約され,
りとして語彙を用いるという点で言語学の伝統を引き継
これを系統樹と呼ぶ [Schleicher 53].例を図 1 に示す.こ
いでいる.まさにその語彙的手掛かりが欠けていること
こで,右端の葉が子孫(現代語や十分な記録の残る古代
から,この手法によって日本語とその他の言語との関係
語),左端の根が共通祖語であり,その間の経路が歴史
を明らかにできそうにない.
的変遷を表す.系統樹を特徴付けるのは分岐である.二
そこで,本稿では,語彙に代わる手掛かりとして言語
つの言語は,分岐前は完全に同一であり,分岐後は独立
類型論の特徴に着目する(4 章).類型論は世界中の言語
に進化する.進化とは,親から子へと途切れなく状態が
を特徴(類型)によって分類する分野で,その研究は語
引き継がれるが,完全に複製されるのではなく,しだい
彙に基づく手法と同じくらい古くから見られる.しかし,
∗1 本稿では先史時代を含めて広く歴史と呼ぶ.
人工知能学会論文誌 31 巻 6 号 a(2016 年)
2
に変化が蓄積する現象を指す.図 1 では言語の状態を 2
数の同源語が見つかっていない [Vovin 10].また,既知
値特徴の集合で表している.例えば,共通祖語の状態は
の語族をさらにまとめる試みとして,ノストラティック
特徴 1, 2, 3 で表される.2 値特徴の変化は誕生(例えば
大語族やアメリンド大語族などが提案されているが,広
図 1 の枝上の +4)と死亡(−2)のいずれかである.
い支持は得られていない.
いま,葉の言語群が与えられたとき,系統樹を復元し
たいとする.言語の場合,日本語がそうであるように,一
3. 語彙に基づく統計的手法
般にはほかの言語との関係は不明である.注目する言語
群が祖語を共有することを証明するには,それらが祖語
伝統的な比較手法は言語間の系統関係の確立や,系統
から特徴を引き継いでいることを示せばよい.図 1 の場
樹の復元を可能とするが,祖語がいつ話されていたかは
合,すべての葉が特徴 1 を引き継いでいる.同様に,分
推定できない.人間は年代のような数量を推論するのは
岐の前後関係を示すには,変化の共有の有無を示せばよ
苦手であり,統計的手法の出番となる.
い.例えば,+5 という変化は,下二つの葉のみが経験
祖語の年代推定方法として,言語年代学と呼ばれる統
していることから,上の葉との分岐のほうが古いと推定
計的手法が 1940 年代末から 50 年代を中心に研究された
できる.ここでは簡単のために数個の特徴で例示したが,
実際には百のオーダの特徴を用いる.
[Swadesh 52].言語年代学は,考古学における放射性炭
素年代測定に触発されたもので,語彙的特徴が時間とと
語彙は系統推定に適した特性をもっている.例えば,あ
もに一定割合で失われるという仮定のもと,言語対から
る特徴が系統樹上で複数回誕生する可能性が排除できる.
それらの共通祖語の年代を推定する.この先駆的な試み
語は恣意的な記号であり,DOG という意味と「いぬ」と
は言語学者の間で評判が悪く,激しい批判にさらされた
いう音の結び付きに必然性はないことから,DOG を意
[Bergsland 62].結果として,言語データに対する統計的
味する「いぬ」という語が独立に複数回発生する可能性
手法の研究は長く停滞してしまった.しかし,この間に
は極めて低い.したがって,語彙的特徴を共有する言語
収集された語彙のデータベースが現在の統計的研究にも
群は原則的に共通祖語をもつといえる.ただし,系統樹
利用されており,研究史上の重要性は強調しておきたい.
は分岐後の独立進化を仮定するが,実際には言語同士の
言語年代学に代わって 2000 年頃から言語に適用され始
接触による借用が起こり得る.また,語そのものは引き
めた統計的手法は,もとは分子生物学のデータを解析す
継いでも,語形は時間とともに変化するため,ある言語
るために開発されたものである ∗2 .分子生物学において
対がもつ語が同一特徴(同源語)か否かは自明ではない.
も,当初は素朴なクラスタリング手法や,確率モデルを
「名前」と name,
「骨」と bone のような偶然の類似も除
外しなければならない.
歴史比較言語学では,同源語の判定に音法則と呼ばれ
用いる場合でも最尤推定法が用いられてきたが,1990 年
代後半からベイズ系統モデルが盛んに研究されるように
なった [Huelsenbeck 01].ベイズ系統モデルの利点とし
る現象を用いる.音法則は 19 世紀後半に青年文法学派と
て,生成モデルであることから結果の解釈が容易なこと,
呼ばれる言語学者の集団が確立したもので,歴史的な音
様々な事前知識を柔軟に組み込めること,Markov chain
変化は例外なく規則的に起き,結果として,ある言語対
Monte Carlo(MCMC)という理論的裏付けのある推論
がもつ同源語の語形には規則的な音対応が見られる(借
手法が存在することがあげられる.
用語の場合は対応が乱れる).例えば,古代日本語と与那
[Gray 03] はベイズ系統モデルを印欧祖語の年代推定問
国方言の語形を比較すると,wata と bata(綿),wodori
題に適用し,欧米において大きな話題となった ∗3 .欧米
と budui(踊り)のように,語頭において w と b の規則
人にとって,彼らの祖先である印欧祖語の話者がいつど
的な対応が見られる.同様にして,o と u の対応,与那
こにいたかは関心の的であり,これまでに数多くの仮説
国方言における母音間の r の脱落も規則的である.した
が提案されてきた.[Gray 03] はそのなかでも有力な 2 つ
がって,これらの語は同源語であり,両言語が祖語を共
の仮説
有することが示される.
て議論する.クルガン仮説は,考古学的証拠をもとに,
クルガン仮説とアナトリア仮説
にしぼっ
長年にわたる歴史比較言語学の研究は,世界のさまざ
5,000–6,000 年前の黒海周辺のステップを故地とし,遊牧
まな言語群の系統関係を解明してきた.インド,イラン
民の軍事的征服により印欧語族が広がったとする.対する
からヨーロッパにかけて広がるインド・ヨーロッパ(印
欧)語族が代表的な例で,ほかにも,台湾から島嶼部東
南アジア,太平洋に広範囲に分布するオーストロネシア
語族や,オーストラリアの大半の地域で話されていたパ
マ・ニュンガン語族などがあげられる.一方,日本語の場
合,近隣の諸言語,なかでも朝鮮語や,ツングース諸語,
モンゴル諸語など(いわゆるアルタイ諸語)との関係を
立証しようという努力が長く続けられてきたが,十分な
∗2 分子生物学において統計的手法の基盤となる分子時計仮説
[Zuckerkandl 65] は,実は言語年代学よりも後発である.
∗3 [Gray 03] 以前に生物学由来の統計的系統モデルを言語デー
タに適用した事例として [Gray 00] がある.この研究は,オー
急行列車
ストロネシア語族の拡散過程に関する 2 つの仮説
モデルと生い茂った土手モデル
を統計的系統モデルにより
検証し,前者を支持する.ただし,この研究で用いた系統モデ
ルはベイズ以前のクラスタリング手法であり,年代推定は行っ
ていない.急行列車モデルを支持する根拠は,得られた系統樹
のトポロジーである.
言語系統解明のための計算的取り組み
3
アナトリア仮説は,同じく考古学的証拠をもとに,8,000-
はないかと推測できる [服部 99].
9,500 年前のアナトリア(現在のトルコのアジア側)を
故地とし,農耕と言語の同時拡散を想定する.[Gray 03]
4. 言 語 類 型 論
は,ベイズ系統モデルから得られた祖語の年代をもとに,
アナトリア仮説を支持する.Gray らはその後も一貫して
語彙にかわる手掛かりとして,筆者は言語類型論の特
アナトリア仮説を支持し,2012 年には年代と同時に故地
徴に着目している.類型論自体の歴史は古く,例えば,19
も推定することで同仮説を補強している [Bouckaert 12].
世紀の言語学者は,形態的特徴は循環的に変化すると考
一方,印欧語族の研究者の間では,アナトリア仮説は
えた [Croft 02].世界の言語は,孤立語,膠着語,屈折語
ほとんど支持されていない [Pereltsvaig 15].言語学者の
に分類できる.孤立語は中国語やベトナム語のようにほ
間では統計モデルに対する懐疑論が根強いが,Gray らに
とんど語形変化を起こさず,不変化詞が文法標識の役割
よるアナトリア仮説の推進がその一因となっている.た
を担う.不変化詞が内容語に従属的になり,接辞として
だし,ベイズ系統モデルはデータに関して多くの仮定を
内容語に規則的に連結するようになると膠着語と呼ばれ
おいているが,その一部を見直すことでクルガン仮説寄
る.日本語やトルコ語が該当する.さらに,接辞が融合
りの年代が推定されたという報告 [Chang 15] もあり,こ
し,文法範疇との対応が不明瞭になると,ラテン語やロ
の論争はしばらく続きそうである.
シア語のように屈折語と呼ばれる.最後に英語のように
紙面の都合でベイズ系統モデルの説明は省略するが(詳
屈折が摩耗することで孤立語に戻る,という仮説である.
細は [Drummond 15] を参照されたい),類型論的特徴と
古典的な類型論は特定の特徴のみに着目していたが,
の比較の都合上,語彙的特徴について簡単に見ておく.ベ
系統推定に用いるために,語彙の場合と同様に,複数の
イズ系統モデルが用いる語彙的特徴は基礎語彙と呼ばれ,
特徴を集め,各言語の状態を特徴の列で表現する.そう
もともと言語年代学の研究で設計されたものである.基
した特徴の例として,基本語順,助数詞の有無,声調の
礎語彙とは,どんな言語でもそれを表す言葉があるような
有無が挙げられる.類型論的特徴は一般には多値であり,
基本的な概念(100–200 項目)である.例えば,WATER,
例えば基本語順特徴は,SOV,SVO,VSO,VOS,OVS,
BIG,EYE などが該当する.語彙的特徴のデータベース
OSV,優勢な語順なしの 7 種類の値のいずれかをとる.
を作るには,まず各言語から基礎語彙にあたる語を収集
類型論的特徴のデータ整備には言語学の高度な知識が
する.次に,言語間の比較を行い,伝統的な比較手法に
必要となる.例えば,動詞のように自明に思える概念で
よって各項目の語を同源語に仕分ける.例えば,WATER
あっても,世界の言語のなかには悩ましい事例がある.
を表す英語の water,ドイツ語の Wasser は同源語であり,
かつては言語学者が個別にデータを収集していた [角田
フランス語の eau,イタリア語の acqua は別の同源語に
並べることで,各言語は 00101100 · · · のような 2 値特徴
91] が,現在は組織的収集の成果として World Atlas of
Language Structures(WALS)がマックス・プランク進化
人類学研究所から公開されている [Haspelmath 05].2016
年現在,WALS は 2,679 の言語,192 の特徴を収録して
の列 ∗4 として表現される.
おり,計算的取り組みの研究基盤が整備されている ∗5 .
分類される.各言語は各同源語をもつか否かという 2 値
特徴で表現される.すべての基礎語彙についての結果を
基礎語彙は借用されにくく,比較的変化しにくいと仮
系統推定における類型論的特徴の利点として,語彙的
定される.実際,ある調査によると,英語の一般語彙の
特徴とは異なり,日本語を含む任意の言語対が比較でき
およそ 50%が借用語だが,基礎語彙に限ると 6%にすぎ
ることが挙げられる.実際,日本語と同系の言語の候補
ない [Swadesh 52].変化への抵抗性については,基礎語
として,朝鮮語を含むアルタイ諸語が注目されてきたが,
彙のなかでも項目によってばらつきがあると報告されて
この根拠となったのは,
「語頭に r 音が立たない」,
「have
いる [Greenhill 10].一部の項目は 1 万年規模の極端な保
型の所有動詞をもたない」といった類型論上の類似であっ
守性をもつという主張もある [Pagel 13].ただし,この
た [松本 07].
研究で用いられた語彙データは,言語学者の間で支持さ
しかし,歴史比較言語学では,系統関係は語彙的特徴
れていない大語族仮説に基づいている.一般には,言語
によって確立されるもので,類型論上の類似は決定的な
年代学に基づく大雑把な推定により,語彙に基づく手法
証拠にならないという見方が支配的である.上述のアル
でさかのぼれるのは 6,000–7,000 年程度が限度だといわ
タイ的とされた日本語の特徴についても,実は世界的に
れる [Nichols 11].
ありふれており,アルタイ諸語に固有のものではないこ
語彙に基づく統計的手法では,日本語と他の言語との
とが指摘されている [松本 07].類型論的特徴を系統推定
関係を明らかにすることはできない.日本語と他の言語
に用いる試みもいくつかあるが,語彙に基づく手法と比
との間でいまだに十分な数の同源語が特定できないこと
べて圧倒的に少ない [Tsunoda 95, Dunn 05, Longobardi
から,逆説的に,共通祖語の年代は相当さかのぼるので
09].
∗4 分子生物学で系統推定に主に塩基配列を用いるのに合わせ
て,言語データも列で表現するが,順番に意味はない.
∗5 ただし,数個の特徴しか記述されていない言語が多く,言語
と特徴の組のうち,85%以上が欠損値.
人工知能学会論文誌 31 巻 6 号 a(2016 年)
4
モデルを提案している.一般に,接触を考慮しつつ系統
推定を行うのは,モデルの自由度が高すぎるため難しい.
[Daumé III 09] は,個々の言語を(1)系統樹に沿った進
化の結果と(2)言語連合からの生成の確率的混合とみ
なし,言語連合を時間不変なクラスタとして近似するこ
とで,自由度を抑えた推論を実現した.人手による既存
の系統樹との比較により,言語連合を考慮するほうが良
図2
類型論的特徴に基づく日本語と近隣の言語の系統樹の例
い系統樹が得られると報告している.また,系統樹と言
語連合との混合比を見ると,類型論的特徴の種類によっ
て,系統寄りのものと地域寄りのものがあることがわか
類型論的特徴の大きな欠点は,ある言語対が特徴を共
る.この結果から推測すると,系統寄りの特徴に適切な
有していたとしても,その特徴を共通祖語から引き継い
重みをかければ,言語連合を明示的にモデル化せずとも
だとは限らないことである.形態的特徴の循環的変化の
高精度な系統推定ができるかもしれない.
例が示すように,同じ変化が歴史上無関係に複数回起こ
り得るし,一度失われた特徴が復活する可能性もある.
より極端な接触現象であり,それゆえにモデル化しや
すいものとして,筆者はクレオール形成を調査した [Mu-
つまり,類型論的特徴は語彙的特徴よりも不確実性が高
rawaki 16].クレオールは複数の言語の影響下で成立した
く,人手による論証になじまない.しかし,計算機を用
とみられる一群の言語で,その多くがヨーロッパによる
いた統計的手法であれば扱える可能性は残っている.
植民地化の影響を受けた大西洋・インド洋沿岸に分布し
ている.クレオール形成過程は論争の絶えない課題だが,
5. 類型論に基づく統計的手法
有力な仮説によると,文法が極端に単純化した言語(ピ
ジン)がまず生まれ,その後ピジン話者の子供がピジン
上述の通り,類型論的特徴を使えば任意の言語対が比
を母語として獲得し,その過程で複雑な意思疎通が可能
較できるため,適当なクラスタリング手法を用いること
なほど文法が発達することによって成立するという.し
で系統樹相当のものをつくること自体は可能である.試み
かし,この際に起きる言語普遍的な構造再編がクレオー
につくった日本語と近隣の言語の系統樹の図 2 に示す ∗6 .
ルを特徴付けるという説と,語彙提供言語(社会文化的
しかし,このような系統樹は何の説得力ももたない.類
に優勢な言語で,クレオールの語彙の大半がこれに由来)
型論的特徴の振る舞いがモデルの仮定と合っているか不
や基層言語(社会的に劣勢な言語)の影響が強いという
明だからである.類型論的特徴の性格については課題が
説が入り乱れている.
山積みだが,本稿では,接触の影響,歴史的安定性,特
徴間の依存関係の 3 点にしぼって議論する.
これらの説を踏まえると,クレオール形成は,
(1)語彙
提供言語 L,
(2)基層言語 S,
(3)構造再編 R という 3 種
類の確率的混合としてモデル化できる.具体的には,ク
5·1 接 触 の 影 響
レオールの各言語について混合比 θ = (θL , θS , θR ) を導入
そもそも言語群が系統樹をなすという仮定は妥当だろ
する.この混合比に従って 3 種類のいずれかの特徴を確
うか? 語彙的特徴の場合,系統樹の仮定に反する現象
率的に選んだ結果,各クレオールが形成されたと仮定す
として借用語があったが,言語類型論の研究でも,地域
る.この混合比をデータから推定することで,上記の仮
的特徴と呼ばれる接触の影響に多くの議論が費やされて
説が検証できる.
きた.
このモデルをクレオールの類型論データベース [Michaelis
13] に適用したところ,混合比において構造再編が高い
接触による類型論上の現象として言語連合が知られて
いる.言語連合とは,同じ地域で話されており,系統上
割合を占めた.また,クレオールのもつ諸特徴から語彙
の親疎にかかわらず,多くの地域的特徴を共有している
提供言語や基層言語の影響を差し引くことで,クレオー
言語群を指す.有名なバルカン言語連合は,ギリシア語,
ルらしい特徴の値が抽出できる.これを日本語の特徴の
アルバニア語,東南スラヴ諸語など,印欧語族のなかで
値と比較したところ,日本語はクレオール的ではないと
も比較的系統的に遠い言語からなり,属格と与格の融合
いう結果を得た.日本語混成言語説との関係においてク
や定冠詞の後置といった特徴を共有する.ほかにも,大
レオールに注目する議論がある [川本 90] が,日本語の
陸部東南アジアでは,モン・ミエン語族,クラ・ダイ語
場合,少なくとも近い過去にクレオール形成はなかった
族,オーストロアジア語族のように明確な系統関係のな
と推測できる ∗7 .もちろんクレオール形成よりも穏健な
い言語群が,声調や音節構造などの特徴を共有している.
言語接触が日本語の形成に影響を及ぼした可能性はあり,
[Daumé III 09] は,言語連合を組み込んだベイズ系統
∗6 WALS の特徴のうち被覆率の高い 154 個を 1-of-K 法で 2 値
化した.クラスタリングは距離に基づく近隣結合法 [Saitou 87].
∗7 例えば,助数詞の欠如はクレオールらしい特徴だが,日本語
は助数詞を用いる.しかし,上代日本語の段階では助数詞は発
達途上であったと考えられている [Vovin 05].
言語系統解明のための計算的取り組み
5
その検証は今後の課題として残っている.
形態の定量的評価が可能である [Yamauchi 16].
5·2 歴 史 的 安 定 性
5·3 特徴間の依存関係
系統推定に用いる語彙的特徴は,語彙の中でも歴史的
ここまでは,各特徴が独立に変化すると仮定してきた.
安定性の比較的高い基礎語彙であったのに対して,類型
語彙的特徴の場合,同じ意味を表す同源語同士は競合関
論のデータベースは,歴史的安定性を特に考慮せず,類
係にあり,独立性の仮定に反すると思われるが,シミュ
型論の研究者達がそれぞれの興味に従って収集したもの
レーション実験により,この仮定が系統推定に大きな影
である.WALS における極端な例として,tea の特徴が
響を与えないことが示されている [Atkinson 05].異なる
あげられる [Haspelmath 05].これは,各言語が茶を表す
意味の特徴同士であれば,影響はさらに軽微なはずであ
のに,cha 系の語を用いるか,te 系の語を用いるか,あ
る.では類型論的特徴の場合はどうだろうか?
るいはその他かを分類したもので,主に 16 世紀以降の
実のところ,類型論的特徴の間には複雑な依存関係が
歴史的過程を反映するにすぎない.深い系統関係を解明
あり,それこそが類型論研究の焦点の一つであり続けて
するには,歴史的安定性の高い特徴が欠かせない.
いる.[Greenberg 63] は世界の言語で普遍的に成り立つ
[Greenhill 10] は,語彙的特徴から得られた年代つき系
法則をいくつか提示した.例えば,前置詞を用いる言語
統樹に類型論的特徴を当てはめ,系統モデルの変化率パ
では属格はほとんど常に名詞に後続するが,後置詞を用
ラメータを特徴ごとに求めた.系統樹として印欧語族と
いる言語では反対に先行する.このような依存関係を無
オーストロネシア語族の 2 種類を用いたところ,大半の
視して系統推論を行うと,言語として不自然な祖語を推
類型論的特徴は語彙的特徴と同程度の変化率だが,一部
定するおそれがあり,ひいては系統樹への悪影響も懸念
の特徴は語彙よりも変化しにくいという結果を得た.た
される.
だし,接触の影響を考慮していないことに注意を要する.
そこで,筆者は,類型論的特徴を直接扱うのではなく,
何人かの言語学者は,明示的に系統推定を行うことな
依存関係を反映した潜在表現に変換したうえで系統推定
く,特徴の現在の分布から歴史的安定性を推測しようと
を行うことを提案した [Murawaki 15].具体的な表現と
してきた [Nichols 92, Nichols 95, Parkvall 08, Wichmann
して,自己符号化器による連続空間表現(実数列)を採
09].[Dediu 13] はそうした手法を同一データを用いて比
用した.しかし,離散的特徴と異なり,連続空間表現上
較している.この手法をもとに,いくつかの類型論的特
では変化の方向性をモデル化しづらいという欠点がある.
徴は 1 万年のオーダの深い言語史を反映しているという
また,WALS を扱ううえで避けて通れない欠損値に対す
大胆な主張もなされている [Nichols 92, 松本 07].
る頑健性も課題として残っている.
現在の分布を用いる動機は,もしある特徴が安定的な
ところで,そもそもなぜこのような依存関係があるの
らば,言語群内で同じ値が広く共有されるはずだという
だろうか? これに対する説明には大きく 2 種類ある.機
ものである.[Nichols 92] は,あらかじめ指定された各言
能的説明は,特徴の値のある組み合わせが認知的に処理
語群内で特徴量の最頻値を探し,次にその値を取らない
しやすいといったように,人間の生得的な言語能力に理
言語の割合を数え,最後にその割合の言語群間の平均を
由を求める.[Baker 02] は,生成文法の立場から,特徴
求める.もし言語群が系統に基づくなら,この値は系統
の値の組み合わせを決定する潜在的な 2 値パラメータ群
上(縦)の不安定性の指標とみなせる.同様にして,言
の存在を主張する.しかし,
「普遍」規則にしばしばまれ
語群を地域的に定義すると,この値は横の不安定性(接
な例外が発見されることから,そのような決定的なパラ
触による伝播のしにくさ)を表す.[Parkvall 08] はより
メータの存在は首肯しがたい [Evans 09].もう一つの通
複雑な計算式を用いて系統的一貫性 CFAM と地域的一
時的説明は,一般性のある歴史的変化が原因だと考える
貫性 CARE を定義する.さらに,最終的な安定性指標を
[Heine 07].例えば,日本語の格助詞「へ」は名詞「辺」
S = CFAM /CARE と定義するが,なぜ割り算を行うのか
判然としない.[Wichmann 09] も同様の指標を提案する
が文法化したものだが,もしこのような名詞から後置詞
が,縦の安定性のみを考える.この種の指標は操作的に
の関係が説明できる.この議論をもう少し整理すれば,系
定義され,理論的な裏付けが乏しいという欠点がある.
統推定にも応用できるかもしれない.
への歴史的変化に一般性があれば,後置詞と属格前置と
実は,文化人類学においても,縦・横のいずれによっ
て特徴が伝承されるかが論争の的になっている.[Towner
6. ま
と
め
12] は,自己ロジスティックモデルによって両伝承形態を
単一モデルに取り込み,それらの相対的な重みを推定す
本稿では,計算機を用いた統計的手法により言語系統
る.彼らは極端な多様性で知られる北アメリカ西部の先
の解明を目指す研究を紹介した.日本語系統論を念頭に
住民社会の分析にこの手法を適用し,ほとんどの特徴の
置き,最後の希望ともいえる言語類型論の特徴を中心に
説明に両伝承形態が必要だと主張する.このモデルをほ
議論した.現状ではまだ日本語系統論についていえるこ
ぼそのまま用いることで,類型論的特徴についても伝承
とはほとんどないが,意外な実験結果の例として,類型
人工知能学会論文誌 31 巻 6 号 a(2016 年)
6
論的特徴の歴史的安定性を考慮して日本語と他の現代語
を比較すると,朝鮮語が通常期待されるほど似ていない
一方,チベット・ビルマ系言語が上位に来ることがあげ
られる [Murawaki 15].
言語は人間集団を特徴付ける主要な要素だが,人類史
を解明するには,集団遺伝学や考古学などの諸分野の知
見との整合性も求められる.とりわけ遺伝子データは,
そもそも量,質ともに言語データを圧倒しているうえに,
古代 DNA の解析の進展により,古代の状態の直接的復
元すら実現しつつある [Reich 10].遺伝子データにひも
付けた言語の系統推定も今後の方向性として有望だろう.
♢ 参 考 文 献 ♢
[Atkinson 05] Atkinson, Q., Nicholls, G., Welch, D., and Gray, R.:
From Words to Dates: Water into Wine, Mathemagic or Phylogenetic
Inference?, Transactions of the Philological Society, Vol. 103, No. 2,
pp. 193–219 (2005)
[Baker 02] Baker, M. C.: The Atoms of Language: The Mind’s Hidden Rules of Grammar, Basic Books (2002)
[Bergsland 62] Bergsland, K. and Vogt, H.: On the Validity of Glottochronology, Current Anthropology, Vol. 3, No. 2, pp. 115–153
(1962)
[Bouckaert 12] Bouckaert, R., Lemey, P., Dunn, M., Greenhill, S. J.,
et al.: Mapping the Origins and Expansion of the Indo-European Language Family, Science, Vol. 337, No. 6097, pp. 957–960 (2012)
[Chang 15] Chang, W., Cathcart, C., Hall, D., and Garrett, A.:
Ancestry-constrained Phylogenetic Analysis Supports the IndoEuropean Steppe Hypothesis, Language, Vol. 91, No. 1, pp. 194–244
(2015)
[Croft 02] Croft, W.: Typology and Universals, Cambridge University
Press (2002)
[Daumé III 09] Daumé III, H.: Non-Parametric Bayesian Areal Linguistics, in Proc. of NAACL-HLT, pp. 593–601 (2009)
[Dediu 13] Dediu, D. and Cysouw, M.: Some Structural Aspects of
Language Are More Stable than Others: A Comparison of Seven
Methods, PLoS ONE, Vol. 8, No. 1, pp. 1–20 (2013)
[Drummond 15] Drummond, A. J. and Bouckaert, R. R.: Bayesian
Evolutionary Analysis with BEAST, Cambridge University Press
(2015)
[Dunn 05] Dunn, M., Terrill, A., Reesink, G., Foley, R. A., and Levinson, S. C.: Structural Phylogenetics and the Reconstruction of Ancient Language History, Science, Vol. 309, No. 5743, pp. 2072–2075
(2005)
[Evans 09] Evans, N. and Levinson, S. C.: The Myth of Language
Universals: Language Diversity and its Importance for Cognitive Science, Behavioral and Brain Sciences, Vol. 32, pp. 429–492 (2009)
[Gray 00] Gray, R. D. and Jordan, F. M.: Language Trees Support
the Express-train Sequence of Austronesian Expansion, Nature, Vol.
405, No. 6790, pp. 1052–1055 (2000)
[Gray 03] Gray, R. D. and Atkinson, Q. D.: Language-tree Divergence Times Support the Anatolian Theory of Indo-European Origin,
Nature, Vol. 426, No. 6965, pp. 435–439 (2003)
[Greenberg 63] Greenberg, J. H. ed.: Universals of Language, MIT
Press (1963)
[Greenhill 10] Greenhill, S. J., Atkinson, Q. D., Meade, A., and
Gray, R. D.: The Shape and Tempo of Language Evolution, Proceedings of the Royal Society B: Biological Sciences, Vol. 277, No.
1693, pp. 2443–2450 (2010)
[Haspelmath 05] Haspelmath, M., Dryer, M., Gil, D., and Comrie, B.
eds.: The World Atlas of Language Structures, Oxford University
Press (2005)
[服部 99] 服部 四郎:日本語の系統, 岩波書店 (1999)
[Heine 07] Heine, B. and Kuteva, T.: The Genesis of Grammar: A
Reconstruction, Oxford University Press (2007)
[Huelsenbeck 01] Huelsenbeck, J. P. and Ronquist, F.: MRBAYES:
Bayesian Inference of Phylogenetic Trees, Bioinformatics, Vol. 17,
No. 8, pp. 754–755 (2001)
[川本 90] 川本 崇雄:ピジン・クレオール化と日本語の形成, 崎
山 理(編), 日本語の形成, pp. 130–168, 三省堂 (1990)
[Longobardi 09] Longobardi, G. and Guardiano, C.: Evidence for
Syntax as a Signal of Historical Relatedness, Lingua, Vol. 119,
No. 11, pp. 1679–1706 (2009)
[Michaelis 13] Michaelis, S. M., Maurer, P., Haspelmath, M., and Huber, M. eds.: APiCS Online, Max Planck Institute for Evolutionary
Anthropology (2013)
[Murawaki 15] Murawaki, Y.: Continuous Space Representations of
Linguistic Typology and their Application to Phylogenetic Inference,
in Proc. of NAACL-HLT, pp. 324–334 (2015)
[Murawaki 16] Murawaki, Y.: Statistical Modeling of Creole Genesis, in Proc. of NAACL-HLT (2016)
[Nichols 92] Nichols, J.: Linguistic Diversity in Space and Time, University of Chicago Press (1992)
[Nichols 95] Nichols, J.: Diachronically Stable Structural Features,
in Andersen, H. ed., Historical Linguistics 1993. Selected Papers
from the 11th International Conference on Historical Linguistics, Los
Angeles 16–20 August 1993, John Benjamins Publishing Company
(1995)
[Nichols 11] Nichols, J.: Monogenesis or Polygenesis: A Single Ancestral Language for All Humanity?, in Tallerman, M. and Gibson, K. R. eds., The Oxford Handbook of Language Evolution, pp.
558–572, Oxford University Press (2011)
[Pagel 13] Pagel, M., Atkinson, Q. D., Calude, A. S., and Meade, A.:
Ultraconserved Words Point to Deep Language Ancestry across
Eurasia, PNAS, Vol. 110, No. 21, pp. 8471–8476 (2013)
[Parkvall 08] Parkvall, M.: Which Parts of Language are the Most
Stable?, STUF-Language Typology and Universals Sprachtypologie
und Universalienforschung, Vol. 61, No. 3, pp. 234–250 (2008)
[Pereltsvaig 15] Pereltsvaig, A. and Lewis, M. W.: The IndoEuropean Controversy: Facts and Fallacies in Historical Linguistics,
Cambridge University Press (2015)
[Reich 10] Reich, D., Green, R. E., Kircher, M., Krause, J., et al.:
Genetic History of an Archaic Hominin Group from Denisova Cave
in Siberia, Nature, Vol. 468, No. 7327, pp. 1053–1060 (2010)
[Saitou 87] Saitou, N. and Nei, M.: The Neighbor-joining Method:
A New Method for Reconstructing Phylogenetic Trees, Molecular
Biology and Evolution, Vol. 4, No. 4, pp. 406–425 (1987)
[Schleicher 53] Schleicher, A.: Die ersten Spaltungen des indogermanischen Urvolkes, Allgemeine Monatsschrift für Wissenschaft und
Literatur, Vol. 3, pp. 786–787 (1853), (in German)
[Swadesh 52] Swadesh, M.: Lexicostatistic Dating of Prehistoric
Ethnic Contacts, Proceedings of American Philosophical Society,
Vol. 96, pp. 452–463 (1952)
[Towner 12] Towner, M. C., Grote, M. N., Venti, J., and Mulder, M. B.: Cultural Macroevolution on Neighbor Graphs: Vertical
and Horizontal Transmission among Western North American Indian
Societies, Human Nature, Vol. 23, No. 3, pp. 283–305 (2012)
[角田 91] 角田 太作:世界の言語と日本語, くろしお出版 (1991)
[Tsunoda 95] Tsunoda, T., Ueda, S., and Itoh, Y.: Adpositions in
Word-order Typology, Linguistics, Vol. 33, No. 4, pp. 741–762
(1995)
[Vovin 05] Vovin, A.: A Descriptive and Comparative Grammar of
Western Old Japanese, Part 1, Global Oriental (2005)
[Vovin 10] Vovin, A.: Koreo-Japonica, University of Hawai‘i Press
(2010)
[Wichmann 09] Wichmann, S. and Holman, E. W.: Temporal Stability
of Linguistic Typological Features, Lincom Europa (2009)
[Yamauchi 16] Yamauchi, K. and Murawaki, Y.: Contrasting Vertical and Horizontal Transmission of Typological Features, in Proc. of
COLING (2016), (to appear)
[Zuckerkandl 65] Zuckerkandl, E. and Pauling, L.: Evolutionary Divergence and Convergence in Proteins, Evolving Genes and Proteins,
Vol. 97, pp. 97–166 (1965)
[松本 07] 松本 克己:世界言語のなかの日本語: 日本語系統論の
新たな地平, 三省堂 (2007)
〔担当委員:××○○〕
言語系統解明のための計算的取り組み
19YY 年 MM 月 DD 日 受理
著
者 紹
村脇
介
有吾
2011 年京都大学大学院情報学研究科博士後期課程修了,博
士(情報学).同年京都大学学術情報メディアセンター特
定助教,2013 年九州大学大学院システム情報科学研究院
助教,2016 年京都大学大学院情報学研究科特定助教,同
年助教,現在にいたる.テキスト解析および計算言語学に
関する研究に従事.言語処理学会,情報処理学会各会員.
7
Fly UP