ゲーム以外の雑記(井上明人)

最近は、ほとんどキーボードの話をしています。

日本語かな、頻出音のクラスター分析

kouyさんの作成されたかな連なりマトリクスのデータを見ていたら、これは結構簡単にRでクラスター分析できそうだなと思いましたので、クラスター分析にかけてみました。
下記からご覧ください。

 

> ウォード法によるクラスター分析結果 PDFファイル

 

f:id:hiyokoya:20190622191330p:plain

 

強引にテキスト化すると以下のような感じになります。

 

------------------------------------
■グループ1

[(ごゆぼぞ)(づぽぬぴぺ)(へぐぷぱ)(ずむびぎべ)]
[{(ねぜぶげ)}{(ちえめ)(ーわ)(ひばざろみやふ)}]

 

■グループ2

[(こ)(よそどほ)]
[{(だけさせ)(でにはが)}{(、あれ)(くら)(きも)(おをじつり)}]
[(する。ま)]

 

■グループ3

(たて)(のとかな)(うん)(い)(しっ)

-------------------------------------

 

他のクラスター分析の結果も下記に貼っておきます

http://www.critiqueofgames.net/data/asuka/cent.pdf

http://www.critiqueofgames.net/data/asuka/most.pdf

 

 

解釈について

グループ1が、比較的頻度の低い音で、

グループ3が、もっとも頻度の高い音同士のクラスターになっていると思います。

また、それぞれのグループ内での区分けですが、これは同じような連接をつくる傾向のものがまとまっている形だと考えればよいかと思います。

たとえば、「でにはが」などはいづれも1音で助詞としてつかわれる音なのでその後につづく単語も基本的に似たような傾向をもつものと思われます。