アルペジオ練習用のデータだが、次のような手順で作れるのではないかと思う。
1.自分がいままで書いたテキストデータを5万字~10万字程度用意する。
2.漢字をひらがなに自動で変換する(ひらがな化API、kanji2na 1.5 などが利用できる)
3.一音ずつに、単打、右シフト、左シフトなどのカテゴリー化を割り振っていく(excelでやるならvlookup関数あたりで実装すればよい)
4.同シフトが連続している音ごとに、単語のまとまりを区切る。(シフトのカテゴリが前の音と連続していれば何もせず、カテゴリーが違っていれば改行コードを加えるなどの処理をすればよい。)
たとえば、自分の配列であれば、「のである。」は
の(右シフト)
で(左シフト)
あ(左シフト)
る(左シフト)
。(単打)
という連続になるので、カテゴリが変わる「の」と「で」の間で改行。
「る」と「。」の間で改行を入れてやる。
5.単語の頻度を、集計して、よく使う単語順にソートする。
これで、かつ自分がよく打ちそうな単語で、かつ自分の配列向けのアルペジオ練習データができる。
自分のデータでやったら、だいたい次のような感じのデータになった。
文字列の並び | 登場回数 |
する | 249 |
という | 172 |
その | 130 |
この | 121 |
うに | 114 |
い。 | 104 |
うし | 95 |
である | 92 |
ある | 87 |
う。 | 86 |
は、 | 81 |
のな | 77 |
かい | 75 |
のこ | 72 |
ってい | 71 |
った | 70 |
んし | 69 |
って | 68 |
うり | 67 |
てい | 67 |
とは | 67 |
ょく | 65 |
であ | 62 |
かん | 61 |
かに | 59 |
たい | 59 |
をつ | 59 |
らく | 58 |
なく | 57 |
んじ | 57 |
とに | 56 |
いに | 55 |
いか | 53 |
っと | 53 |
いて | 52 |
るよ | 52 |
google spreadsheetにも、一応公開しておく。