ゲーム以外の雑記(井上明人)

最近は、ほとんどキーボードの話をしています。

配列の「速度性能」を考えるためのリサーチデザイン

大岡さんの話をうけて、ちょっと考えてみる。

oookaworks.seesaa.net

 あくまで、配列の話は趣味なので、ガチで研究テーマとかにかかげる気はないけれど、最近、統計的因果推論について、ちょろちょろ勉強中なので、頭のトレーニング的に書いてみる。

 

大岡さんが言うように

「現時点でのタイピング大会での各配列の速度成績」=「各配列の速度性能」

という図式が間違っていることは確かだろう。

影響を与えそうな考慮すべき要因として、

  • 競技人口:その配列で打鍵している人がどのぐらいいるか。また、トレーニングをしている人(ガチ勢)がどのぐらいいるか
  • ガチ勢の能力差と、「一般人」の能力差
  • 短期の速度(タイピングの大会で測られるのはこれ)
  • 長期の速度(実際に重要になるであろう性能)
  • 普及のしやすさ
  • どのぐらいの年数にわたって、その配列が使われているか

などを総合的に考慮する必要がありそうだ。

 大岡さんが挙げているように、無作為抽出をしてフリック入力QWERTY入力の人を比較するのはリサーチデザインとして、タイピングの大会などよりも格段に優れている。ただ、その場合にも、一点だけ注意すべきことがあるように思う。

 フリック入力を使っている人と、QWERTY入力を使う人の母集団を比較した場合、おそらくそこには、平均年齢の差や、性別の偏りがやや発生しているように思う。予想だが、フリック入力のほうが、若めで、女性が多め。QWERTYのほうが、相対的に年齢が高く、男性がやや多めではないかと思う。

 その仮定が妥当する場合、データとしては、フリックの高速打鍵をする層が若年女性に偏り、QWERTYの高速打鍵をする層が中年男性あたりに偏るというデータがでてくる可能性があり、無作為でデータをとるだけだと、社会自体に埋めこまれたバイアス自体も含めたデータになるように思われる。*1

 配列の速度性能のことだけを実験的に知りたいという場合は、順当に言えば、より強いコントロールをかけたランダム化比較試験(RCT)をするかという話が一番理想的だという話になるだろう。……とは言え、配列性能の比較についての中長期のランダム化比較試験というのは、かなりコストが大きく、よほど大きな社会的論点にでもならない限りは、十分なサンプル数と期間を設けて、そういった調査を行うのは、予算的にも、まず実施は困難だろう。つまり、めんどくさいので無理。

 となると、いまあるデータから、さまざまな、要素間の影響関係を整理して推定する手法(統計的因果推論)の出番ということになってくるだろう。

 じゃあ、どんなことが可能か。考えてみたい。(私も、ここらへんの手法は勉強中なので、間違ったこと書いてる可能性が多いにあるので、話半分で読んで下さい。)

 

回帰不連続デザイン

 地域分布、性別分布、年齢分布などほとんどの条件がほぼ同じだが、ほぼ完全に偶然としか言いようのない状況で使う配列が異なってしまった2つのグループというのがあれば、かなり強い推定をすることが可能なはず。

 「1980年代に、QWERTY勢と、親指シフト勢は、偶然的に使う配列が異なってしまった」ぐらいの話だと、回帰不連続デザインをやるには弱いと思う。なぜかと言うと、80年代の親指シフト勢は、OASISなどワープロを必要とした文筆にかかわる職業の人が多かったろうし、QWERTYはアッパーミドル以上の理系の人が多かっただろう。そこですでに社会的な要因が絡んでしまっており、バイアスが働いているので、回帰不連続デザインというよりは、そういうのは、傾向スコアマッチングとかで処理する事例だと思う。

 もっとマジモンのサイコロを振った以外のなにものでもないぐらいの偶然で、使用している配列が別々になったみたいな事例があればよい。

 たとえば、高校の情報の授業の担当の先生がサイコロ転がして「1組~3組はJISカナ、4組~6組はQWERTYでタイピングを教えよう!」(もともと、1組~6組の割り振りは成績等に依拠しない、ただのランダムである場合に限る)みたいなケースなら、因果関係の推定としてかなり強いと思う。もし、そういうテキトーなことやった先生とかがいれば、1年後の生徒のタイピング速度の差を調べて、タイピングの速度性能について、かなり強い因果関係の推論をすることができるだろう。

 そんな、テキトーな先生が実在するのかという問題と、そのテキトーな先生がデータ提供してくれるのか、という問題はある。

 生徒の自主的な希望制で、JISカナと、QWERTYのどちらかを学生に勉強してもらうかを自分で選ぶことのできる学校みたいなのは実際にありそうだが、それだとデータとしては、弱くなるので、「雑な先生がその時の気分でサイコロ転がして決めました」みたいなのが(研究の題材としては)理想的なのだが………。

 

差の差推定

 上記の、回帰不連続デザインほどに「同じ集団」でなくてもよいが、かなり連続した集団だとか、似たようなパフォーマンスを示している2集団の間で、別々の配列を使うようななったケースなどがあり、その2つの集団のパネル・データとかが集められれば、あれば可能。(因果関係の推定としては、回帰不連続デザインよりも、確からしさは下がる。)

 「フリック入力 vs QWERTY」あたりは、2集団の傾向の近さを示した上で、比較をやるのはけっこう、いけそうな気はする。ただ、その2集団の「傾向の近さ」をどういう形で示すのがベストなのかについて、メタレベルの議論をしておかないといけなさそう。

 うーん……。

 

傾向スコアマッチング

 因果関係の推定としては、弱いが、まあ、やること自体はできそうではある。ある程度、頑張ってデータ集めれば、できるっちゃできるが、どこまでどういうデータを集めるべきかの事前の議論やら準備とかをきちんとやる必要がある。

 フリック入力QWERTY、JISかな、親指シフトあたりのユーザーを無作為で抽出した上で、タイピング速度に影響しそうな属性情報をなるべく多く収集し、傾向スコアマッチングをやったら、よいのではなかろうか。

 とりあえず、大岡さんが挙げているような、要素は、被験者に対して、全部データとして、取得しておいたほうがいいだろう。

 まあ、一番、現実的なのは、傾向スコアマッチングだろうな、とは思う。

 とは言え、まず無作為に近いデータをもっている人がどこにいるのかわからんが……。フリックと、QWERTYの利用者だけなら、それなりのサンプル数の人を捕まえてくるのは難しくないだろうからできるかもしれないが、個人的には、フリック入力QWERTYを比較するデータとかあっても、そこまでモチベーションがあがらないかも……。飛鳥配列や薙刀配列は無理でも、せめて、ニコラ、JISかな、QWERTYの対決あたりはけっこうしっかりとしたデータで見てみたいなという気はする。

  

 

********

 

 以上、繰り返しだけれども、いずれの手法も勉強中なので、上記の記述は話半分ということで。

*1:後述するように、このデータでも、社会的属性も併せて聞いて、傾向スコアマッチングにかけるとよりよいかと思う。