若き研究者の日常

技術寄りの事かポエムを書く。

(特にHCI)研究における検定の手順

この記事はCA Tech Lounge Advent Calendar 2023の14日目の記事,Human-Computer Interaction (HCI) Advent Calendar 202320日目の記事になります。

学部の統計の授業を受けてない/受けたけど定着してなかったかで研究室に放り込まれた人向け.

実際自分の体験談として,卒研配属でHuman Computer Interaction分野の研究室に配属され,ユーザスタディを行わざるを得なかったのですが, アンケートなり計測なりで実験群と統制群の定量的データを取ってきたはいいものの,実際何していいんや...ってなって当時M2の先輩方とうんしょうんしょと文献を調べてフローチャートを作った覚えがあります. 個人的に,そのM2の方は相当優秀な方だったため,なんでも知ってるんじゃないかと思っていたので意外に思った記憶があります. 他にも,論文を読んでいても中々検定をしっかり?していない(後述しますが効果量まで調べられている)ものも散見されます.

つまり,検定の手順を実践的な知識としてあんまり定着させられていない人達が多いんじゃなかろうかと思ってこの記事を作ってます. あくまで僕がユーザスタディにおいて用いる検定の手順を示しただけなので,実務で使うより上の詳しい理解までは及んでいない点も多々あります.また字義通りの意味で統計について完全に理解しているわけではないです.異議申し立てや改善点,修正点あればご連絡ください.

以下,大まかにユーザスタディで検定を行っている目的と,自分が把握している範囲のフローチャート,後それぞれのステップに分けてちょっとした説明をします.

目的

  1. (実験群のメトリクスに何らかの影響が出ているんじゃないかと予想)
  2. 実験群と統制群の差を調べる(群の差を調べると曖昧な表現がされているのは,検定によって平均値の差を取っていたり,中央値の差を取っていたりめちゃくちゃだからです.)
  3. 差がある場合は効果量(どの程度群の差があるのか)を調べる
  4. 効果量が微小でない場合は少なからず実験群に影響があったと言えるので,議論して勝ち

フローチャート

フローチャートを簡単に図に起こすとこんな感じ

Step 0.比較する群の数はどうか

サンプル数nは幾つなのかを調べましょう.

具体例*で行っていくと,「目の前を注視して下さいという実験.実験群は目の前にみかんが置かれており,統制群は何も目の前に物体が置かれていない.」みたいな実験を考えるとします.

すると,「視線のx軸方向への推移のピクセル数」みたいなのがメトリクスで,実験参加者のうち実験群に割り当てられた人間の数が実験群のサンプルサイズ,サンプル数は2になります(例えば目の前にリンゴが置かれる群もあれば,サンプル数は3になります).

サンプルサイズとサンプル数の違い

サンプル数が2の場合

Step 1. 正規性の確認

色々な検定は正規分布というものに従うことが前提で作られているものが多くあります.ここでは各群の分布が正規性に乗っているのかを検証します.大まかにサンプルサイズが大きい場合(クラウドソーシングタスクなどで参加者が多い場合はこっちになったりする)はKolmogorov-Smirnov検定,小さい場合(50以下ほど.被験者を伴う実験は大体こっちの方が多いと思います)はShapiro-Wilk検定を行います.詳しい検定の中身は割愛します.

Step 2. 検定

「検定」で群の間の差を調べていきます.

対応のあるt検定

パラメトリック(=全サンプルの正規性を仮定している)検定.2群間の平均値の差を求める方法.

Mann-Whitney U test ( or Wilcoxon Rank Sum test )

ノンパラメトリック検定(=正規性を担保できないサンプルがある場合の検定).二つの観察された分布の間の重なりの度合が偶然で期待されるよりも小さいかどうかを、「両標本が同じ母集団から抽出された」との帰無仮説に基づいて検定する方法.2群の代表値を比較しているらしいですが,中央値の時もあればそうで無い時もあるみたい.詳細はWikipediaで.

マン・ホイットニーのU検定 - Wikipedia

概して,ノンパラ検定は実際の計測値を順位に落としたり情報量を削って緩くしてるので,差がある無いでいうと無いにジャッジを切りやすくなっています(つまり正規性担保できるならパラ検定の方が検出力が高いのでそちらを使うべきということ).

特筆すべきことでもないかもですが,「差がある」はp値が有意水準より低いということで示せます.pはprobabilityから来ています.p値が小さいほど,その帰無仮説の元の検定統計量がその値となることはあまり起こりえないことを意味します(「2群間に差がない」が大体の帰無仮説なので,つまりp値が少ないほど「いや,差がない可能性は少ないんじゃないかなぁ...」みたいな感じが言えているということです).

Step 3. 差がある場合

「差がある」にしてもどの程度差があるのかを調べるため,効果量(Effect Size)を計算します.よく使われるのはCohen's dと呼ばれる指標です. これにより算出された効果量が大きければ大きいほど,実験群にのみ与えられた原因(薬だったり,実験システムだったり)が被験者のそのメトリクスに与える影響が大きかったということです.

とは言え,この効果量はメトリクスの大小関係などには言及していません.効果量が議論できるくらいであれば,各群のメトリクスの検定において差の確認をされていた基本統計量を算出しましょう(t検定なら平均値,Mann-Whitneyなら中央値など)

具体例で言うと,効果量が大だとして,メトリクス「視線のx軸方向への推移のピクセル数」の平均値や中央値が実験群の方が小さいことがわかった場合,「みかんを置いていた方が(めちゃくちゃ)有意に注視しやすかった」と言うことが言えるわけです. こういうところから論文の議論に持っていきます.

サンプル数が3以上の場合

こちらも基本的に同じです.友達と忘年会の約束があるため途中で切り上げますが(後で時間があれば追記します),Turkey検定(3群以上の検定でのt検定的な立ち位置)が正規性以上に等分散性も仮定することを除けばあとは大体同じです. Kruskal-Wallis検定を多重比較との前に挟む派の人たちもいますが,自分の意見としては多重比較で分かることはKruskal Wallisでわかることを包含しているのでKruskal-Wallisは要らないんじゃないかと思っています.

参考文献

http://ibis.t.u-tokyo.ac.jp/suzuki/lecture/2015/dataanalysis/L8.pdf

ウィルコクソンの順位和検定

Steel-Dwass検定(スティール・ドゥワス検定) - Python & R 統計 -

https://www.jstage.jst.go.jp/article/sjpr/60/4/60_379/_pdf

【統計の勉強】多群比較の手順③〜検定法を決めるまでの流れ|eiko_programming