R・データ分析

【R】大量・複雑なクロス集計を効率的に行う方法【実践篇】

2021年6月5日

この記事でわかること。

  • Rで複雑、大量のクロス集計を効率的に行う具体的なコードの書き方がわかります。
  • 実際にサンプルデータを使いながら説明するので、実践的な集計方法が身につきます。

サンプルデータを元にRを使って下のようなクロス集計表を作るためのコードを理解することが目的です。

集計の考え方は以前に紹介したこちらの記事を参照してください。

この記事で紹介するクロス集計の手順です。

メモ

  • 集計表に必要なデータ加工を行う(年齢から20代、30代・・などのデータを作成する)
  • 集計に必要な項目のデータを01の形にする(該当する列に1が入力され、非該当の列に0が入力されている形のデータを作成します)
  • 行列の計算(乗算)により実数表(N表)を作成する
  • 実数表を全体で割り算を行い、%表を作成する

まず集計に利用するサンプルデータを作成します。

データの概要としては、性別、年齢の属性データと、アンケートで回答するQ1~Q3です。

  • Q1:シングルアンサーのデータ(5つの選択肢から1つだけ回答するイメージ)
  • Q2:マルチアンサーのデータ(10個の選択肢からあてはまるものをいくつでも回答するイメージ。あてはまる選択肢は「1」、あてはまらない選択肢は「0」が入力されている。)
  • Q3:数量データ(金額のデータをイメージ)

サンプルデータを作成するコードはこちら。

 

では、早速先ほど作ったサンプルデータを利用してクロス集計を行いましょう。

集計表に必要なデータ加工を行う(年齢から20代、30代・・などのデータを作成する)

最終的な表にする際に選択肢の名称が思った通りの順番にならないことがあるので、アイテムごとに「01_」といったように連番を追加する加工を行います。(五十音順だと性別は、女性→男性の順になってしまう)

下のコードでは、データフレームdfに「seicate」というカラム名の列を追加し、「seicate」のデータは「01_男性」「02_女性」のいずれかが入るイメージです。

 

続いて、年齢のデータから10歳刻みのデータを作成します。

性別と同様に、「agecate」というカラム名で「01_20代」~「05_60代」がデータとして入力された列を追加します。

 

10歳刻みのデータと性別のデータを使って性年代のデータを作成します。

こちらも「seiage」というカラム名でデータの中身は「01_男性20代」~「10_女性60代」です。

 

Q3の数量のデータを500刻みでカテゴリー化します。

「Q3cate」というカラム名で「01_500以下」~「04_1501~2000」といったデータが入ります。

 

集計に必要な項目のデータを01の形にする

これまでの作業で作成したデータをそれぞれ01化する作業を行います。

例えば下のように性別の列を男性の01、女性の01といった形に変換をします。

性別

男性

女性

男性

女性

性別_男性

性別_女性

1

0

0

1

1

0

0

1

この変換作業はdummiesライブラリーのdummy.data.frame関数を利用します。

「変換したい元の列名+実際のデータ」の組合せて新しい列の名前が作成されますが、sepでは元の列名と実際のデータを結合する際の間に挟む文字列を指定します。

先ほどの性別のデータの例だと、元の列名が「性別」データは「男性」or「女性」です。sep=”_”と指定すると新しいカラム名は「性別_男性」「性別_女性」といった形になります。

 

実際のコードはこちら。

 

行列の計算(乗算)により実数表(N表)を作成する

ここまでで、集計に必要なデータの加工の準備は終わりました。続いて行列の計算を行いますが、簡単に意図の説明だけ復習します。

↓のように性別と年代のデータから表頭が年代(10代~30代)、表側が性別(男性~女性)の件数表(N表)を作成する場合は

性別_男性

性別_女性

年代_10代

年代_20代

年代_30代

1

0

1

0

0

0

1

0

1

0

1

0

0

0

1

0

1

0

1

0

0

1

1

0

0



性別のデータ(行列)を転置したものと、年代のデータ(行列)を下記の行列と考えて、

※性別に小さなtがついているのは、転置((i, j) 要素と (j, i) 要素を入れ替えてできる n 行 m 列の行列))していると言う意味です。

性別の転置行列と年代の行列の積を求めると、性別×年代の件数表が作成することができます。

上の行列は下の件数表を同じ意味です。

行列の数字と、下の表の数字を照らし合わせると同じものとわかると思います。(1行目・1列目は1、1行目2列目は0といった感じで全てのセルを確認してみてください。)

このあたりの理屈は、前の記事を確認してもらったほうが理解できると思います。

 

年代_10代

年代_20代

年代_30代

性別_男性

1

0

1

性別_女性

1

2

0

では、先ほど加工したデータを使って実際に行列の積を求めます。まず、件数表の項目(表の上側)に該当する行列を作成します。

ベース(N)とQ1~Q3が項目となっていますので、ベース(N)とQ1~Q3の01のデータとまとめた行列にを作成します。

※ベース(N)とは%を計算するうえでの母数(分母)となる部分です。

つまりこの件数表の場合、全員の人数、男性全体の件数、女性全体の件数、・・と言ったものが必要となります。項目の行列にすべてが「1」=該当するのデータを追加します。mutate(ベース= 1)の部分ですべてが「1」の列を追加、relocate(ベース)の部分でベースの列を一番最初に移動しています。

 

続いて、表の横の部分の行列を作成します。

 

 

行列の計算(乗算)により実数表(N表)を作成する

表の項目と表の横の部分ができたので、表の横の行列を転置して、これらの行列の積を求めます。

 

実数表を全体で割り算を行い%表を作成する

最後に実数表をベースで割り算と100倍することでパーセント表にします。

 

まとめ

改めて流れをおさらいすると、以下の通りです。

メモ

  • クロス集計表の完成イメージを作成する
  • クロス集計表の項目(表の上側)と表の横の部分の01データを作成する
  • 表の項目はmatrix形式に、表の横の部分は転置する
  • 3で作成したデータから行列の積を求める。
  • ベース(%の分母にあたる部分)で件数表を割り100倍する

普段の業務では、この流れに加えてチェック工程が入ります。

クロス集計の結果をすべてチェックすることは工数的にも難しいと思います。特に、表頭・表側の項目が増えると・・さらに厳しい。ただ、ノーチェックというわけにはいかないので、私は表頭と表側の件数のみをチェックすることにしています。

表頭、表側の件数が間違っていなければ、クロス集計の結果も間違いないだろう・・との考え方からです。その際、パーセントのデータだと計算誤差があるためチェックがしづらいので、4の行列の積を作成した時点の件数ベースでチェックをしています。

今回は簡単な例で説明しましたが、この方法でクロス集計を行うと表頭・表側の項目が増えても01の行列形式のデータにすればいいだけなのでそれほど作業量が増えません。

また、01化するのもdummy.data.frame関数を使えばよいだけなので、大変ではありますが大量の集計データを作成する場合はこの方法を使って作業することをお勧めします。

それでは。

-R・データ分析

© 2021 trunk28 Powered by AFFINGER5