行列屋さんの作業ログ

行列まわりで色々やってたエンジニアの作業メモ&国内外旅行記ブログ

dplyrでデータの集計を行う

大量(1億件くらい)のデータを集計する必要が生じた。 ということで今回は、Rであるラベル(複数)のデータがいくつ存在しているのか高速に集計するお話。 アンケートを取って、下のような結果が得られたとする。 adress <- sample(c('千葉','滋賀','佐賀'),siz…

Rで並列計算 パラメータを変えながら計算を回す

行列分解の一種、CUR分解をパラメータを色々変えながら実行してみようと思った。パラメータの組み合わせが500通り位あるので、せっかくだから並列化してみる。ということでサンプルコードを書く。2つの入力パラメータの積を返す、myprodという関数を定義した…