大量(1億件くらい)のデータを集計する必要が生じた。 ということで今回は、Rであるラベル(複数)のデータがいくつ存在しているのか高速に集計するお話。 アンケートを取って、下のような結果が得られたとする。 adress <- sample(c('千葉','滋賀','佐賀'),siz…
行列分解の一種、CUR分解をパラメータを色々変えながら実行してみようと思った。パラメータの組み合わせが500通り位あるので、せっかくだから並列化してみる。ということでサンプルコードを書く。2つの入力パラメータの積を返す、myprodという関数を定義した…