行列屋さんの作業ログ

行列まわりで色々やってたエンジニアの作業メモ&国内外旅行記ブログ

R

一行ごとのJSONをRで読み書きする.

久しぶりに旅行記以外のものを執筆します.データ入出力の形式として現在はJSONがとにかく広く使われている気がします.私のプロジェクトでもJSONを頻繁に使うのですが,1行毎にJSONのオブジェクトが格納され末尾にカンマがないという,ちょっと特殊なJSON(…

パケットデータ(pcap)をRで読み込む話

tcpdumpで取得したパケットのキャプチャデータをRに読み込ませる話。遊びでパケットキャプチャしてみたけど結果が見難い。じゃあいつも使ってるRで読ませてみましょうと考えた。wiresharkや、そのCUI版であるTsharkを使えばキャプチャデータをcsvに変換出来…

dplyrでデータの集計を行う

大量(1億件くらい)のデータを集計する必要が生じた。 ということで今回は、Rであるラベル(複数)のデータがいくつ存在しているのか高速に集計するお話。 アンケートを取って、下のような結果が得られたとする。 adress <- sample(c('千葉','滋賀','佐賀'),siz…

Rで並列計算 パラメータを変えながら計算を回す

行列分解の一種、CUR分解をパラメータを色々変えながら実行してみようと思った。パラメータの組み合わせが500通り位あるので、せっかくだから並列化してみる。ということでサンプルコードを書く。2つの入力パラメータの積を返す、myprodという関数を定義した…