追記('15/01/04):*_join()の図を追加しました。 新年早々、dplyrの新バージョンがリリースされるらしいです。 dplyr/NEWS.md at master · hadley/dplyr · GitHub 新機能についてはHadleyさんがRPubsに書いてるので、もうブログ書かなくてもいいかなーと思いつつ、修行のため使ってみます。 RPubs - dplyr-0.4 インストール まだCRANには来てないのでinstall_github()します。 devtools::install_github("dplyr") バージョン確認。 > packageVersion("dplyr") [1] ‘0.4.0’ add_rownames() add_rownames() turns row names into an explicit variable (#639). r
dplyr 0.3が次の金曜にCRANにくるらしいです。 Please try out dplyr 0.3 RC from https://t.co/1HYJga3pr2. So much new stuff! https://t.co/lwF3yJJJCf Will go to CRAN next Friday #rstats— Hadley Wickham (@hadleywickham) 2014, 9月 25 色々新機能があるとのことなので、ひとまず使ってみました。こういうのRPubsにあげるべきなのかなとか思いつつ、よく分からないのでひとまずブログに。 インストール (この部分は、10/4以降はたぶん不要。install.packages()で入れられるはず) library(devtools) install_github("hadley/lazyeval") install_
plyrパッケージにrbind.fillという関数がある。 データフレームをrbindする時、通常は列名が一致してないとエラーが出るのだが rbind.fillは一致していない列をNAで補完して結合してくれる。 で、dplyrパッケージの場合、rbind_all、rbind_listにその機能が含まれている。 rbind.fillするためだけにplyrパッケージをロードする必要なんてなかったんや!!! library(dplyr) > rbind_list(mtcars[1:5,c("mpg", "wt")], mtcars[1:5,c("wt", "cyl")]) mpg wt cyl 1 21.0 2.620 NA 2 21.0 2.875 NA 3 22.8 2.320 NA 4 21.4 3.215 NA 5 18.7 3.440 NA 6 NA 2.620 6 7 NA 2.87
5. 分析ツール ● R○ 無料,非エンジニアでも扱いやすい言語 ● Python ○ Numpy, Scipy, Scikit-learnなどの科学計算ライブラリ が充実。エンジニアに親しまれやすい ● Julia ○ 2012年登場,玄人向け, 開発段階 ● Excel ○ ほとんどの人が使える。ピボットテーブル便利 ● など Japan.Rでパネルディスカッションを 予定してます。 7. R言語の使い方に困ったら ● Rjpwiki ○ http://www.okada.jp.org/RWiki/ ● RPubs ○ https://rpubs.com/ ● seekR ○ http://seekr.jp/ ● R-tips ○ http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html ● JIN’S Page ○ http://www1.
正直誰でも知ってる関数だし他にも解説している記事はあるので今さらだが、dplyrパッケージのなんたら_each関数の使い方をまとめる。 なんたら_eachを知ることでコピペを連発していたうちの同僚は感動のあまり涙の海に沈んだ。 たとえば以下のように一つの列に対して複数の操作を加えたいことがある。 iris %>% group_by(Species) %>% summarise(MIN=min(Sepal.Length), MEAN=mean(Sepal.Length), MEDIAN=median(Sepal.Length), MAX=max(Sepal.Length) ) 1つの列ならまだいいが、これが複数の列になると心が闇に染まる。 iris %>% group_by(Species) %>% summarise(MIN_SL=min(Sepal.Length), MEAN_SL=me
dplyrのバージョンが2.0に上がって少し便利になりました。 詳しくは以下のリリースノートをご覧ください。 https://github.com/hadley/dplyr/releaain演算子)は皆様多用されているかと思いますがいかんせんシフトキーを一度離す必要があるのでタイプしづらい。ということでmagrittrパッケージから%>%演算子をインポートしてきたとのことです。%.%はいずれ廃止するけど、すぐじゃないからまあ慌てるなとも。 do()が生まれ変わった do()は今回のバージョンアップに伴い生まれ変わったとのことです(completely overhauled)。 正直な話、do()使っ
plyrは遅いと思っておりましたし実際そのような検証結果も2013のR Advent calendarで出ておりました。 まあ文法がggplot2と同じような感じなのでggplot脳の自分としてはまあ多少遅くても新しい文法覚えるよりましかとか思っていたわけです。 ただ、新しい文法覚えて集計がめちゃくちゃ速くなるんなら話は別だ。 ということで巷でめちゃくちゃ速いと評判のdplyrを使って集計時間を比較してみました。 実際速い。 追記(2014/1/19) CRANにdplyrがアップされていたので、githubからインストールする必要は無くなりました。 通常通りinstall.packagesでどうぞ。 追記(2014/2/24) 基本関数等については下記記事をご参照ください。 http://rpubs.com/dichika/dplyr_intro http://rpubs.com/dic
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く