タグ

Rに関するnuraiのブックマーク (2)

  • Rとデータマイニング入門 - 中年engineerの独り言 - crumbjp

    Rは5年以上前に、ちょこっと触ったのだけど 今や完全に忘却の彼方だったので、復習も兼ねて纏めてみた。 schemeの影響を受けてる為か関数型言語使いには優しい(^^; (無限があったり個人的にはHaskellっぽいかなと。。) R言語の特徴 データマイニングに利用されるOSS言語 関連するアルゴリズム実装が豊富 動的型付け 高階関数 無限OK ベクトル(行列)処理に特化 行列計算は意外と速い 説明変数が多くても大丈夫(複雑なモデルでもOK) そこそこのデータ規模で威力を発揮 TBクラスのデータは扱い切れない などなど、、 TIPS インストール yumで簡単に入ります。 $ yum install R コーディング 普通はRを起動するのでしょうが、僕はEmacs & Rscriptでコーディングします。 a.r #!/usr/bin/evn Rscript message("Hellow

    Rとデータマイニング入門 - 中年engineerの独り言 - crumbjp
    nurai
    nurai 2012/11/15
  • R で高速な (ユークリッド) 距離行列計算 | Atsushi TATSUMA Web Page

    はじめに 皆さんは R 好きですか?好きですよね。勉強会もたくさんありますもんね。 僕は嫌いです。遅いので。でも、書き方の工夫でなんとかなることもあります。 僕が研究室でやってることは、表向き検索ということになってるのですが、 やってることは、次元削減とかクラスタリングとか、そのあたりです。 データがなす空間を、解析するという点では、検索も機械学習も一緒ですね。 この、データが空間上でどういった感じになってるのか、の手がかりとなるモノに、 全データ点同士の距離があります。これを行列で表したものが、距離行列です。 距離には、だいたい、まずは、ユークリッド距離を試します。 R で距離行列を求める場合 dist 関数を使いますが、 ユークリッド距離だけに絞れば、自作した関数の方が速くなります。 2点間のユークリッド距離 いま、二次元のデータが、二点あるとします。 ちなみに、データ点

  • 1