PythonからSparkを利用するための機能、PySparkを使いこなすテクニックとノウハウを習得する書籍です。はじめに高速になったSpark 2.0の特徴とアーキテクチャを解説し、次に構造化及び非構造化データの読み取り、PySparkで利用できる基本的なデータ型、MLlibとMLパッケージによる機械学習モデルの構築を説明します。さらにGraphFramesを使ったグラフの操作、ストリーミングデータの読み取り、クラウドへのモデルのデプロイなどの方法を豊富なサンプルと一緒に学びます。またローカルでのSpark+Python+Jupyter環境の構築方法も紹介。大規模なデータを処理し、活用したいエンジニア必携の一冊です。 序文 訳者まえがき はじめに 1章 Sparkを理解する 1.1 Apache Sparkとは 1.2 Sparkのジョブと
本書は、データサイエンスの4人のエキスパートがSparkでの高度な分析方法を解説するとともに、より実践的なデータサイエンスを学ぶ書籍です。ビッグデータ分析におけるSparkの位置づけを紹介し、ベストな結果を得るためのデータの準備やモデルのチューニングについて解説します。またデータクレンジングのユースケースを通じてSparkとScalaによるデータ処理の基本を学習し、Sparkを使った機械学習の基礎や応用分野における広く使われる一般的なアルゴリズムを紹介します。日本語版では付録として高柳慎一氏と牧山幸史氏による「SparkRについて」と千葉立寛氏、小野寺民也氏による「SparkのJVM、システムレベルのチューニングによる高速化」を掲載。高度なデータ解析を習得したいデータサイエンティスト必携の一冊です。 目次 序文 訳者まえがき はじめに 1章 ビッグデータの分析 1.1 データサイエンスの挑
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く