【レビュー】Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク


【PR】この記事には広告を含む場合があります
  • 出版情報
  • ・著者:株式会社NTTデータ/著 猿田浩輔/著 土橋昌/著 吉田耕陽/著 佐々木徹/著 都築正宜/著 ほか
  • ・出版日:20151028
  • ・ページ数:320P
  • レビュー数
  • ・週間:0記事
  • ・月間:0記事
  • ・年間:0記事
  • ・全期間:1記事

ジャンルTop10選

目次

Apache Sparkは多数のコンピュータを並列で動かして高速処理を実現する技術です。大量データのバッチ処理や機械学習など、ビッグデータの分野での活用が期待されるOSS(Open Source Software)です。

Apache SparkはUCバークレイで提唱されたRDD(Resilient Distributed Dataset)というデータモデルを採用し、メモリを上手に活用した効率的な処理を実現します。これにより、並列分散処理において高いパフォーマンスが期待できます。また、分散処理フレームワークHadoopとの高い親和性を有しており、YARNやHDFSなどのHadoopシステムの枠組が利用できます。

本書はApache Sparkの概要からRDDによる処理の仕組み、導入やアプリケーション開発までを解説します。また、「SQLインターフェイス」「機械学習」「ストリーム処理」「グラフ」などApache Spark周辺のライブラリの活用についても説明します。

話題のApache Sparkの仕組みとその利用方法を理解することにより、データ処理の新しい潮流を知ることができます。


概要

ビッグデータ、機械学習、IoTなどの分野で、応用が期待される話題のオープンソースソフトを書下ろしで解説

レビューの一覧

 ・ログ分析基盤のアーキテクチャを振り返る [2019-04-17に投稿]


amazonで確認