图灵程序设计丛书 Spark高级数据分析 Advanced Analytics with Spark [美] Sandy Ryza [美] Uri Laserson [英] Sean Owen [美] Josh Wills 著 龚少成 译 Beijing • Cambridge • Farnham • Köln • Sebastopol • Tokyo O’Reilly Media, Inc.授权人民邮电出版社出版 人民邮电出版社 北 京 内 容 提 要 本书是使用 Spark 进行大规模数据分析的实战宝典,由著名大数据公司 Cloudera 的数据科学 家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了 Spark,然后介绍了用 Spark 和 Scala 进行数据处理的基础知识,接着讨论了如何将 Spark 用于机器学习,同时介绍了常见应 用中几个最常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询 Wikipedia 或分析基因数据。 本书适合从事大数据分析的各类专业人员阅读。 ◆ 著 [美] Sandy Ryza [美] Uri Laserson [英] Sean Owen [美] Josh Wills 译 龚少成 责任编辑 岳新欣 执行编辑 李松峰 责任印制 杨林杰 ◆ 人民邮电出版社出版发行 北京市丰台区成寿寺路11号 邮编 100164 电子邮件 315@ptpress.com.cn 网址 http://www.ptpress.com.cn 北京 印刷 ◆ 开本:800×1000 1/16 印张:15.25 字数:360千字 印数:1 — 4 000册 著作权合同登记号 2015年 11 月第 1 版 2015年 11 月北京第 1次印刷 图字:01-2015-3956号 定价:59.00元 读者服务热线:(010)51095186转600 印装质量热线:(010)81055316 反盗版热线:(010)81055315 广告经营许可证:京崇工商广字第 0021 号 版权声明 © 2015 by Sandy Ryza, Uri Laserson, Sean Owen, and Josh Wills. Simplified Chinese Edition, jointly published by O’Reilly Media, Inc. and Posts & Telecom Press, 2015. Authorized translation of the English edition, 2015 O’Reilly Media, Inc., the owner of all rights to publish and sell the same. All rights reserved including the rights of reproduction in whole or in part in any form. 英文原版由 O’Reilly Media, Inc. 出版,2015。 简体中文版由人民邮电出版社出版,2015。英文原版的翻译得到 O’Reilly Media, Inc. 的 授权。此简体中文版的出版和销售得到出版权和销售权的所有者——O’Reilly Media, Inc. 的许可。 版权所有,未得书面许可,本书的任何部分和全部不得以任何形式重制。 iii O’Reilly Media, Inc.介绍 O’Reilly Media 通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。 自 1978 年开始,O’Reilly 一直都是前沿发展的见证者和推动者。超级极客们正在开创 着未来,而我们关注真正重要的技术趋势——通过放大那些“细微的信号”来刺激社 会对新科技的应用。作为技术社区中活跃的参与者,O’Reilly 的发展充满了对创新的 倡导、创造和发扬光大。 O’Reilly 为软件开发人员带来革命性的“动物书”;创建第一个商业网站(GNN);组 织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立了 Make 杂志, 从而成为 DIY 革命的主要先锋;公司一如既往地通过多种形式缔结信息与人的纽带。 O’Reilly 的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖,共同描绘出开创 新产业的革命性思想。作为技术人士获取信息的选择,O’Reilly 现在还将先锋专家的 知识传递给普通的计算机用户。无论是通过书籍出版、在线服务或者面授课程,每一 项 O’Reilly 的产品都反映了公司不可动摇的理念——信息是激发创新的力量。 业界评论 “O’Reilly Radar 博客有口皆碑。” ——Wired “O’Reilly 凭借一系列(真希望当初我也想到了)非凡想法建立了数百万美元的业务。” ——Business 2.0 “O’Reilly Conference 是聚集关键思想领袖的绝对典范。” ——CRN “一本 O’Reilly 的书就代表一个有用、有前途、需要学习的主题。” ——Irish Times “Tim 是位特立独行的商人,他不光放眼于最长远、最广阔的视野,并且切实地按照 Yogi Berra 的建议去做了:‘如果你在路上遇到岔路口,走小路(岔路)。’回顾过去, Tim 似乎每一次都选择了小路,而且有几次都是一闪即逝的机会,尽管大路也不错。” ——Linux Journal 目录 推荐序 ..................................................................................................................................................... ix 译者序 ..................................................................................................................................................... xi 序 ............................................................................................................................................................xiii 前言......................................................................................................................................................... xv 第 1 章 大数据分析 ........................................................................................................................... 1 1.1 数据科学面临的挑战 ................................................................................................................. 2 1.2 认识 Apache Spark ..................................................................................................................... 4 1.3 关于本书 ..................................................................................................................................... 5 第 2 章 用 Scala 和 Spark 进行数据分析 ................................................................................... 7 2.1 数据科学家的 Scala ................................................................................................................... 8 2.2 Spark 编程模型........................................................................................................................... 9 2.3 记录关联问题 ............................................................................................................................. 9 2.4 小试牛刀:Spark shell 和 SparkContext ................................................................................ 10 2.5 把数据从集群上获取到客户端 ............................................................................................... 15 2.6 把代码从客户端发送到集群 ................................................................................................... 18 2.7 用元组和 case class 对数据进行结构化 ..................................................................
Spark高级数据分析
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
本文档由 user 于 2021-03-14 08:40:48上传分享