|
|
書(shū)結(jié)合理論和實(shí)踐,由淺入深,全方位介紹了Hadoop這一高性能的海量數(shù)據(jù)處理和分析平臺(tái)。全書(shū)5部分24章,第Ⅰ部分介紹Hadoop基礎(chǔ)知識(shí),主題涉及Hadoop、MapReduce、Hadoop分布式文件系統(tǒng)、YARN、Hadoop的I/O操作。第Ⅱ部分介紹MapReduce,主題包括MapReduce應(yīng)用開(kāi)發(fā);MapReduce的工作機(jī)制、MapReduce的類型與格式、MapReduce的特性。第Ⅲ部分介紹Hadoop的運(yùn)維,主題涉及構(gòu)建Hadoop集群、管理Hadoop。第Ⅳ部分介紹Hadoop相關(guān)開(kāi)源項(xiàng)目,主題涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三個(gè)案例,分別來(lái)自衛(wèi)生信息技術(shù)服務(wù)商塞納(Cerner)、微軟的人工智能項(xiàng)目ADAM(一種大規(guī)模分布式深度學(xué)習(xí)框架)和開(kāi)源項(xiàng)目Cascading(一個(gè)新的針對(duì)MapReduce的數(shù)據(jù)處理API)。本書(shū)是一本權(quán)wei、全面的Hadoop參考書(shū)和工具書(shū),闡述了Hadoop生態(tài)圈的zui新發(fā)展和應(yīng)用,程序員可以從中探索海量數(shù)據(jù)集的存儲(chǔ)和分析,管理員可以從中了解Hadoop集群的安裝和運(yùn)維。
-|-_-|-
|
|