SparkSQL(Spark

  • 时间:
  • 浏览:1
  • 来源:uu快3官方网站_uu快3苹果版_走势

假设Spark-1.4.0集群不可能 搭建好了,搭建方式见该人另一篇文章,Spark-1.4.0集群搭建http://blog.csdn.net/lovehuangjiaju/article/details/46883973

1 上传测试数据到hdfs上。本实验数据取自http://blog.csdn.net/bluejoe2000/article/details/41247857

中的sparkSQL_data.zip,关于数据的描述都时要参考对应博客中的文章,将sparkSQL_data.zip上传到SparkMaster,过后正确处理到根目录,利用hadoop fs -put /data / 进行文件上传,上传后的结果如下图:

DataFrames具有如下特点:

获取更多内容都时要关注公众微信号 ScalaLearning

DataFrames在Spark-1.3.0中引入,主要正确处理使用Spark RDD API使用的门槛,使熟悉R语言等的数据分析师才能快速上手Spark下的数据分析工作,极大地扩大了Spark使用者的数量,不可能 DataFrames脱胎自SchemaRDD,过后它天然冰适用于分布式大数据场景。相信在不久的将来,Spark将是大数据分析的终极归宿。

2 从HDFS文件创建DataFrame,并进行相关操作

在spark安装目录中执行root@sparkmaster:/hadoopLearning/spark-1.4.0-bin-hadoop2.4# bin/spark-shell ,在Spark-1.4.0中,spark-shell除了自动创建SparkContext实例sc外,都在自动创建SQLContext实例sqlContext

在Spark中,DataFrame是五种 以RDD为基础的分布式数据集,与传统RDBMS的表形状类似于。与一般的RDD不同的是,DataFrame饱含 schema元信息,即DataFrame所表示的表数据集的每一列都饱含 名称和类型,它对于数据的实物形状具有很强的描述能力。过后Spark SQL都时要对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化,最终达到大幅提升运行时下行数率 。

3 注册成表,并进行SparkSQL操作

本文主次内容译自https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html

从中都时要看得人DataFrame是带类型的

这是本节关于DataFrames的基础操作,后期当.我.我将对DataFrames实物原理、Schema及相关API的完全使用进行深入介绍。

本教程中所有例子跑在Spark-1.4.0集群上