這篇文章給大家分享的是有關(guān)python中有沒有spark庫的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考。一起跟隨小編過來看看吧。

從這個名字pyspark就可以看出來,它是由python和spark組合使用的.
相信你此時已經(jīng)電腦上已經(jīng)裝載了hadoop,spark,python3.
Spark提供了一個Python_Shell,即pyspark,從而可以以交互的方式使用Python編寫Spark程序。
pyspark里最核心的模塊是SparkContext(簡稱sc),最重要的數(shù)據(jù)載體是RDD。RDD就像一個NumPy array或者一個Pandas Series,可以視作一個有序的item集合。只不過這些item并不存在driver端的內(nèi)存里,而是被分割成很多個partitions,每個partition的數(shù)據(jù)存在集群的executor的內(nèi)存中。
引入Python中pyspark工作模塊
import pyspark
from pyspark import SparkContext as sc
from pyspark import SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf)
#任何Spark程序都是SparkContext開始的,SparkContext的初始化需要一個SparkConf對象,SparkConf包含了Spark集群配置的各種參數(shù)(比如主節(jié)點的URL)。初始化后,就可以使用SparkContext對象所包含的各種方法來創(chuàng)建和操作RDD和共享變量。Spark shell會自動初始化一個SparkContext(在Scala和Python下可以,但不支持Java)。
#getOrCreate表明可以視情況新建session或利用已有的sessionSparkSession是Spark 2.0引入的新概念。
SparkSession為用戶提供了統(tǒng)一的切入點,來讓用戶學(xué)習(xí)spark的各項功能。 在spark的早期版本中,SparkContext是spark的主要切入點,由于RDD是主要的API,我們通過sparkcontext來創(chuàng)建和操作RDD。對于每個其他的API,我們需要使用不同的context。
例如,對于Streming,我們需要使用StreamingContext;對于sql,使用sqlContext;對于hive,使用hiveContext。但是隨著DataSet和DataFrame的API逐漸成為標(biāo)準(zhǔn)的API,就需要為他們建立接入點。所以在spark2.0中,引入SparkSession作為DataSet和DataFrame API的切入點。
SparkSession實質(zhì)上是SQLContext和HiveContext的組合(未來可能還會加上StreamingContext),所以在SQLContext和HiveContext上可用的API在SparkSession上同樣是可以使用的。SparkSession內(nèi)部封裝了SparkContext,所以計算實際上是由SparkContext完成的。
感謝各位的閱讀!關(guān)于python中有沒有spark庫就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!
本文題目:python中有沒有spark庫-創(chuàng)新互聯(lián)
鏈接URL:http://chinadenli.net/article38/cdospp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、建站公司、定制開發(fā)、網(wǎng)站制作、用戶體驗、企業(yè)網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)