這期內(nèi)容當(dāng)中小編將會(huì)給大家?guī)?lái)有關(guān)Spark shell 詞頻統(tǒng)計(jì)和統(tǒng)計(jì)PV的心得是什么,文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
所有過(guò)程按本人實(shí)驗(yàn)并以本人能夠接受的方式理解的。
樣本數(shù)據(jù)
[hadoop@h301 ~]$ cat hh.txt
hello,world
hello,hadoop
hello,oracle
hadoop,oracle
hello,world
hello,hadoop
hello,oracle
hadoop,oracle
詞頻統(tǒng)計(jì),及其按單詞數(shù)量倒序排序過(guò)程及其詳解
1.將文件加載成RDD
Scala> var file=sc.textFile(“hdfs://h301:9000/hh.txt”)
2.將每行按逗號(hào)拆分,結(jié)果裝載到一個(gè)數(shù)組中,每次提取一個(gè)單詞, _代表每次輸入內(nèi)容的占位符
Scala> val h2=file.flatMap(_.split(“,”))
3. 將數(shù)組中的每個(gè)元素裝載到map方法中執(zhí)行統(tǒng)一的處理任務(wù),將輸入的每個(gè)單詞返回成k,v 鍵值對(duì),reduceByKey()方法只對(duì)value只運(yùn)行括號(hào)內(nèi)的方法進(jìn)行迭代計(jì)算_+_ 代表累加,返回的是k和進(jìn)行過(guò)迭代計(jì)算的v 鍵值對(duì)
Scala> val h3=h2.map(x=>(x,1)).reduceByKey(_+_)
4. 再用第二個(gè)map接收上一步的k,v鍵值對(duì)進(jìn)行交換位置輸出例如:
輸入的是(“hello”,5)變成(5,”hello”)
Scala> val h4=h3.map(_.2,_.1)
5. 將結(jié)果按key值排序
Scala> val h5=h5.sortByKey(false) false=倒序 true=升序
6. 在使用map函數(shù)將拍好序的鍵值對(duì)進(jìn)行交換例如:
(5,”hello”) (4,”hadoop”) 變成(“hello”,5)(“hadoop”,4)
Scala> val h6=h5.map(_.2,_.1)
7. 到此已經(jīng)完成了詞頻統(tǒng)計(jì)并按照單詞數(shù)量的降序進(jìn)行了排列已經(jīng)完成下一步可以將結(jié)果輸出到文件夾中,注意是一個(gè)目錄
Scala> h6.saveAsTextFile("hdfs://h201:9000/output1")
上述所有操作拆分為了方便理解,可以將所有操作合成一條代碼:如下
Scala > val wc = file.flatMap(_.split(",")).map(x=>(x,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).saveAsTextFile(“hdfs://h301:9000/output1”)
flatMap() 與 map() 的區(qū)別
flatMap() 與 map() 都是對(duì)輸入的每行內(nèi)容做同樣的操作但是產(chǎn)生的結(jié)果不相同;
例如樣本:
hello,world
hello,hadoop
hello,oracle
將文件導(dǎo)入成RDD =》var file=sc.textFile(“hdfs://xxx:9000/xx.txt”)
同樣是用split方法按逗號(hào)分隔
Var fm=file.flatMap(_.split(“,”)) 每行按逗號(hào)分隔后產(chǎn)生的結(jié)果解將每個(gè)單詞放在一個(gè)集合中,下面如果使用fm中的內(nèi)容是每次只會(huì)導(dǎo)入一個(gè)單詞:
用java表示就是{‘hello’,’world’,’hello’,’hadoop’,’hello’,’oracle’} 相當(dāng)于一維數(shù)組
Var m=file.map(_.split(“,”)) 每行按逗號(hào)分隔后產(chǎn)生的結(jié)果是將每行的變成一個(gè)字符串?dāng)?shù)組,再放到一個(gè)大的結(jié)果集中,下面如果使用m中的內(nèi)容每次導(dǎo)入一個(gè)數(shù)組:
用java表示就是{{‘hello’,’world’},{‘hello’,’hadoop’},{‘hello’,’oracle’}} 相當(dāng)于二維數(shù)組
這在使用Apache日志統(tǒng)計(jì)PV時(shí)很有用例如日志格式如下:
123.23.4.5 - - xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
23.12.4.5 - - xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
我們只需要取出按空格分隔的第一個(gè)列即可 這是使用flatMap就不合適了我們可以用map
Salca > var file=sc.textFile(“hdfs://h301:9000/access.log”)
Salca> var h2=file.map(_.split(“ ”,2)) #按空格分隔最多兩列
Salca> var h3=h2.map(x=>(x(0),1)) #輸入的數(shù)組去第0列,即可取出IP
Salca> var h4=h3.reduceByKey(_+_) #統(tǒng)計(jì)每個(gè)鏈接的登錄次數(shù)
下面就是排序和保存在這里就不在重復(fù)了。
上述就是小編為大家分享的Spark shell 詞頻統(tǒng)計(jì)和統(tǒng)計(jì)PV的心得是什么了,如果剛好有類似的疑惑,不妨參照上述分析進(jìn)行理解。如果想知道更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
文章名稱:Sparkshell詞頻統(tǒng)計(jì)和統(tǒng)計(jì)PV的心得是什么-創(chuàng)新互聯(lián)
當(dāng)前路徑:http://chinadenli.net/article10/dsjpgo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、移動(dòng)網(wǎng)站建設(shè)、定制開(kāi)發(fā)、標(biāo)簽優(yōu)化、網(wǎng)站內(nèi)鏈、網(wǎng)頁(yè)設(shè)計(jì)公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容