一、Mahout簡介
成都創(chuàng)新互聯(lián)是一家專業(yè)提供蘇尼特右企業(yè)網(wǎng)站建設(shè),專注與網(wǎng)站設(shè)計制作、做網(wǎng)站、H5高端網(wǎng)站建設(shè)、小程序制作等業(yè)務(wù)。10年已為蘇尼特右眾多企業(yè)、政府機構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設(shè)計公司優(yōu)惠進(jìn)行中。Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Apache Mahout項目已經(jīng)發(fā)展到了它的第三個年頭,目前已經(jīng)有了三個公共發(fā)行版本。Mahout包含許多實現(xiàn),包括集群、分類、推薦過濾、頻繁子項挖掘。此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地擴展到云中。
(就是他,騎在象頭上的那個Mahout)
在Mahout實現(xiàn)的機器學(xué)習(xí)算法:
算法類 | 算法名 | 中文名 |
分類算法 | Logistic Regression | 邏輯回歸 |
Bayesian | 貝葉斯 | |
SVM | 支持向量機 | |
Perceptron | 感知器算法 | |
Neural Network | 神經(jīng)網(wǎng)絡(luò) | |
Random Forests | 隨機森林 | |
Restricted Boltzmann Machines | 有限波爾茲曼機 | |
聚類算法 | Canopy Clustering | Canopy聚類 |
K-means Clustering | K均值算法 | |
Fuzzy K-means | 模糊K均值 | |
Expectation Maximization | EM聚類(期望大化聚類) | |
Mean Shift Clustering | 均值漂移聚類 | |
Hierarchical Clustering | 層次聚類 | |
Dirichlet Process Clustering | 狄里克雷過程聚類 | |
Latent Dirichlet Allocation | LDA聚類 | |
Spectral Clustering | 譜聚類 | |
關(guān)聯(lián)規(guī)則挖掘 | Parallel FP Growth Algorithm | 并行FP Growth算法 |
回歸 | Locally Weighted Linear Regression | 局部加權(quán)線性回歸 |
降維/維約簡 | Singular Value Decomposition | 奇異值分解 |
Principal Components Analysis | 主成分分析 | |
Independent Component Analysis | 獨立成分分析 | |
Gaussian Discriminative Analysis | 高斯判別分析 | |
進(jìn)化算法 | 并行化了Watchmaker框架 | |
推薦/協(xié)同過濾 | Non-distributed recommenders | Taste(UserCF, ItemCF, SlopeOne) |
Distributed Recommenders | ItemCF | |
向量相似度計算 | RowSimilarityJob | 計算列間相似度 |
VectorDistanceJob | 計算向量間距離 | |
非Map-Reduce算法 | Hidden Markov Models | 隱馬爾科夫模型 |
集合方法擴展 | Collections | 擴展了java的Collections類 |
方法一、Mahout安裝、配置
一、下載Mahout
http://archive.apache.org/dist/mahout/
二、解壓
tar -zxvf mahout-distribution-0.9.tar.gz
三、配置環(huán)境變量
3.1、配置Mahout環(huán)境變量
# set mahout environment
export MAHOUT_HOME=/home/yujianxin/mahout/mahout-distribution-0.9
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
3.2、配置Mahout所需的Hadoop環(huán)境變量
# set hadoop environment
export HADOOP_HOME=/home/yujianxin/hadoop/hadoop-1.1.2
export HADOOP_CONF_DIR=$HADOOP_HOME/conf
export PATH=$PATH:$HADOOP_HOME/bin
export HADOOP_HOME_WARN_SUPPRESS=not_null
四、驗證Mahout是否安裝成功
執(zhí)行命令mahout。若列出一些算法,則成功,如圖:
五、使用Mahout 之入門級使用
5.1、啟動Hadoop
5.2、下載測試數(shù)據(jù)
http://archive.ics.uci.edu/ml/databases/synthetic_control/鏈接中的synthetic_control.data
5.3、上傳測試數(shù)據(jù)
hadoop fs -put synthetic_control.data /user/root/testdata
5.4 使用Mahout中的kmeans聚類算法,執(zhí)行命令:
mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
花費9分鐘左右完成聚類 。
5.5 查看聚類結(jié)果
執(zhí)行hadoop fs -ls /user/root/output,查看聚類結(jié)果。
Mahout是Hadoop的一種高級應(yīng)用。運行Mahout需要提前安裝好Hadoop。Hadoop的安裝網(wǎng)上很多,并不復(fù)雜,這里不再講述,接下來闡述怎么安裝Mahout。
1:下載二進(jìn)制解壓安裝。
到http://labs.renren.com/apache-mirror/mahout/0.7下載,我選擇下載二進(jìn)制包,直接解壓及可。
hadoop@ubuntu:~$ tar -zxvf mahout-distribution-0.7.tar.gz
2:配置環(huán)境變量:在/etc/profile,/home/hadoop/.bashrc中添加如下紅色信息
#set java environment
MAHOUT_HOME=/home/hadoop/mahout-distribution-0.7
PIG_HOME=/home/hadoop/pig-0.9.2
HBASE_HOME=/home/hadoop/hbase-0.94.3
HIVE_HOME=/home/hadoop/hive-0.9.0
HADOOP_HOME=/home/hadoop/hadoop-1.1.1
JAVA_HOME=/home/hadoop/jdk1.7.0
PATH=$JAVA_HOME/bin:$PIG_HOME/bin:$MAHOUT_HOME/bin:$HBASE_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/conf:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$HBASE_HOME/lib:$MAHOUT_HOME/lib:$PIG_HOME/lib:$HIVE_HOME/lib:$JAVA_HOME/lib/tools.jar
export MAHOUT_HOME
export PIG_HOME
export HBASE_HOME
export HADOOP_HOME
export JAVA_HOME
export HIVE_HOME
export PATH
export CLASSPATH
3:啟動hadoop,也可以用偽分布式來測試
4:mahout --help #檢查Mahout是否安裝完好,看是否列出了一些算法
5:mahout使用準(zhǔn)備
a.下載一個文件synthetic_control.data,下載地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data,并把這個文件放在$MAHOUT_HOME目錄下。
b.啟動Hadoop:$HADOOP_HOME/bin/start-all.sh
c.創(chuàng)建測試目錄testdata,并把數(shù)據(jù)導(dǎo)入到這個tastdata目錄中(這里的目錄的名字只能是testdata)
hadoop@ubuntu:~/$ hadoop fs -mkdir testdata # hadoop@ubuntu:~/$ hadoop fs -put /home/hadoop/mahout-distribution-0.7/synthetic_control.data testdata
d.使用kmeans算法(這會運行幾分鐘左右)
hadoop@ubuntu:~/$ hadoop jar /home/hadoop/mahout-distribution-0.7/mahout-examples-0.7-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
e.查看結(jié)果
hadoop@ubuntu:~/$ hadoop fs -lsr output
如果看到以下結(jié)果那么算法運行成功,你的安裝也就成功了。
clusteredPoints clusters-0 clusters-1 clusters-10 clusters-2 clusters-3 clusters-4 clusters-5 clusters-6 clusters-7 clusters-8 clusters-9 data
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
本文標(biāo)題:部署安裝Mahout-創(chuàng)新互聯(lián)
標(biāo)題網(wǎng)址:http://chinadenli.net/article2/ccgioc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、響應(yīng)式網(wǎng)站、軟件開發(fā)、域名注冊、網(wǎng)站改版、動態(tài)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容