[toc]
專注于為中小企業(yè)提供做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)合肥免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了超過千家企業(yè)的穩(wěn)健成長,幫助中小企業(yè)通過網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。
其實(shí)并不難,就是使用sqoop定時(shí)從MySQL中導(dǎo)入到HDFS中,主要是sqoop命令的使用和Linux腳本的操作這些知識。
在我們的場景中,需要每天將數(shù)據(jù)庫中新增的用戶數(shù)據(jù)采集到HDFS中,數(shù)據(jù)庫中有time字段,
用以標(biāo)識該用戶信息錄入數(shù)據(jù)庫的時(shí)間,所以下面的數(shù)據(jù)導(dǎo)入操作也是依賴于這個(gè)字段。
在MySQL數(shù)據(jù)庫中準(zhǔn)備如下數(shù)據(jù):
##構(gòu)建sql的操作
create DATABASE IF NOT EXISTS db_log_statics;
use db_log_statics;
CREATE TABLE `t_user_info` (
`id` bigint(20) NOT NULL,
`name` varchar(20) COLLATE utf8_bin DEFAULT NULL,
`address` varchar(20) COLLATE utf8_bin DEFAULT NULL,
`time` date DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('1','張三','北京朝陽','2018-04-05');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('2','李四','河南洛陽','2018-04-05');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('3','王五','廣東邵陽','2018-04-05');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('4','趙六','山東德州','2018-04-07');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('5','周七','山東青島','2018-04-07');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('6','魏八','福建廈門','2018-04-07');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('7','王二麻子','山西五臺山','2018-04-06');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('8','王大錘','陜西榆林','2018-04-06');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('9','燕小六','云南大理','2018-04-06');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('10','雷布斯','湖北仙桃','2018-04-06');
#!/bin/env bash
# shell中引用外部文件的變量
source /home/uplooking/shells/db-mysql.conf
# source 系統(tǒng)的環(huán)境變量
source ~/.bash_profile
# 日期變量
today=`date +%Y-%m-%d`
yesterday=`date -d"1 day ago" +%Y-%m-%d`
/home/uplooking/app/sqoop/bin/sqoop import \
--connect jdbc:mysql://${stat_ipaddr}:${stat_port}/${stat_dbname} \
--username ${stat_uname} \
--password ${stat_upwd} \
--target-dir hdfs://ns1/input/t_user/${yesterday} \
--query "SELECT id, name, address, time FROM t_user_info WHERE time >='${yesterday}' AND time < '${today}' AND \$CONDITIONS" \
-m 1 --fields-terminated-by "," --split-by ","
#統(tǒng)計(jì)庫數(shù)據(jù)庫ip地址
stat_ipaddr=192.168.43.116
#統(tǒng)計(jì)庫端口
stat_port=3306
#統(tǒng)計(jì)庫名稱
stat_dbname=db_log_statics
#統(tǒng)計(jì)庫用戶名
stat_uname=root
#統(tǒng)計(jì)庫密碼
stat_upwd=root
crontab -e
# 要求每天凌晨2點(diǎn)10分同步數(shù)據(jù)
10 2 * * * /bin/bash /home/uplooking/shells/exportUser2HDFS.sh >/dev/null 2>&1 &
需要注意的是,如果在Notepad++中遠(yuǎn)程編輯shell腳本文件,在Linux中是無法執(zhí)行的,原因?yàn)?,此時(shí)在Linux中用vim查看文件格式:set ff,會發(fā)現(xiàn)為:fileformat=dos,而正常我們在Linux中編輯的文件應(yīng)該為:fileformat=unix,所以解決方案為:set ff=unix
網(wǎng)頁名稱:RDBMS數(shù)據(jù)定時(shí)采集到HDFS
轉(zhuǎn)載注明:http://chinadenli.net/article34/joegpe.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄、定制開發(fā)、網(wǎng)站設(shè)計(jì)、響應(yīng)式網(wǎng)站、網(wǎng)站營銷、網(wǎng)站排名
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)