互聯(lián)網(wǎng)IDC圈4月28日?qǐng)?bào)道,互聯(lián)網(wǎng)的發(fā)展使得大數(shù)據(jù)引起人們廣泛關(guān)注?,F(xiàn)如今大數(shù)據(jù)技術(shù)早已滲透到金融、通訊等行業(yè)以及生物學(xué)、物理學(xué)等領(lǐng)域。大數(shù)據(jù)在容量、多樣性和高增速方面的爆炸式增長(zhǎng)全面考驗(yàn)著現(xiàn)代企業(yè)的數(shù)據(jù)處理和分析能力,與此同時(shí)也為各個(gè)行業(yè)帶來(lái)了準(zhǔn)確洞察市場(chǎng)行為的機(jī)會(huì)。迄今為止大數(shù)據(jù)技術(shù)與產(chǎn)品有哪些創(chuàng)新,工業(yè)大數(shù)據(jù)應(yīng)用面臨哪些挑戰(zhàn),金融行業(yè)大數(shù)據(jù)應(yīng)用現(xiàn)狀如何等。圍繞這一系列問(wèn)題,4月27日至28日,由工業(yè)和信息化部指導(dǎo)、中國(guó)信息通信研究院主辦的"2016大數(shù)據(jù)產(chǎn)業(yè)峰會(huì)"在北京國(guó)際會(huì)議中心盛大召開(kāi)。28日上午大數(shù)據(jù)推動(dòng)金融創(chuàng)新分論壇北京大學(xué)信息管理系研究員、助理教授化柏林做了主題演講。
北京大學(xué)信息管理系研究員、助理教授化柏林
以下是化柏林演講實(shí)錄:
化柏林:很高興有這樣一個(gè)機(jī)會(huì)對(duì)多源數(shù)據(jù)融合的研究跟大家做一個(gè)交流,剛才聽(tīng)了工行和建行兩位老總的介紹,我感覺(jué)心里特別踏實(shí),為什么說(shuō)踏實(shí)?因?yàn)槲业墓べY在工行里,我的公積金在建行里,我的主要收入都在這兩個(gè)銀行里。大家通過(guò)這兩個(gè)PPT可以發(fā)現(xiàn)一些共性,這個(gè)共性就是他們是在文地中談創(chuàng)新,這是銀行特別是國(guó)有銀行的風(fēng)格。我們談互聯(lián)網(wǎng)談大數(shù)據(jù)創(chuàng)新的新型企業(yè)不是這樣的思維模式,上來(lái)就是講顛覆,就是拋棄一切。前面那種技術(shù)平臺(tái)的架構(gòu)都是從過(guò)去的技術(shù)開(kāi)始逐步演進(jìn)過(guò)來(lái),錢(qián)放在這兩個(gè)銀行里我是放心的。
他們的差異性和信息安全的問(wèn)題。我先舉一個(gè)例子,前年斯諾登事件爆出來(lái)之后,很多新聞媒體都在說(shuō)個(gè)人隱私信息泄露的問(wèn)題,一個(gè)國(guó)家一個(gè)組織花這么多錢(qián)關(guān)注數(shù)據(jù)和媒體,他會(huì)關(guān)注一個(gè)普通網(wǎng)民的個(gè)人信息嗎?我覺(jué)得是不會(huì)的。除非作為用戶(hù)的群體去分析這個(gè)群體的特征。棱鏡計(jì)劃主要關(guān)注什么,第一是恐怖,第二宗教文化變遷的戰(zhàn)略影響。第三,中國(guó)與發(fā)展中國(guó)家的科學(xué)技術(shù)與軍事轉(zhuǎn)型,我們國(guó)家每年的863計(jì)劃、973計(jì)劃、十一五重大專(zhuān)項(xiàng)等等項(xiàng)目,每當(dāng)我們公布出名單,國(guó)外就會(huì)迅速地跟蹤和分析。國(guó)內(nèi)搞科技情報(bào),我們也是一樣,美國(guó)每年出來(lái)一些新項(xiàng)目,他們的大飛機(jī)、航空航天領(lǐng)域的技術(shù)也會(huì)迅速地被我們跟蹤。還有能源和環(huán)境的目標(biāo)任務(wù)。要實(shí)現(xiàn)一些目標(biāo)的基礎(chǔ),像谷歌、Facebook的數(shù)據(jù),基于這樣的數(shù)據(jù)類(lèi)型,我們?cè)谙雰H僅有這樣的數(shù)據(jù)無(wú)法實(shí)現(xiàn)剛才的目標(biāo),要實(shí)現(xiàn)這樣的目標(biāo)就得把這些信息融合起來(lái),通過(guò)谷歌的檢索日志可以看出關(guān)注信息點(diǎn)的興趣及變化,根據(jù)Facebook、paltalk可以看出社交。把所有信息融合到一起,對(duì)一個(gè)用戶(hù)的畫(huà)像,對(duì)恐怖分子的頭會(huì)有更加清晰的認(rèn)識(shí)。這對(duì)于我們金融大數(shù)據(jù)也有一定的借鑒和參考意義。
再來(lái)看一個(gè)例子,這是在網(wǎng)上廣泛流傳的例子,根據(jù)丹麥的統(tǒng)計(jì)數(shù)據(jù),截止到2002年42萬(wàn)人中有14249人被確診患癌癥,按照流行病的預(yù)測(cè)有1.5萬(wàn)例,預(yù)測(cè)使用手機(jī)和癌癥的發(fā)生并無(wú)直接關(guān)聯(lián)。只看這個(gè)案例好像沒(méi)什么問(wèn)題,根據(jù)WHO的統(tǒng)計(jì),全球前十名癌癥發(fā)病率的國(guó)家分別為丹麥、愛(ài)爾蘭、澳大利亞等,看這個(gè)指標(biāo),發(fā)病率是一個(gè)好的指標(biāo),排在前邊幾位的都是非常發(fā)達(dá)國(guó)家的國(guó)家或者是國(guó)民福利比較好的國(guó)家。但是我們把這兩個(gè)數(shù)據(jù)放在一起,第一個(gè)數(shù)據(jù)42萬(wàn)人里有14249,概率是3.4%。第二個(gè)數(shù)據(jù)10萬(wàn)人里有326,數(shù)據(jù)僅為0.33%,這兩個(gè)數(shù)據(jù)放在一起我們可以斷定肯定有一個(gè)數(shù)據(jù)是錯(cuò)的,因?yàn)椴盍艘粋€(gè)數(shù)據(jù)級(jí)。我們查了原文,第一個(gè)例子是錯(cuò)的,這個(gè)例子在網(wǎng)上流傳得很多,單看單個(gè)數(shù)據(jù)沒(méi)有問(wèn)題,但是在不同數(shù)據(jù)放在一起做交叉驗(yàn)證和融合,可能會(huì)有一些問(wèn)題和發(fā)現(xiàn),對(duì)于金融大數(shù)據(jù)也有借鑒和參考意義。我把不同類(lèi)型的數(shù)據(jù)放在一起去做融合、交叉和比對(duì)就會(huì)發(fā)生一些新的問(wèn)題,對(duì)于風(fēng)險(xiǎn)的防控會(huì)有更好的監(jiān)測(cè)。
大數(shù)據(jù)特點(diǎn)與分析理念,三年前談還有人聽(tīng),現(xiàn)在再談已經(jīng)沒(méi)有人聽(tīng)了。除了這三個(gè)理念的轉(zhuǎn)變,數(shù)據(jù)的基礎(chǔ)、過(guò)程、目標(biāo)上還有一點(diǎn)很重要的,過(guò)去我們注重單一的數(shù)據(jù),現(xiàn)在我們需要多元的數(shù)據(jù),我們用單一的數(shù)據(jù)去寫(xiě)數(shù)字報(bào)告已經(jīng)很難吸引人,去得到領(lǐng)導(dǎo)的肯定和關(guān)注了。不同的企業(yè)在尋求跨界和融合,去打通數(shù)據(jù),使數(shù)據(jù)的價(jià)值有倍增的效應(yīng)。為什么這么說(shuō)?一方面是單一的數(shù)據(jù)有失全面性,無(wú)法全面刻畫(huà)事物及事物運(yùn)動(dòng)的變化。單一數(shù)據(jù)的可靠性和真實(shí)性有時(shí)候難以判定,通過(guò)多源數(shù)據(jù)的交叉引證有助于對(duì)數(shù)據(jù)的真?zhèn)涡员鎰e,數(shù)據(jù)越來(lái)越大,我們辨別數(shù)據(jù)真?zhèn)蔚哪芰τ写谔岣?。從單一?shù)據(jù)里發(fā)現(xiàn)的洞察是非常單一的。多元數(shù)據(jù)可以有更多的發(fā)現(xiàn)。
多元數(shù)據(jù)的理論。融合過(guò)去起源于軍事領(lǐng)域,在傳感器、地理空間就是我們所說(shuō)的硬數(shù)據(jù)里得到了應(yīng)用和發(fā)展,但是隨著社會(huì)網(wǎng)絡(luò)的發(fā)展,隨著人際交際數(shù)據(jù)獲取的越來(lái)越容易,所以注重軟數(shù)據(jù)的融合也開(kāi)始走向了新的應(yīng)用和發(fā)展。我們通過(guò)形式表現(xiàn)方面,多元表示,工行叫機(jī)構(gòu)建行叫單位,指的同樣的事物,不同的數(shù)據(jù)融合的時(shí)候涉及到表示的問(wèn)題,語(yǔ)法結(jié)構(gòu)層次做相關(guān)的分析和揭示。邏輯語(yǔ)義層,意義建構(gòu)理論解釋它的內(nèi)容。
現(xiàn)在的多源數(shù)據(jù)融合,包括三方面,多源、異構(gòu)、多語(yǔ)種,多語(yǔ)種現(xiàn)在說(shuō)得比較少,真正做多源數(shù)據(jù)融合,我是搞科技情報(bào)的,所以我們經(jīng)常關(guān)注國(guó)外的文獻(xiàn)。昨天有人講到一帶一路,一帶一路一定會(huì)涉及到多源數(shù)據(jù),獲取土庫(kù)曼斯坦的數(shù)據(jù),無(wú)論是中文還是英文的數(shù)據(jù)非常少,像這些國(guó)家一定要把多語(yǔ)種的數(shù)據(jù)融合到一起,這里面帶來(lái)很多技術(shù)的問(wèn)題。同型異源,比如都是消費(fèi)的數(shù)據(jù)、存款的數(shù)據(jù)。還有異質(zhì)異構(gòu),比如理財(cái)產(chǎn)品。
科技情報(bào)里經(jīng)常用期刊論文、會(huì)議項(xiàng)目、著作專(zhuān)利、學(xué)術(shù)論文,電子商務(wù)文獻(xiàn)的發(fā)現(xiàn),發(fā)現(xiàn)電子商務(wù)最高的高峰是2000年,電子商務(wù)產(chǎn)業(yè)是2010年后才有爆發(fā)式的增長(zhǎng),通過(guò)文獻(xiàn)和產(chǎn)業(yè)有十年之久,通過(guò)學(xué)術(shù)論文的文獻(xiàn)來(lái)預(yù)測(cè)專(zhuān)利,通過(guò)專(zhuān)利來(lái)預(yù)測(cè)一些技術(shù)的市場(chǎng),根據(jù)不同類(lèi)型的信息的時(shí)間差的規(guī)律,去尋找這種規(guī)律,利用這種規(guī)律來(lái)進(jìn)行預(yù)測(cè)。我用產(chǎn)業(yè)的數(shù)據(jù)去預(yù)測(cè)產(chǎn)業(yè)是預(yù)測(cè)不出來(lái)的,用同一個(gè)數(shù)據(jù)去預(yù)測(cè)同一個(gè)數(shù)據(jù)是很難的。數(shù)據(jù)的融合涉及到線上與線下,歷史的數(shù)據(jù)和實(shí)時(shí)的數(shù)據(jù),金融行業(yè)積累了大量的歷史數(shù)據(jù),和實(shí)時(shí)數(shù)據(jù)的融合也非常關(guān)鍵。
現(xiàn)在大家強(qiáng)調(diào)大數(shù)據(jù)的實(shí)時(shí)性,我突然感覺(jué)有時(shí)候歷史的數(shù)據(jù)特別重要,比如今天早上開(kāi)車(chē)過(guò)來(lái)開(kāi)會(huì),我并不關(guān)心今天早上的路況,我更關(guān)心上一周今天早上的路況,因?yàn)槲倚枰獩Q定我?guī)c(diǎn)出發(fā)比較合適,6點(diǎn)多出門(mén)肯定是不堵的,但是來(lái)的太早了,8點(diǎn)出門(mén)有可能晚了,所以我需要關(guān)注上一周的今天的數(shù)據(jù)規(guī)律,從7點(diǎn)到8點(diǎn)半的時(shí)間段的路況如何,來(lái)?yè)Q算時(shí)間的關(guān)系,計(jì)算出行需要花多少時(shí)間。我經(jīng)??聪轮芪逡ツ膬?,這個(gè)周五去看一下路況,決定要花半小時(shí)還是四十五分鐘,歷史數(shù)據(jù)是非常重要的。實(shí)時(shí)數(shù)據(jù)比較容易獲取,但是歷史的數(shù)據(jù),看交通局的網(wǎng)站、百度、搜狗都是看不到的。外部和內(nèi)部的數(shù)據(jù)融合。
融合的層次,數(shù)據(jù)級(jí)、特征級(jí)、決策級(jí),要看面向的應(yīng)用場(chǎng)景。融合問(wèn)題,字段映射、字段拆分,有些地址分析,有區(qū)有路有門(mén)牌號(hào),這樣的東西我們要做拆分,做分級(jí)管理,然后才能做一些融合。不同的數(shù)據(jù)庫(kù)里,不同的系統(tǒng)里,我們對(duì)于同一個(gè)地址的描述有時(shí)候是不一樣的。還有數(shù)據(jù)率重的問(wèn)題,不同的數(shù)據(jù)融合到一起,有些數(shù)據(jù)是互補(bǔ)的,有些數(shù)據(jù)是重復(fù)的,重復(fù)的會(huì)涉及到這樣一些問(wèn)題。異構(gòu)加權(quán)的問(wèn)題,VIP數(shù)據(jù)跟普通用戶(hù)數(shù)據(jù)融合到一起需要加權(quán)的問(wèn)題,這樣做產(chǎn)品的時(shí)候才會(huì)有更好的效果性。
融合清洗的時(shí)候會(huì)涉及到很多問(wèn)題,數(shù)據(jù)統(tǒng)一標(biāo)識(shí)、數(shù)據(jù)脫敏處理、數(shù)據(jù)更新與同步、數(shù)據(jù)交換與共享、數(shù)據(jù)清洗與比對(duì)、數(shù)據(jù)記錄濾重、字段映射與互補(bǔ)?;谶@些多源數(shù)據(jù)可以做哪些分析?基于關(guān)聯(lián)關(guān)系的融合是空間的維度,基于時(shí)間關(guān)系的融合、基于關(guān)聯(lián)關(guān)系的融合。基于關(guān)聯(lián)關(guān)系主要是通過(guò)相關(guān)性的分析,物與物的關(guān)聯(lián)、人與物的關(guān)聯(lián)、產(chǎn)品與需求的關(guān)聯(lián),現(xiàn)在是可以計(jì)算的,可以算出需求,產(chǎn)學(xué)研的分析、上下游的分析。
我們常用的企業(yè)有時(shí)候想找競(jìng)爭(zhēng)對(duì)手的核心技術(shù),A企業(yè)和某個(gè)學(xué)校的教授合作,你不太方便再跟他合作,那我們招聘這個(gè)教授畢業(yè)帶的博士來(lái)工作,因?yàn)檫@個(gè)博士對(duì)博導(dǎo)的工作方式非常了解。通過(guò)這樣的非直接的方式,這個(gè)在大數(shù)據(jù)時(shí)代是可以的。通過(guò)論文預(yù)測(cè)專(zhuān)利,通過(guò)專(zhuān)利來(lái)預(yù)測(cè)市場(chǎng)?;诳臻g關(guān)系的融合,聚類(lèi)分析,看用戶(hù)聚類(lèi)與畫(huà)像、產(chǎn)品聚類(lèi)、人員聚類(lèi)。社會(huì)網(wǎng)絡(luò)分析,看合作網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)、引文網(wǎng)絡(luò)、鏈接網(wǎng)絡(luò)。異常分析,孤立點(diǎn)分析、突然消失分析。
就國(guó)家二胎的政策,這個(gè)經(jīng)過(guò)很多的計(jì)算,通過(guò)公安統(tǒng)計(jì)、民政、衛(wèi)生、財(cái)稅、教育、勞動(dòng)與社會(huì)保障,把所有數(shù)據(jù)融合在一起,當(dāng)然現(xiàn)在這個(gè)政策的推出有一些詬病,本來(lái)是做社會(huì)的承受力壓力、教育、保障、人口老齡口等等一系列問(wèn)題,我覺(jué)得這個(gè)系統(tǒng)做得沒(méi)有問(wèn)題,但是少了一個(gè)因素,只是從行政者管理的角度,沒(méi)有考慮老百姓生孩子的意義,特別是在北上廣的城市很多人不想要那么多孩子,因?yàn)閴毫μ罅?,所以沒(méi)有考慮用戶(hù)的需求。如果把這樣的數(shù)據(jù)融合在一起,我覺(jué)得政策推出得會(huì)更合適、更受歡迎,因?yàn)檫@個(gè)政策推出稍微晚了一些。
提到政策,大數(shù)據(jù)可以做的事情就更多了,比如反腐,我們有金融大數(shù)據(jù),現(xiàn)在打虎的成本蠻高的,現(xiàn)在的反腐都是主動(dòng)的。很多腐敗的事件和案例,貪污受賄不會(huì)放在自己的名下,如果我們把人口的數(shù)據(jù)融合上,把行政的數(shù)據(jù),通過(guò)家人或者秘書(shū)會(huì)發(fā)現(xiàn),把工程項(xiàng)目的數(shù)據(jù)跟他融合在一起,可能會(huì)有更好的監(jiān)測(cè)。前段時(shí)間我們給一個(gè)政府去做多源數(shù)據(jù)的融合,他是綜合治理部門(mén),他的數(shù)據(jù)融合的渠道有很多,和垂直系統(tǒng)的交換,還有網(wǎng)絡(luò)信息采集、共享平臺(tái)的交換,現(xiàn)在的系統(tǒng)越來(lái)越多,不同的系統(tǒng)中數(shù)據(jù)如何來(lái)共享和對(duì)接,還有空間的數(shù)據(jù),有些社區(qū)的臺(tái)賬,社區(qū)的基層工作人員報(bào)的數(shù)據(jù)可能不是網(wǎng)絡(luò)的,就像我們?cè)阢y行填申請(qǐng)單一樣紙版的數(shù)據(jù),包括移動(dòng)終端采集的數(shù)據(jù)。對(duì)這些數(shù)據(jù)驅(qū)做建模和整理。
對(duì)于一個(gè)企業(yè)來(lái)講,我們的數(shù)據(jù)包括三方面,我們自有的數(shù)據(jù)、我們購(gòu)買(mǎi)合作的數(shù)據(jù)和交易的數(shù)據(jù)、公開(kāi)信息來(lái)源的數(shù)據(jù),把這些不同類(lèi)型的數(shù)據(jù)融合在一起,這是電子商務(wù)里的一些交易數(shù)據(jù)的融合,歷史的信息、檢索日志的信息、上網(wǎng)行為的信息、地址的信息?,F(xiàn)在大部分電子商務(wù)公司還是不去搜集你的收貨信息,如果搜集這種信息的話用戶(hù)畫(huà)像就更清楚了,現(xiàn)在可以知道你什么時(shí)候在單位什么時(shí)候在家,這些數(shù)據(jù)是可以分析的。整個(gè)的多源數(shù)據(jù)融合,從理論方面有這樣一些。D-S證據(jù)和深度學(xué)習(xí)的算法,去處理一些重名的情況,對(duì)技術(shù)的問(wèn)題實(shí)現(xiàn)歷史數(shù)據(jù)和外部數(shù)據(jù)的融合,線上線下的融合、傳感器硬數(shù)據(jù)與軟數(shù)據(jù)的結(jié)合,實(shí)現(xiàn)這樣一些應(yīng)用,這是整個(gè)的體系。
多源數(shù)據(jù)融合整體上是實(shí)踐驅(qū)動(dòng)的領(lǐng)域,和大數(shù)據(jù)一樣。社會(huì)人文的數(shù)據(jù)和物理信號(hào)的數(shù)據(jù)同樣重要,商務(wù)領(lǐng)域更加重視多源信息進(jìn)行交叉印證與關(guān)聯(lián)分析。我的演講就到這里,謝謝!
本文題目:北京大學(xué)化柏林:多源數(shù)據(jù)融合方法與應(yīng)用
文章源于:http://chinadenli.net/article18/sojedp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供云服務(wù)器、網(wǎng)站收錄、App開(kāi)發(fā)、網(wǎng)站排名、品牌網(wǎng)站設(shè)計(jì)、微信小程序
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)