背景——前所未有的創(chuàng)新時代

我們生活在一個創(chuàng)新的時代。在這個時代,互聯(lián)網(wǎng)顛覆了人們的生活和工作方式。社交網(wǎng)絡與移動終端的普及、大數(shù)據(jù)的產(chǎn)生與匯聚,催生出越來越多的新需求。這些需求必將推動更多創(chuàng)新應用(如微博、微信、語音助手、網(wǎng)絡購物、手機打車、PM2.5指數(shù)、手機錢包、互聯(lián)網(wǎng)理財、交友、移動學習、在線課程等)的問世。由于創(chuàng)新所依賴的基礎設施日趨完善,多種云計算服務及開源平臺前所未有地降低了創(chuàng)新的成本,使得人們可以將精力集中到創(chuàng)新本身。
得益于網(wǎng)絡和云計算所支持的令人驚嘆的計算能力,以及從大數(shù)據(jù)洞察到的良機,還有機器學習所帶來的算法進步,人工智能獲得了新生。人工智能,是指計算機系統(tǒng)具備從聽說讀寫到搜索、推理、決策、回答問題等類人智能的能力。
最近,很多互聯(lián)網(wǎng)公司提出了“大腦”計劃,就是試圖在大數(shù)據(jù)和互聯(lián)網(wǎng)的背景下,提升各種應用的智能水平。在大數(shù)據(jù)的支持下,新一代人工智能與自然語言處理技術的大規(guī)模應用將成為科技創(chuàng)新的重大機遇。
數(shù)據(jù)智能、知識智能與社會智能
數(shù)據(jù)智能、知識智能和社會智能是智能應用的三種典型模式。
數(shù)據(jù)智能是在大規(guī)模、多樣化、新鮮的數(shù)據(jù)支持下,在云計算的支撐下,采用機器學習的方法進行分類、聚類和排序,進而基于各類數(shù)據(jù)驅動實現(xiàn)的智能應用系統(tǒng)。這里的數(shù)據(jù)是指存在于萬維網(wǎng)(Web)或者企業(yè)內部的海量、無結構或者半結構的數(shù)據(jù)集合。這類數(shù)據(jù)具有重復性、冗余性和多樣性等特點,對搜索系統(tǒng)、問答系統(tǒng)、推理系統(tǒng)和預測系統(tǒng)具有重要意義。為了利用數(shù)據(jù)智能,我們須經(jīng)過數(shù)據(jù)獲取、去噪、抽取信息、建立索引等若干步驟形成可檢索的數(shù)據(jù)集合。我們也可以利用搜索引擎的返回結果進行實時信息抽取,以避免存儲和索引全網(wǎng)而付出的代價。
知識智能是指利用知識庫、詞典和規(guī)則進行推理的智能系統(tǒng)。目前很多搜索公司都建立了大型知識庫。Freebase, Yago2和DEPEDIA等知識庫可供免費研究和使用。結構化、半結構化和無結構化的數(shù)據(jù)經(jīng)過信息抽取技術可獲取實體、實體的屬性和實體之間的關系來構成一個知識圖譜。知識圖譜隨著數(shù)據(jù)的更新而演進,帶動知識智能不斷提升。
社會智能是指利用網(wǎng)友在互聯(lián)網(wǎng)上直接貢獻的內容(包括網(wǎng)頁錨文本、用戶標簽、用戶日志、用戶反饋、社區(qū)問答、社會關系網(wǎng)絡等)實現(xiàn)用戶參與的智能應用。在社區(qū)問答中,用戶提出問題,其他網(wǎng)友回答問題。久而久之形成的問答對庫可以用來回答新的問題。這些問題和答案蘊含著豐富的社會智能。
值得注意的是,在企業(yè)里也存在著這樣三種形態(tài)的智能信息。企業(yè)的網(wǎng)頁、文檔、電子郵箱、新聞、交易數(shù)據(jù)等可以看作是數(shù)據(jù)智能;企業(yè)的知識庫、本體、產(chǎn)品目錄、地址簿、客戶關系等可以看作是知識智能;企業(yè)內部的QQ, LINC, YAMMER, Wiki的數(shù)據(jù)可以視作社會智能。利用這三種類型的智能信息,可以很好地支持商業(yè)活動,提高企業(yè)的運行效率。
以搜索引擎為例,給定一個查詢表達式,搜索引擎進行排序時,會用到TF-IDF1,體現(xiàn)關鍵詞和文檔的匹配(數(shù)據(jù)智能),會用到page rank2(社會智能),也會用到實體、實體之間的關系(知識智能)。而且很多搜索引擎在展示結果的時候,會提供網(wǎng)頁搜索、知識圖譜以及社會關系網(wǎng)絡等的結果。
多智能自然語言處理系統(tǒng)
自然語言處理研究的基本任務是理解句子和文章的要點,推斷其意圖,進行人機自然交互,實現(xiàn)搜索、文摘、自動問答、聊天機器人、機器翻譯等多種應用。
搜索引擎的成功啟發(fā)我們在創(chuàng)新的時候,要綜合考慮數(shù)據(jù)智能、知識智能和社會智能。本專題以自然語言處理為例,邀請多位專家對相關科學研究方法與應用創(chuàng)新進行具體闡述。
在數(shù)據(jù)智能方面,建立安全可靠的云計算平臺,實現(xiàn)對互聯(lián)網(wǎng)和授權企業(yè)數(shù)據(jù)的及時獲取、更新。根據(jù)應用的需要,對數(shù)據(jù)進行聚類、分類和主題抽取。利用數(shù)據(jù)的特點獲取有標注信息的數(shù)據(jù),比如有翻譯標注的雙語對照數(shù)據(jù)、有分詞標注信息的數(shù)據(jù)、有地理位置信息的數(shù)據(jù)。同時,對數(shù)據(jù)的可靠性進行有效估計,對數(shù)據(jù)的質量進行自動評定。然后,利用數(shù)據(jù)建立適合于特定應用問題的模型,比如機器翻譯和輸入法中使用的語言模型。利用深度學習獲得詞匯的向量化表示,來計算詞匯之間的語義距離,并訓練更加強大的語言模型。
微軟亞洲研究院劉樹杰博士等人撰寫了《深度學習在自然語言處理中的應用》一文,介紹了一系列在人工智能方面取得突破的深度學習方法,并在分析自然語言數(shù)據(jù)與語音圖像信息差異的基礎上,重點介紹了自然語言處理應用深度學習的三種基本方法,包括詞匯向量化表示、語言模型和句法分析,并具體闡述了深度學習如何幫助機器翻譯和情感分析來提升性能。
在知識智能方面,需要設計大規(guī)模知識獲取系統(tǒng),掃描互聯(lián)網(wǎng)和授權企業(yè)數(shù)據(jù),抽取實體、實體類型和實體關系,獲得知識條目。自動檢查知識庫的不一致性,提高人工編輯的修正效率。判斷知識庫缺失的知識,并自動補充。對通過多種途徑獲得的知識庫進行合并,去除冗余條目,合并相同知識條目,并消除不一致條目。利用機器翻譯把一種語言的知識庫翻譯成其他語言,加快其他語言知識庫的建設。通過多語言的知識庫支持機器翻譯和在線詞典。研究進行知識庫的快速查找和推理的圖數(shù)據(jù)庫系統(tǒng)。在知識庫基礎上,實現(xiàn)自然語言分析和合成、問答系統(tǒng)支持搜索和語音助手,建立通用或企業(yè)/專業(yè)領域知識管理系統(tǒng)。
中國科學院自動化研究所研究員趙軍撰寫的《從問答系統(tǒng)看知識智能》一文,以圖靈測試為引子,回顧了問答系統(tǒng)的發(fā)展歷程,分析了實現(xiàn)智能問答的主要局限和智能問答突破瓶頸的關鍵問題——大型開放域知識庫,闡述了當前智能問答的研究重點,如實體消歧、關系語義分類、問句語義解析和知識推理等,并指出了未來的研究方向。
在社會智能方面,從社會關系網(wǎng)絡的實時海量數(shù)據(jù)中抽取社會智能信息(包括問答對、主題、熱點話題、用戶觀點、用戶特征),來過濾灌水、軟文等帖子,評定發(fā)帖和回復的質量與權威性,確定帖子的情感(正面、負面或者中性),評定發(fā)帖人的權威性和影響力,提供觀點、摘要和對比摘要,改善新問題到問題-答案庫的語義匹配問題,對用戶關心的事件(比如競選結果、比賽結果、票房收入、產(chǎn)品銷量)做出預測,設計新型眾包,鼓勵網(wǎng)友貢獻知識和答案。
清華大學教授李涓子等人撰寫的文章《擁抱社會智能》,以社交網(wǎng)絡的社會關系為背景,介紹了社交網(wǎng)絡關系和社會影響力分析等微觀分析理論,重點闡述了社區(qū)發(fā)現(xiàn)、代表用戶預測、社區(qū)信息傳播分析等宏觀分析方法,并結合具體案例給出利用眾包實現(xiàn)社會智能的途徑。文章指出,應利用我國社交網(wǎng)絡用戶多、研究水平高的優(yōu)勢發(fā)展社會智能應用,擁抱社會智能。
哈爾濱工業(yè)大學教授劉挺等人撰寫《基于社會媒體的預測技術》的文章,從社會媒體與社會活動的關聯(lián)關系出發(fā),系統(tǒng)闡述了利用社交網(wǎng)絡進行消費意圖挖掘的方法,即結合深度學習分析社交網(wǎng)絡的短文本數(shù)據(jù),挖掘顯式及隱式消費意圖;指出基于消費意圖挖掘的電影票房預測模型,是利用社交網(wǎng)絡實現(xiàn)社會智能的典型案例。文章還介紹了基于事件抽取和因果關系等預測方法的研究進展,認為社會媒體的智能預測具有重要的研究和應用價值。
為了實現(xiàn)多智能自然語言處理系統(tǒng),應采用NLP2.0框架——把互聯(lián)網(wǎng)當成一個研究平臺,在其上進行數(shù)據(jù)獲取、模型訓練、實施,并與用戶互動。因此,首先要建立強大的數(shù)據(jù)處理平臺以支持網(wǎng)絡挖掘、信息抽取、模型訓練和系統(tǒng)實施,支持大數(shù)據(jù)的處理和分析;同時,把自然語言研究和用戶需求、市場因素適度地聯(lián)系在一起,使之實現(xiàn)互動;此外,需要同時考慮多智能協(xié)調,利用多種智能研究類人智能任務、開發(fā)互聯(lián)網(wǎng)智能應用。
腳注:
1 TF-IDF(term frequency-inverse document frequency,詞頻-反文檔頻率)是一種用于資訊檢索與資訊探勘的常用加權技術,用以評估一個字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。
2 又稱佩奇排名。Page rank取自谷歌的創(chuàng)始人Larry Page。它是谷歌排名運算法則的一部分,是谷歌對網(wǎng)頁重要性的評估,是衡量一個網(wǎng)站好壞的唯一標準。
本文名稱:多智能自然語言處理
標題鏈接:http://chinadenli.net/article46/soephg.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供動態(tài)網(wǎng)站、手機網(wǎng)站建設、網(wǎng)站內鏈、云服務器、標簽優(yōu)化、品牌網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)