欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

OpenAI在Dota2游戲中雖敗猶榮-創(chuàng)新互聯(lián)

就在上周,人類對機器人進行了反擊。實際上是在視頻游戲中打敗了他們。

創(chuàng)新互聯(lián)公司是一家專注于成都網(wǎng)站設計、成都網(wǎng)站建設、外貿網(wǎng)站建設與策劃設計,靈丘網(wǎng)站建設哪家好?創(chuàng)新互聯(lián)公司做網(wǎng)站,專注于網(wǎng)站建設十年,網(wǎng)設計領域的專業(yè)建站公司;建站業(yè)務涵蓋:靈丘等地區(qū)。靈丘做網(wǎng)站價格咨詢:18982081108

在一場三強爭霸賽中,兩支職業(yè)戰(zhàn)隊打敗了伊隆·馬斯克創(chuàng)建的研究實驗室OpenAI開發(fā)的人工智能機器人。他們所玩的Dota 2(刀塔:守衛(wèi)遺跡2)電腦游戲是一款非常受歡迎并且激烈復雜的競技游戲。而這場比賽對于人工智能來說是一塊試金石:這將成為人類所創(chuàng)造的超越人們想象的人工智能的最新衡量標準。

人工智能技術獲得了一些重大進展。近年來最引人注目的事例是DeepMind公司的AlphaGo擊敗了圍棋世界冠軍,這是一項專家認為至少十年無法實現(xiàn)的成就。然而最近,研究人員已經(jīng)將人工智能參與視頻游戲作為下一個挑戰(zhàn)。雖然電子游戲并沒有像AlphaGo和國際象那樣廣泛的知名度,但實際上它們的玩法要困難得多。這是因為游戲玩家將會隱藏各種信息,復雜的游戲環(huán)境也在不斷變化,以及無法輕易模擬的戰(zhàn)略思維。換句話說,這更接近我們希望采用人工智能在現(xiàn)實生活中解決的各種問題。

OpenAI的失敗只是人工智能進步的一個坎坷

Dota 2是一個特別受歡迎的人工智能測試場,OpenAI公司擁有最好的Dota 2機器人。但在上周,OpenAI輸了。那么發(fā)生了什么事?我們在人工智能的能力上達到了某種上限嗎?這表明某些技能對于計算機而言過于復雜嗎?

其答案是否定的。機器學習研究員兼Dota 2游戲粉絲Stephen Merity表示,這只是一個"坎",機器最終將征服游戲玩家,而OpenAI可能會顛覆人們的看法。但首先需要了解人類會獲勝的原因,以及實現(xiàn)OpenAI的目標,即使遭到失敗,這些做法仍然有用。它將告訴人工智能能夠做什么,不能做什么,以及將來會發(fā)生什么。 

OpenAI在Dota 2游戲中雖敗猶榮

Dota 2游戲截圖,這是一個幻想競技的戰(zhàn)斗游戲,兩組五人戰(zhàn)隊為了摧毀彼此的基地而戰(zhàn)斗。游戲玩法很復雜,比賽通常持續(xù)超過30分鐘。

像機器人一樣學習:如果一開始沒有成功

首先,我們了解一下上周的比賽。這些游戲機器人是由OpenAI創(chuàng)建的。而作為其廣泛的研究范圍的一部分,OpenAI希望開發(fā)出"造福全人類"的人工智能。而這證明了許多不同的技術研究是合理的,并吸引了一些該領域最好的科學家參與。該實驗室表示,通過訓練Dota 2機器人團隊(被稱為OpenAI Five),它希望開發(fā)能夠"處理現(xiàn)實世界的復雜性和不確定性"的系統(tǒng)。

這五個機器人(獨立操作,但使用相同的算法訓練)通過強化學習進行訓練,以操作Dota 2游戲。這是一種常見的訓練方法,基本上是大規(guī)模的反復嘗試和試錯(它有自己的弱點,但它也會產生令人難以置信的結果,其中包括AlphaGo)。他們并沒有采用Dota 2的游戲規(guī)則對機器人進行編程,而是將它們直接丟進游戲中,讓他們自己解決問題。 OpenAI的工程師通過他們完成某些任務進行獎勵(比如殺死對手或贏得比賽)來加快這個過程,但僅此而已。

這意味著機器人在開始訓練時完全隨機操作,隨著時間的推移,他們學會將某些行為與獎勵聯(lián)系起來。正如人們可能想到的,這是一種非常低效的學習方式。其結果是,機器人必須以加快游戲速度,每天訓練獲得的經(jīng)驗相當于人類180年的訓練時間。正如OpenAI公司的首席技術官和聯(lián)合創(chuàng)始人Greg Brockman在今年早些時候所說的那樣,如果需要一個12,000到20,000小時的練習才能掌握某項技能,那么機器人每天都要經(jīng)歷"100個人的一生的經(jīng)歷"。

花費這么長時間的部分原因是Dota 2游戲非常復雜,遠遠超過棋盤游戲。兩個五人戰(zhàn)隊在游戲地圖上相互對峙和戰(zhàn)斗,充滿了無法預測的角色、障礙物,以及可破壞的建筑物,所有這些因素都對戰(zhàn)斗的形勢和進程產生影響。游戲玩家必須聯(lián)合各種力量與對手作戰(zhàn)將其摧毀。他們可以獲取或購買數(shù)百種物品來提升他們的能力,每個玩家(其角色超過了100個)都有自己獨特的動作和屬性。Dota 2游戲的每場比賽都像是一場小型古代戰(zhàn)爭,其目標是爭奪領土,并努力打敗對手。

人工智能需要處理游戲中的所有數(shù)據(jù),以便以更快的速度進行,這是一個巨大的挑戰(zhàn)。為了訓練他們的算法,OpenAI必須具備大量的處理能力,大約采用了256個GPU和128,000個CPU。這就是為什么IT專家經(jīng)常將OpenAI Five作為一個工程和研究項目進行討論和研究的原因:讓系統(tǒng)正常運行具有挑戰(zhàn)性,更不用說擊敗人類玩家了。

"就現(xiàn)代數(shù)據(jù)驅動人工智能方法所能處理的復雜程度而言,OpenAI Five比DQN或AlphaGo更加令人印象深刻。"斯坦福大學計算機科學博士生Andrey Kurenkov指出。Kurenkov表示,雖然這些較舊的項目在純粹研究的層面上引入了重要的、新穎的想法,但OpenAI Five主要是在以前的不可思議的情況下部署現(xiàn)有的結構。無論是規(guī)模和輸贏都很大。

今年早些時候,OpenAI Five擊敗了一支業(yè)余游戲玩家團隊作為其能力的基準。

機器人仍缺乏游戲計劃

但是從拋開工程的角度而言,人工智能機器人輸?shù)袅诉@兩場比賽,那么是機器人還不夠好嗎?答案是:仍然非常好。

在過去的一年中,人工智能機器人已經(jīng)逐步掌握了變得更加復雜的游戲規(guī)則,從1對1的比賽開始,最后達到5v5的競技。然而,他們還無法應對游戲的復雜性。在國際比賽中,一些限制被取消了。令人關注的是,機器人不再擁有無懈可擊的信使(向玩家交付物品的NPC)。這些以前是他們游戲風格的重要支柱,因為獲得治療藥水,可以幫助他們進行持續(xù)的攻擊。在一些游戲中,他們不得不擔心他們的供應線被取消的問題。

機器人是否掌握長期戰(zhàn)略是一個關鍵問題

雖然對于這兩場比賽仍在分析,但人們的初步共識是機器人玩得很好,它們都有自己的優(yōu)點和缺點,人類玩家可以利用它們的弱點獲得比賽的優(yōu)勢。

這兩場比賽具有非常高的水平,人類玩家首先在游戲中領先,然后是機器人,最終人類玩家獲得了勝利。但在這兩場比賽中,一旦人類玩家獲得了相當大的優(yōu)勢,就會發(fā)現(xiàn)機器人很難挽回敗局。游戲評論員猜測這可能是因為人工智能選的是"以90%的確定性獲得1分,而不是以51%的把握贏得50分"。(這一特點在AlphaGo的游戲風格中也很明顯。)這意味著OpenAI Five被用于研究穩(wěn)定但可預測的勝利。當機器人失去了領先優(yōu)勢時,他們無法進行必要的冒險以重新獲得勝利。

OpenAI在Dota 2游戲中雖敗猶榮

OpenAI Five在國際上的第二場比賽場面

不過這只是猜測。正如人工智能應用情況一樣,猜測機器人背后的確切思維過程是不可能的。我們所知道的是這些機器人在游戲中的短期表現(xiàn)比較出色,但與人類的長期戰(zhàn)略比賽時則十分棘手。

OpenAI Five的判斷非常準確,可以通過法術和攻擊積極地挑選目標,并且通常對它們遇到的對手構成威脅。法爾茅斯大學的人工智能游戲研究員Mike Cook和一名狂熱的Dota玩家在現(xiàn)場直播了這些戰(zhàn)斗,他們將機器人的風格描述為"催眠"。"它們精確而清晰地開展行動。"Cook 表示,"在通常情況下,人類玩家會在贏得一場戰(zhàn)斗之后,將會稍微放松警惕,期待敵人隊撤退,并重新集結。但機器人不這樣做。如果它們看到獲勝機會,就會一直進攻。"

在漫長的游戲比賽中,機器人們似乎在蹣跚而行,想一想很難在10分鐘或20分鐘的時間的比賽獲得優(yōu)勢。它們在兩場比賽中的第二場對陣一支中國職業(yè)游戲戰(zhàn)隊,這個戰(zhàn)隊選擇了不對稱的策略。一名玩家收集資源以不斷加強戰(zhàn)隊的實力,而其他四人則對機器人戰(zhàn)隊進攻或干擾。然而,機器人似乎沒有注意到發(fā)生了什么,并且在游戲結束時,人類戰(zhàn)隊中將會有一個消滅人工智能對手的超強玩家。"這是人類玩Dota游戲的風格。但對于機器人來說,這是極其長期的規(guī)劃。"

這個戰(zhàn)略問題不僅對OpenAI很重要,對于人工智能的研究也更為重要。缺乏長期規(guī)劃通常被視為強化人工智能學習的一個主要缺陷,因為使用這種方法創(chuàng)建的人工智能通常強調及時支付而不是長期回報。這是因為構建一個長期工作的獎勵系統(tǒng)是困難的。如果無法預測何時發(fā)生這種情況,那么如何訓練機器人推遲使用強大的法術,直到敵人聚集在一起才使用?或者只是因為沒有使用某個咒語而不給一個小獎勵嗎?如果機器人決定永遠不使用它呢?這只是一個基本的例子。Dota 2游戲通常持續(xù)30-45分鐘,玩家必須不斷思考什么行動將導致長期的成功。

然而,重要的是要強調,這些機器人的行為并非僅僅是粗心大意或是尋求回報??刂泼總€玩家的神經(jīng)網(wǎng)絡具有學習某些策略的記憶組件。它們對獎勵做出反應的方式是考慮未來的收益以及更直接的收益。實際上,OpenAI表示其人工智能代理程序的執(zhí)行程度遠高于其他任何類似系統(tǒng),其"獎勵半衰期"為14分鐘(粗略地說,這是機器人可以等待未來回報的時間長度)。

Kurenkov撰寫了大量有關強化學習局限性的文章。他表示,比賽表明強化學習可以處理比大多數(shù)人工智能研究人員想象的復雜程度更高的情況。但他補充說,比賽的失敗表明需要新系統(tǒng)管理長期思維。(不出所料,OpenAI的首席技術官對這種說法并不認同。)

與比賽的結果不同,這里沒有明顯的結論。對機器人是否成功的分歧反映了人工智能中未解決的更大問題。正如研究員Julian Togelius在Twitter上所指出的那樣,"我們如何才能開始區(qū)分長期戰(zhàn)略和看起來像長期戰(zhàn)略的行為?這有關系嗎?我們現(xiàn)在所知道的是,在這個特定領域,人工智能還不能超越人類。"

OpenAI在Dota 2游戲中雖敗猶榮

Dota 2游戲提供超過100種具有各種能力的不同游戲角色,人工智能還沒有完全掌握它們。

不公平的競爭環(huán)境

對于機器人聰明才智進行爭論是另一回事,但OpenAI Five參加Dota 2比賽也提出了另一個更基本的問題:我們?yōu)槭裁匆e辦這些活動?

以Gary Marcus的評論為例,他是當代人工智能局限性的批評者。在上周OpenAI游戲的準備階段,Marcus在Twitter上指出這對于人類玩家來說并不公平。與人類游戲玩家(或其他一些人工智能系統(tǒng))不同,機器人實際上并不觀看電腦屏幕來進行操作。相反,它們使用Dota 2的"bot API"來理解游戲。這是一個由20,000個數(shù)字組成的協(xié)議,用于描述數(shù)字形式的變化,其中包括每個玩家的位置,健康狀況,擁有的法術,以及攻擊時間等所有信息。

正如Marcus所說,這快速解決了極具挑戰(zhàn)性的場景感知問題,并為機器人提供了巨大的優(yōu)勢。例如,它們不必搜索地圖以獲知對手的團隊在哪里,或者觀看用戶界面以查看他們最強大的法術是否準備就緒。他們不必猜測對手的健康狀況或估計他們的距離,它們都會知道這些信息。

但這算不算作弊?

有幾種方法可以回答這個問題。首先,OpenAI可以創(chuàng)建視覺系統(tǒng)來讀取像素并檢索機器人API提供的相同信息。(沒有這么做的主要原因是非常耗費資源。)這很難判斷,因為沒有人知道它是否會有效,直到有人真正做到了。但它可能無關緊要。更重要的問題可能是:能否在人類與機器之間展開公平的競爭?畢竟,如果我們想要了解人類玩家如何玩Dota 2,我們是否需要為OpenAI Five配備機械手以操作鼠標和鍵盤?

這些問題有點滑稽,但它們強調了很難在人類與計算機之間建立真正公平競爭環(huán)境的可能性。這樣的事情并不存在,因為難道需要機器像人類一樣思考,就像飛機像飛鳥一樣飛翔?正如人工智能游戲研究員Cook所說的那樣:"當然,計算機在某些方面比人類更好。這就是我們發(fā)明計算機的原因。"

Brockman表示,"也許我們需要更加深入地思考為什么要舉辦這些活動。除了游戲之外還有更多內容。我們玩Dota游戲的原因并非如此,我們之所以這樣,是因為我們認為可以開發(fā)出能夠在未來幾十年內為人類提供發(fā)展動力的人工智能技術。"

這個雄心勃勃的主張是真實的。用于訓練OpenAI Five的是一個名為Rapid的系統(tǒng),正在應用于其他項目。例如,OpenAI已經(jīng)用它來訓練機器人的機械手以類似人類的靈活性來操縱物體。人工智能一樣也存在局限性,Rapid并不是無所不能的算法。但總的原則是:實現(xiàn)任意目標所需的工作(如在視頻游戲中打敗人類)有助于刺激人工智能領域的發(fā)展。

OpenAI在Dota 2游戲中雖敗猶榮

韓國圍棋選手李世石在2016年被AlphaGo擊敗,但他學會了一些新技能。

它還可以為那些受到機器挑戰(zhàn)的人類提供幫助。例如,AlphaGo擊敗圍棋世界冠軍的故事中最引人入勝的一部分是,盡管圍棋冠軍李世石被人工智能系統(tǒng)擊敗,但他和AlphaGo社區(qū)的其他成員也從中學到了很多經(jīng)驗和技巧,AlphaGo的游戲風格顛覆了幾個世紀以來的人們公認的智慧,其行為仍在研究之中,而李世石在與AlphaGo的比賽之后,與其他人類棋手比賽中連續(xù)獲勝。

在Dota 2游戲世界中已經(jīng)開始發(fā)生同樣的事情:玩家正在研究OpenAI Five的游戲過程以發(fā)現(xiàn)新的戰(zhàn)術和動作。至少有一個以前未被發(fā)現(xiàn)的游戲機制,它允許玩家在遠離對手的范圍內快速補給某種武器,機器人的這種發(fā)現(xiàn)將讓人類玩家受益。正如人工智能研究員Merity所說:"我真的想坐下來觀看這些比賽,這樣我就可以學習新的策略。而正在研究這些東西的人們會說,'這是我們需要投入游戲的東西。'"

這種人工智能訓練現(xiàn)象在將來可能會變得更加普遍。從某些方面來看,它似乎是一種仁慈的行為。機器人在超越人類能力的同時,也會提供一份禮物。

當然,這不是真的,人工智能只是人類發(fā)明的另一種自我教育方法。但這就是我們進行比賽的原因。而對于人類玩家和機器來說,這是一種意義深刻的學習體驗。

當前題目:OpenAI在Dota2游戲中雖敗猶榮-創(chuàng)新互聯(lián)
轉載注明:http://chinadenli.net/article40/dhpeho.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站、企業(yè)網(wǎng)站制作、定制網(wǎng)站、軟件開發(fā)、App開發(fā)、全網(wǎng)營銷推廣

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設公司