中國自動化學(xué)會專家咨詢工作委員會指定宣傳媒體
新聞詳情
gkongbbs

從AlphaGo 人機大戰(zhàn)談起

http://casecurityhq.com 2016-05-25 13:58 來源:祈飛科技

最近Google DeepMind 公司的AlphaGo與李世石的人機大戰(zhàn)引起了全球新聞媒體和公眾對于人工智能的高度關(guān)注,其影響力遠遠超出了圍棋領(lǐng)域。

QQ截圖20160525140007

DeepMind 是一家什么樣的公司

DeepMind 是一家英國的人工智能公司,2014年1月被Google以5億英鎊收購。該公司在人工智能方面最有名的成果當(dāng)首推2013年提出的DQN(Deep Q Network,一種深度學(xué)習(xí)和強化學(xué)習(xí)相結(jié)合的深度強化學(xué)習(xí)算法模型),在只有原始像素和游戲系統(tǒng)的打分作為輸入的情況下,人工智能系統(tǒng)成功的通過38天的自學(xué)習(xí)掌握了Atari游戲,到目前為止在至少49種Atari 2600 游戲上達到甚至超過了人類頂級玩家的水平。其成果先后發(fā)表在NIPS和Nature上,在人工智能領(lǐng)域引起震動。目前DeepMind除了AlphaGo外,還有健康醫(yī)療項目。

計算機圍棋與人工智能

國際象棋較容易設(shè)計局面評價函數(shù)(以擒王為目的,不同棋子有不同的權(quán)重),變化和搜索的深度相對有限,可采用Alpha-Beta剪枝算法進行有效搜索。IBM的“深藍”在1997年就擊敗了卡斯帕羅夫。

而圍棋的變化總數(shù)極大,宋代沈括在夢溪筆談中提到的算法結(jié)果為3的361次方,即“連書‘萬字’四十三”(棋盤19x19, 每個點都有黑子,白子,空白三種可能)。最近美國普林斯頓大學(xué)的研究人員計算出精確的合法棋局總數(shù)為2.08x10的170次方,這個數(shù)值比宇宙中的基本粒子總數(shù)還要多。并且圍棋很難建立明確的局面評價函數(shù),同時局面評價函數(shù)又及其不平滑。這兩點導(dǎo)致簡單的暴力搜索在圍棋上不適用。

在深度學(xué)習(xí)引入計算機圍棋領(lǐng)域前,最好的結(jié)果是基于蒙特卡洛樹搜索(MCTS)的UCT算法。通俗的說就是計算機進行大量的模擬對局,隨機走子直到對局結(jié)束,根據(jù)勝率統(tǒng)計決定當(dāng)前局面的最佳選擇。這樣就避開了局面評價函數(shù)的建立。然而人類對局時對于當(dāng)前局面的棋形是有“棋感”的,這種“棋感”很大程度上幫助棋手評估局面并判斷預(yù)測重點的行棋選擇,即相當(dāng)于快速有效的減小了搜索空間。這種“棋感”所對應(yīng)的特征選取和模式識別讓人自然的聯(lián)系起近年來在AI領(lǐng)域如日中天的深度學(xué)習(xí)技術(shù)。這次的AlphaGo實際上是整合了MCTS,深度學(xué)習(xí)和強化學(xué)習(xí)三項技術(shù)。

深度學(xué)習(xí)是在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的發(fā)展,其主要特征之一是網(wǎng)絡(luò)層數(shù)相比傳統(tǒng)淺層(受制于計算能力,數(shù)據(jù)量以及BP算法的梯度衰減等原因,一般為3層)神經(jīng)網(wǎng)絡(luò)增多,模型復(fù)雜度大大提高,故有更強的非線性表達能力。

深度學(xué)習(xí)的最大優(yōu)勢之一是無監(jiān)督的特征學(xué)習(xí),傳統(tǒng)的機器學(xué)習(xí)面臨的一個最大問題就是特征的人工設(shè)計和選取,深度學(xué)習(xí)則能通過大量數(shù)據(jù)學(xué)習(xí)出有效的抽象特征表達。

深度學(xué)習(xí)的出現(xiàn)和蓬勃發(fā)展有其內(nèi)部和外部因素的推動。內(nèi)因就是包括前述的網(wǎng)絡(luò)模型(如DNN,DCNN,SAE,RBM,DBN等)的改進,以及訓(xùn)練算法的改進。外部因素包括海量數(shù)據(jù)(防止過擬合,并且可以使用無標(biāo)簽數(shù)據(jù))的獲得和高性能計算的發(fā)展。自2006年Hinton提出深度學(xué)習(xí)的概念后尤其是2012年在ImageNet上獲得巨大突破以來,以深度卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)以催枯拉朽之勢橫掃計算機視覺、語音識別、自然語言處理等領(lǐng)域。在互聯(lián)網(wǎng)加大數(shù)據(jù)的時代背景下,已成為處理非結(jié)構(gòu)化數(shù)據(jù)的一大利器。

強化學(xué)習(xí)(Reinforcement Learning)是一個目標(biāo)驅(qū)動的連續(xù)決策過程。即學(xué)習(xí)怎樣根據(jù)當(dāng)前的狀態(tài)決定動作,以最大化所獲得的回報信號。學(xué)習(xí)算法并未被告知如何執(zhí)行動作,而是通過試驗去發(fā)現(xiàn)怎樣選擇動作以獲得最大的回報,這個回報是對動作好壞的評價。通常情況下,動作不僅獲得當(dāng)前即時的回報,而且會影響下一個狀態(tài)乃至所有后續(xù)狀態(tài)的回報。

強化學(xué)習(xí)的最終目的是決策過程中整體的回報函數(shù)期望最大化。通過試錯進行搜索以及延時的回報是強化學(xué)習(xí)的兩個最顯著的特征。強化學(xué)習(xí)已在包括機器人控制,通信,金融,博弈等在內(nèi)的眾多領(lǐng)域獲得成功應(yīng)用。

回到計算機圍棋上,AlphaGo 通過深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,建立了行棋策略網(wǎng)絡(luò)(Policy Network)和價值網(wǎng)絡(luò)(Value Network)。訓(xùn)練數(shù)據(jù)集采用了十?dāng)?shù)萬的人類棋譜,形成3千萬的局面數(shù)據(jù)作為輸入。AlphaGo通過策略網(wǎng)絡(luò)決定行棋判斷(著棋點可按分值排序),通過價值網(wǎng)絡(luò)進行局面判斷。有趣的是,AlphaGo還能通過大量的自我對弈(對弈的行棋法則是根據(jù)策略網(wǎng)絡(luò)決定的),根據(jù)對弈結(jié)果,應(yīng)用強化學(xué)習(xí)獲得更新的策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)。這就是所謂AlphaGo通過雙手互博而得到自主學(xué)習(xí)能力。根據(jù)DeepMind 的CEO Demise Hassabis 透露,他們下一步還有一個更大膽的計劃,即不需要任何人類棋譜的輸入,單純由“BetaGo” 通過自我對弈和強化學(xué)習(xí),獲得更優(yōu)的行棋網(wǎng)絡(luò)模型。這是因為人類的圍棋下法未必是最優(yōu)的,利用它訓(xùn)練出的初始化行棋網(wǎng)絡(luò)模型有可能陷入到局部極值。

策略網(wǎng)絡(luò)使得AlphaGo只需針對少數(shù)有價值的可能著棋點進行蒙特卡洛樹搜索,即有效的減少了蒙特卡洛樹搜索的寬度。而價值網(wǎng)絡(luò)使得蒙特卡洛樹搜索時的模擬對弈在局面估值達到一定閾值后即停止,無需進行至終局。這就有效的減少了蒙特卡洛樹搜索的深度。蒙特卡洛樹搜索、深度學(xué)習(xí)和強化學(xué)習(xí)的有效結(jié)合使得AlphaGo獲得了空前的成功。

人機大戰(zhàn)后的思考

首先對于圍棋界,不禁讓人反思當(dāng)今職業(yè)圍棋是否太過功利,太拘泥于勝負而過分糾纏于邊角的變化而缺乏創(chuàng)新?在AlphaGo橫空出世前一年仙逝的吳清源大師在晚年提出的“二十一世紀的圍棋”,其精神實質(zhì)就如同AlphaGo所展示給我們的,是一種整體圍棋。盡管離“圍棋之神”還有不小的距離,AlphaGo 作為超人類的圍棋存在,也有助于我們?nèi)ヌ剿饕幌盗姓嫦啵汉谄宓南戎嗜绾?目前的貼目是否合理?圍棋的實質(zhì)是什么?取消座子還棋頭真的是一種進步嗎?以九三分投、大飛守角為代表的快速打散局面的中國古棋“八卦”布局在座子還棋頭規(guī)則下是否合理?“當(dāng)湖十局”的質(zhì)量到底如何?中國古棋圣黃龍士、范西屏、施襄夏與日本古棋圣道策、丈和、秀策相比誰更強?

此次的人機大戰(zhàn)也讓我們看到了資本的力量和一個成功的商業(yè)營銷案例。相較于FaceBook在計算機圍棋項目“Dark Forest”上投入的寥寥兩人,DeepMind 在Nature上的論文就有署名作者20人,其中兩位并列第一作者David Silver 和Aja Huang更是在博士、博士后階段有10余年的計算機圍棋經(jīng)驗。AlphaGo 使用了1202個CPU和176個GPU于分布式計算,展現(xiàn)了Google強大的工程能力。人機大戰(zhàn)前Google更是做足了保密工作,事實上其內(nèi)部評測人機大戰(zhàn)用的V18版本可讓去年10月份擊敗歐洲冠軍樊麾二段的版本四子,Elo等級分在4000分之上,遠超李世石的3530和目前世界排名第一的柯潔的3630分。人機大戰(zhàn)進一步展現(xiàn)了Google在人工智能方面的全球引領(lǐng)者的企業(yè)形象,最終讓Google的股票市值增加愈400億美元。

人工智能已在包括機器人、通信、互聯(lián)網(wǎng)、商業(yè)智能、保險、金融、健康醫(yī)療等眾多領(lǐng)域融入到我們的生活中并正在改變著我們的生活。例如IBM的Watson作為認知計算系統(tǒng)的代表,應(yīng)用了先進的自然語言處理,信息檢索,知識表達,自動推理和機器學(xué)習(xí)技術(shù)。其代表性產(chǎn)品包括著名的自動問答系統(tǒng)DeepQA以及和MSK合作的腫瘤治療系統(tǒng)。

事實上我國傳統(tǒng)醫(yī)學(xué)的“表象學(xué)”走的也是類似神經(jīng)網(wǎng)絡(luò)這條路,在當(dāng)時的技術(shù)條件下,無法對多數(shù)疾病的發(fā)病機理做出科學(xué)的分析判斷,于是把人視作一個黑盒子的復(fù)雜系統(tǒng),輸入是脈搏等各種體征,輸出是判斷得到的疾病類別。老中醫(yī)某種意義上相當(dāng)于通過大量的訓(xùn)練數(shù)據(jù),訓(xùn)練得到類似神經(jīng)網(wǎng)絡(luò)的人體疾病判斷模型,因而能對疾病進行判斷。

在現(xiàn)代條件下,對于復(fù)雜的人體系統(tǒng),也難以在細胞層面、分子層面對各種病癥進行科學(xué)解釋。幸運的是,通過如CT、MRI、PET、血液分析等種種醫(yī)療儀器設(shè)備,更多科學(xué)的體征數(shù)據(jù)可以獲得。學(xué)習(xí)訓(xùn)練用的數(shù)學(xué)模型更加復(fù)雜,優(yōu)化算法更加科學(xué),人工智能系統(tǒng)更加具備在高緯數(shù)據(jù)空間發(fā)掘有意義的數(shù)據(jù)模式的能力。包括深度學(xué)習(xí)、強化學(xué)習(xí)在內(nèi)的各種人工智能技術(shù)也廣泛應(yīng)用于機器人對環(huán)境的自主感知、自主決策、各種動作運動控制、人機交互,無人機飛行和姿態(tài)控制,自動無人駕駛等領(lǐng)域。

結(jié)束語

我們也應(yīng)看到,目前人工智能的發(fā)展尚處在初級階段,距離人類有思維意識的真正意義上的智能還有很長的路要走。清代棋圣范西屏在其畢生著述《桃花泉弈譜》自序中寫道,“勛生今之時,為今之弈,后此者,又安知其不愈出愈奇”。在當(dāng)今知識大爆炸、技術(shù)大變革的風(fēng)云時代,我們更應(yīng)有積極的心態(tài)來迎接、學(xué)習(xí)、應(yīng)用、創(chuàng)新新技術(shù)。

作為人工智能機器人系統(tǒng)方案商,深圳市祈飛科技有限公司正積極應(yīng)對挑戰(zhàn),在不斷突破自我,創(chuàng)新科技,專注于人工智能的研發(fā)。祈飛機器人以祈飛研究院為核心技術(shù)研發(fā)主體,下設(shè)人工智能、圖像視覺、多維感知、控制系統(tǒng)、精密機械實驗室等,持續(xù)在人工智能機器人系統(tǒng)主體應(yīng)用領(lǐng)域進行研發(fā)投入,以祈飛智能機器人制造為集團供應(yīng)鏈保障中心,以全球營銷隊伍為市場先鋒,全力打造技術(shù)研發(fā)、智能制造、平臺網(wǎng)絡(luò)多維度創(chuàng)新型人工智能企業(yè)。

QQ截圖20160525140022

祈飛科技園

相信,隨著人工智能技術(shù)的不斷發(fā)展,人工智能化市場必將成為祈飛科技絢麗的舞臺。

版權(quán)所有 中華工控網(wǎng) Copyright?2024 Gkong.com, All Rights Reserved