close
人類不是最好對手!新AlphaGo放棄人類經驗後棋力飛漲
在圍棋比賽上,人工智能程序AlphaGo橫掃世界頂尖棋手的事情,早已不是新聞。但人們聊以慰藉的是,AlphaGo是在大量學習瞭人類棋譜後,才慢慢“封神”。
這一認知現在也被改寫。
10月19日凌晨,在國際學術期刊《自然》(Nature)上發表的一篇研究論文中,谷歌下屬公司Deepmind報告新版程序AlphaGo Zero:從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋,並以100:0的戰績擊敗“前輩”。
有專傢告訴澎湃新聞(www.thepaper.cn),“拋棄人類經驗”和“自我訓練”並非AlphaGo Zero最大的亮點,其關鍵在於采用瞭新的reinforcement learning(強化學習的算法),並給該算法帶瞭新的發展。
此外,有專傢表示,應理性看待AlphaGo Zero。Deepmind的論文一發表,TPU的銷量就可能要大增瞭。其100:0戰績有“造”真嫌疑。
該論文稱,在數百萬局自我對弈後,隨著程序訓練的進行,AlphaGo Zero獨立發現瞭人類用幾千年才總結出來的圍棋規則,還建立瞭新的戰略,為這個古老的遊戲帶來新見解。
《自然》為該論文配發兩篇評論文章,一篇來自計算機科學傢,一篇來自圍棋選手。
世界頂尖棋手的養成,動輒需要數十年的訓練、磨礪。但AlphaGo Zero創造瞭一個紀錄:3天。
AlphaGo Lee是AlphaGo Zero的“前輩”。它擁有48個TPU(神經網絡訓練專用芯片),在參考大量人類棋譜,並自我對弈約3000萬盤、訓練數月後,2016年3年月,AlphaGo Lee以4:1的擊敗韓國九段棋手李世石,引發人們關註。
AlphaGo Zero僅擁有4個TPU,零人類經驗,其自我訓練的時間僅為3天,自我對弈的棋局數量為490萬盤。但它以100:0的戰績擊敗前輩。
Deepmind公司詳解瞭AlphaGo Zero的更多不同之處,在識別棋盤盤面時,它直接識別黑白棋子,而非要將圖像分類;它僅使用一張人工神經網絡,此前的兩張被合二為一。
但更大的革新之處在於,AlphaGo Zero采用瞭新的算法——強化學習算法。在每一次訓練後,AlphaGo Zero都能根據訓練結果,進一步優化其算法。
上海交通大學計算機科學領域的一位教授告訴澎湃新聞,他認為,AlphaGo Zero發展瞭強化學習(Reinforcement Learning)算法。受到AlphaGo Zero的啟發,該算法可能應用在更多的“求解”類問題上。
他將強化學習的算法比作“摸著石頭過河”。他描述瞭“求解”類問題的共同特征:這些問題的求解,都要分很多步驟才能完成,整個過程相對漫長,但在結束後,可以根據結束時的狀態,來評判此前每一步決策的質量。像蛋白質折疊的預測,新材料的設計等,都屬於此類問題。
他表示,“求解”類問題相對簡單,它們不同於我們人生中的選擇,人生中的每個決定不太容易評價其決策質量。靜電抽油煙機
上海紐約大學計算機科學教授張崢表示,從算法上來說,AlphaGo Zero比其“前輩”更簡潔、漂亮。這一次,AlphaGo Zero擺脫瞭人為的大數據,在人類給定的一個規則下,自主發現新知識,並且糾正人類的錯誤知識,而且是以驚人的速度達到這一點。有趣的是,AlphaGo Zero卻無法解釋(它是如何完成這一切的),隻能demo(樣本)給人類。
復旦大學計算機科學技術學院教授危輝告訴澎湃新聞,AlphaGo Zero的算法、程序,如同一個黑箱,在一次又一次的自我訓練後,有瞭很多優化。拷貝那一行行代碼,就可以“繼承”這個被優化過的算法。但算法中的詳情,人們並不知曉。
危輝將圍棋盤面上各種變化比作宇宙中的星辰,通過人類智力、直覺,人們可能已經觸及瞭其中百萬分之一的情形,AlphaGo Zero可能觸及瞭其中其中百萬分之五的情形,“比人類多,但肯定沒有窮盡。”
張崢表示,AlphaGo Zero等人工智能及地球上的計算能力是否窮盡搜索瞭圍棋盤面的各種可能,他不清楚,但AlphaGo Zero等人工智能一定比人更快,而且有新的發現。換句話說,會產生新的棋譜。
上海交通大學軟件學院教授陳海波認為,從理論上說,強化學習的算法本來就可以實現自我訓練,AlphaGo Zero提供瞭一個非常好的范例。人工智能的發展依賴三個要素:算法、平臺和數據。像AlphaGo Zero一樣,人工智能如果使用合適的算法,並改進算法,降低其對數據與平臺計算能力的依賴,有助於其推廣和應用。
中國科學院自動化研究所復雜系統管理與控制國傢重點實驗室任主任王飛躍表示,大傢應該理性看待AlphaGo Zero的研究成果。Deepmind公司的這一論文一發表,TPU的銷量可能就要大增瞭。他說,AlphaGo的程序的確越來越簡潔、有效。但那種“看瞭AlphaGo Zero,就認為人類經驗沒用瞭,人工智能已經超過人類智力”的觀點不正確。
他認為,在所有“規則界定得非常清楚,而且規則中包含瞭所有信息”的任務中,機器或程序都應超過人類。正如汽車會跑得比人快,飛機會飛得比人高。而人工智能在應用中面臨更多挑戰的是那些規則不清,或者規則清楚但不包含所有信息的事情。在軍事國防,社會經濟,特別是日常生活的很多應用場景都是這樣,人為界定出來的規則可以非常簡化,但無法確定所有信息,比如交通規則。這時候,人工智能會做一個好的安全且有效決策嗎?
王飛躍表示,真正智能的是AlphaGo Nothing,即人類,為定規則而生。而機器是為執行而造的。
此外,他認為,AlphaGo Zero 以100:0的成績,戰勝AlphaGo Master,其結果十分令人鼓舞,但有誤導,且有"造"真的嫌疑。“這讓我想起成語 自相矛盾 。”
(原標題:人類不是最好對手!新AlphaGo放棄人類經驗靜電油煙處理機靜電機保養後棋力飛漲)
在圍棋比賽上,人工智能程序AlphaGo橫掃世界頂尖棋手的事情,早已不是新聞。但人們聊以慰藉的是,AlphaGo是在大量學習瞭人類棋譜後,才慢慢“封神”。
這一認知現在也被改寫。
10月19日凌晨,在國際學術期刊《自然》(Nature)上發表的一篇研究論文中,谷歌下屬公司Deepmind報告新版程序AlphaGo Zero:從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋,並以100:0的戰績擊敗“前輩”。
有專傢告訴澎湃新聞(www.thepaper.cn),“拋棄人類經驗”和“自我訓練”並非AlphaGo Zero最大的亮點,其關鍵在於采用瞭新的reinforcement learning(強化學習的算法),並給該算法帶瞭新的發展。
此外,有專傢表示,應理性看待AlphaGo Zero。Deepmind的論文一發表,TPU的銷量就可能要大增瞭。其100:0戰績有“造”真嫌疑。
該論文稱,在數百萬局自我對弈後,隨著程序訓練的進行,AlphaGo Zero獨立發現瞭人類用幾千年才總結出來的圍棋規則,還建立瞭新的戰略,為這個古老的遊戲帶來新見解。
《自然》為該論文配發兩篇評論文章,一篇來自計算機科學傢,一篇來自圍棋選手。
世界頂尖棋手的養成,動輒需要數十年的訓練、磨礪。但AlphaGo Zero創造瞭一個紀錄:3天。
AlphaGo Lee是AlphaGo Zero的“前輩”。它擁有48個TPU(神經網絡訓練專用芯片),在參考大量人類棋譜,並自我對弈約3000萬盤、訓練數月後,2016年3年月,AlphaGo Lee以4:1的擊敗韓國九段棋手李世石,引發人們關註。
AlphaGo Zero僅擁有4個TPU,零人類經驗,其自我訓練的時間僅為3天,自我對弈的棋局數量為490萬盤。但它以100:0的戰績擊敗前輩。
Deepmind公司詳解瞭AlphaGo Zero的更多不同之處,在識別棋盤盤面時,它直接識別黑白棋子,而非要將圖像分類;它僅使用一張人工神經網絡,此前的兩張被合二為一。
但更大的革新之處在於,AlphaGo Zero采用瞭新的算法——強化學習算法。在每一次訓練後,AlphaGo Zero都能根據訓練結果,進一步優化其算法。
上海交通大學計算機科學領域的一位教授告訴澎湃新聞,他認為,AlphaGo Zero發展瞭強化學習(Reinforcement Learning)算法。受到AlphaGo Zero的啟發,該算法可能應用在更多的“求解”類問題上。
他將強化學習的算法比作“摸著石頭過河”。他描述瞭“求解”類問題的共同特征:這些問題的求解,都要分很多步驟才能完成,整個過程相對漫長,但在結束後,可以根據結束時的狀態,來評判此前每一步決策的質量。像蛋白質折疊的預測,新材料的設計等,都屬於此類問題。
他表示,“求解”類問題相對簡單,它們不同於我們人生中的選擇,人生中的每個決定不太容易評價其決策質量。靜電抽油煙機
上海紐約大學計算機科學教授張崢表示,從算法上來說,AlphaGo Zero比其“前輩”更簡潔、漂亮。這一次,AlphaGo Zero擺脫瞭人為的大數據,在人類給定的一個規則下,自主發現新知識,並且糾正人類的錯誤知識,而且是以驚人的速度達到這一點。有趣的是,AlphaGo Zero卻無法解釋(它是如何完成這一切的),隻能demo(樣本)給人類。
復旦大學計算機科學技術學院教授危輝告訴澎湃新聞,AlphaGo Zero的算法、程序,如同一個黑箱,在一次又一次的自我訓練後,有瞭很多優化。拷貝那一行行代碼,就可以“繼承”這個被優化過的算法。但算法中的詳情,人們並不知曉。
危輝將圍棋盤面上各種變化比作宇宙中的星辰,通過人類智力、直覺,人們可能已經觸及瞭其中百萬分之一的情形,AlphaGo Zero可能觸及瞭其中其中百萬分之五的情形,“比人類多,但肯定沒有窮盡。”
張崢表示,AlphaGo Zero等人工智能及地球上的計算能力是否窮盡搜索瞭圍棋盤面的各種可能,他不清楚,但AlphaGo Zero等人工智能一定比人更快,而且有新的發現。換句話說,會產生新的棋譜。
上海交通大學軟件學院教授陳海波認為,從理論上說,強化學習的算法本來就可以實現自我訓練,AlphaGo Zero提供瞭一個非常好的范例。人工智能的發展依賴三個要素:算法、平臺和數據。像AlphaGo Zero一樣,人工智能如果使用合適的算法,並改進算法,降低其對數據與平臺計算能力的依賴,有助於其推廣和應用。
中國科學院自動化研究所復雜系統管理與控制國傢重點實驗室任主任王飛躍表示,大傢應該理性看待AlphaGo Zero的研究成果。Deepmind公司的這一論文一發表,TPU的銷量可能就要大增瞭。他說,AlphaGo的程序的確越來越簡潔、有效。但那種“看瞭AlphaGo Zero,就認為人類經驗沒用瞭,人工智能已經超過人類智力”的觀點不正確。
他認為,在所有“規則界定得非常清楚,而且規則中包含瞭所有信息”的任務中,機器或程序都應超過人類。正如汽車會跑得比人快,飛機會飛得比人高。而人工智能在應用中面臨更多挑戰的是那些規則不清,或者規則清楚但不包含所有信息的事情。在軍事國防,社會經濟,特別是日常生活的很多應用場景都是這樣,人為界定出來的規則可以非常簡化,但無法確定所有信息,比如交通規則。這時候,人工智能會做一個好的安全且有效決策嗎?
王飛躍表示,真正智能的是AlphaGo Nothing,即人類,為定規則而生。而機器是為執行而造的。
此外,他認為,AlphaGo Zero 以100:0的成績,戰勝AlphaGo Master,其結果十分令人鼓舞,但有誤導,且有"造"真的嫌疑。“這讓我想起成語 自相矛盾 。”
(原標題:人類不是最好對手!新AlphaGo放棄人類經驗靜電油煙處理機靜電機保養後棋力飛漲)
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
全站熱搜
留言列表