南京2022年11月4日 /美通社/ -- 近日,由江蘇省人工智能學會、上海數(shù)字大腦研究院及南棲仙策共同發(fā)起的強化學習創(chuàng)新創(chuàng)意大賽結果出爐。
賽事回顧
強化學習創(chuàng)新創(chuàng)意大賽,旨在激發(fā)強化學習技術的應用創(chuàng)新,不設具體賽題。鼓勵選手了解強化學習的機制原理、掌握強化學習的任務建模、發(fā)掘強化學習落地場景、展現(xiàn)強化學習的創(chuàng)新應用價值。
大賽自6月17日開賽以來吸引國內(nèi)外高等院校、科研單位、企業(yè)單位負責人等數(shù)百人參與其中。
大賽經(jīng)初賽、復賽兩輪,4個月的激烈角逐之后,最終經(jīng)由學術專家和產(chǎn)業(yè)專家共同評選出12支獲獎隊伍。其中4支隊伍分別斬獲"最佳項目獎"、"最佳實踐獎"、"最佳創(chuàng)意獎"、"最佳社會價值獎";8支隊伍獲得"優(yōu)秀項目獎"。
獲獎選手 Talk Time
最佳項目獎:止于至善隊
"基于強化學習,實現(xiàn)分布式能源系統(tǒng)的智能決策未來是可行的。"
"目前國內(nèi)外的分布式能源管理平臺,雖然在數(shù)據(jù)感知層大量使用了人工智能技術,但在決策層還是基于傳統(tǒng)的優(yōu)化算法。這些算法受限于計算精度和實時性不能兼得,而且很難處理新能源帶來的波動性和隨機性問題。而強化學習可以處理這些問題。"
隊長侯勝任來自荷蘭代爾夫特理工大學,吳明賀、顏子恒來自東南大學。為應對全球氣候變暖和能源危機,這支隊伍將強化學習應用于新能源沖擊下的能源管理系統(tǒng),實現(xiàn)分布式能源系統(tǒng)的智能決策,使能源系統(tǒng)運行在高效、經(jīng)濟、安全、可靠的運行區(qū)間。在滿足用戶需求的前提下,大幅度降低公司系統(tǒng)運行成本,為客戶創(chuàng)造更多的收益。
最佳創(chuàng)意獎:Brain Control隊
"我一直認為強化學習方法會為生命科學領域里的一些問題帶來突破。"
"本次獲獎項目是我們團隊將強化學習方法應用大腦疾病治療的一次嘗試,目的是為了更好地幫助醫(yī)生和病人選擇更合適的治療策略,這不僅可以為病人帶來更優(yōu)的治療效果,更可以釋放大量的醫(yī)療資源。"
這是來自復旦大學的兩位博士生,李巖和權昭宇,他們將強化學習應用于自動化腦深部電刺激的參數(shù)調(diào)節(jié)。也就是通過強化學習自動尋找個性化的最優(yōu)刺激參數(shù),產(chǎn)生最優(yōu)的疾病治療方案。
這項技術在未來將有機會在面向帕金森、癱瘓、癲癇和抑郁癥等的疾病治療中發(fā)揮巨大作用。減輕病人的痛苦,減少醫(yī)生的工作量。
最佳社會價值獎:Traffic Go隊
"作為交通從業(yè)者,我非??释軌蚬钥穗y,打造適用于我國的先進城市交通優(yōu)化控制與緩堵平臺。"
這是來自同濟大學的博士后王一喆,他對被稱為"交通工程領域王冠上的明珠"的世界性難題:交通控制和緩解擁堵 發(fā)起挑戰(zhàn)。
基于強化學習的交通控制算法及機制,他通過構建可復用性強,自動化程度高的關鍵特征提取程序;搭建層次分明,易于查詢的數(shù)據(jù)結構,即使面對隨機性強,波動性大且呈非線性變化的復雜城市道路交通狀況,也可以獲得更高的可測性和可控制性。
最佳實踐獎:穿梭在銀河的火箭隊
"希望能幫助更多人縮減決策時間,讓人們將時間用在有更有價值的地方。"
"通過本次比賽,我們更加堅信了強化學習在決策領域巨大的潛力,希望能將學到的知識應用于實踐,同時幫助大家理解機器決策過程中每一步的含義,也就是為什么這樣做,能夠帶來更高的收益。"
這支隊伍的陳濤,史晨佳和任智軍老師來自于上海商學院,他們聚焦個體投資者和機構,提供完整高效可行的投資交易策略。他們的項目對中國的A股市場的環(huán)境和數(shù)據(jù)進行建模,將深度強化學習應用到金融領域,使用智能體模擬交易員,在A股市場中進行選股和擇時交易,讓決策更優(yōu)越、更簡單。
在項目進行到中后期,為了節(jié)省算力和時間,他們在REVIVE仙啟平臺進行了多智能體模型的訓練。"不得不說,「仙啟」的表現(xiàn)真的遠超團隊預期,只需要少量的代碼便可以進行實操,這也極大的彌補了團隊在多智能體模型上編碼能力不足的缺陷,早點使用該平臺也許項目進度會快很多。"
該項目在"東方財富杯"全國大學生金融挑戰(zhàn)賽 進行了落地驗證,以總收益20.93%戰(zhàn)勝了全國98%的選手。為他們高興!
在實際場景中的落地
南棲向參賽選手們提供了REVIVE [仙啟](https://revive.cn/)在實際場景中的落地。
南棲向參賽選手們提供了REVIVE「仙啟」幫助選手還原現(xiàn)實場景,構建無限接近真實的虛擬環(huán)境,在這個環(huán)境中進行策略驗證和對比,獲得最終可遷移到實際應用中的最佳策略。)幫助選手還原現(xiàn)實場景,構建無限接近真實的虛擬環(huán)境,在這個環(huán)境中進行策略驗證和對比,獲得最終可遷移到實際應用中的最佳策略。
此外,感謝張偉楠、安波、張哲先、俞揚等教授和老師,抽出寶貴時間,為選手們提供了一對一的指導和講座。
為了讓更多對強化學習應用感興趣的人從本次大賽中獲益,主辦方在南棲仙策B站官方賬號上公開了部分講座內(nèi)容,點擊講座觀看講座視頻。
大賽還涌現(xiàn)出了一批精彩的應用場景和項目,讓我們一起來看看獲獎名單。
誠如張偉楠老師在講座中所言,強化學習所對標的決策智能擁有非常廣闊的市場,因為在任何一個行業(yè),一旦有決策優(yōu)化的需求,就有可能使用到強化學習技術。
讓我們共同期待,在未來,更多的人能夠借助強化學習的力量改變世界。