巔峰對決，獲獎(jiǎng)選手經(jīng)驗(yàn)揭秘：強(qiáng)化學(xué)習(xí)創(chuàng)新創(chuàng)意大賽圓滿收官

2022-11-04 16:49 3631

南京2022年11月4日 /美通社/ -- 近日，由江蘇省人工智能學(xué)會(huì)、上海數(shù)字大腦研究院及南棲仙策共同發(fā)起的強(qiáng)化學(xué)習(xí)創(chuàng)新創(chuàng)意大賽結(jié)果出爐。

賽事回顧

強(qiáng)化學(xué)習(xí)創(chuàng)新創(chuàng)意大賽，旨在激發(fā)強(qiáng)化學(xué)習(xí)技術(shù)的應(yīng)用創(chuàng)新，不設(shè)具體賽題。鼓勵(lì)選手了解強(qiáng)化學(xué)習(xí)的機(jī)制原理、掌握強(qiáng)化學(xué)習(xí)的任務(wù)建模、發(fā)掘強(qiáng)化學(xué)習(xí)落地場景、展現(xiàn)強(qiáng)化學(xué)習(xí)的創(chuàng)新應(yīng)用價(jià)值。

大賽自6月17日開賽以來吸引國內(nèi)外高等院校、科研單位、企業(yè)單位負(fù)責(zé)人等數(shù)百人參與其中。

大賽經(jīng)初賽、復(fù)賽兩輪，4個(gè)月的激烈角逐之后，最終經(jīng)由學(xué)術(shù)專家和產(chǎn)業(yè)專家共同評選出12支獲獎(jiǎng)隊(duì)伍。其中4支隊(duì)伍分別斬獲"最佳項(xiàng)目獎(jiǎng)"、"最佳實(shí)踐獎(jiǎng)"、"最佳創(chuàng)意獎(jiǎng)"、"最佳社會(huì)價(jià)值獎(jiǎng)"；8支隊(duì)伍獲得"優(yōu)秀項(xiàng)目獎(jiǎng)"。

獲獎(jiǎng)選手 Talk Time

獲獎(jiǎng)隊(duì)伍

最佳項(xiàng)目獎(jiǎng)：止于至善隊(duì)

"基于強(qiáng)化學(xué)習(xí)，實(shí)現(xiàn)分布式能源系統(tǒng)的智能決策未來是可行的。"

"目前國內(nèi)外的分布式能源管理平臺(tái)，雖然在數(shù)據(jù)感知層大量使用了人工智能技術(shù)，但在決策層還是基于傳統(tǒng)的優(yōu)化算法。這些算法受限于計(jì)算精度和實(shí)時(shí)性不能兼得，而且很難處理新能源帶來的波動(dòng)性和隨機(jī)性問題。而強(qiáng)化學(xué)習(xí)可以處理這些問題。"

隊(duì)長侯勝任來自荷蘭代爾夫特理工大學(xué)，吳明賀、顏?zhàn)雍銇碜詵|南大學(xué)。為應(yīng)對全球氣候變暖和能源危機(jī)，這支隊(duì)伍將強(qiáng)化學(xué)習(xí)應(yīng)用于新能源沖擊下的能源管理系統(tǒng)，實(shí)現(xiàn)分布式能源系統(tǒng)的智能決策，使能源系統(tǒng)運(yùn)行在高效、經(jīng)濟(jì)、安全、可靠的運(yùn)行區(qū)間。在滿足用戶需求的前提下，大幅度降低公司系統(tǒng)運(yùn)行成本，為客戶創(chuàng)造更多的收益。

最佳創(chuàng)意獎(jiǎng)：Brain Control隊(duì)

"我一直認(rèn)為強(qiáng)化學(xué)習(xí)方法會(huì)為生命科學(xué)領(lǐng)域里的一些問題帶來突破。"

"本次獲獎(jiǎng)項(xiàng)目是我們團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)方法應(yīng)用大腦疾病治療的一次嘗試，目的是為了更好地幫助醫(yī)生和病人選擇更合適的治療策略，這不僅可以為病人帶來更優(yōu)的治療效果，更可以釋放大量的醫(yī)療資源。"

這是來自復(fù)旦大學(xué)的兩位博士生，李巖和權(quán)昭宇，他們將強(qiáng)化學(xué)習(xí)應(yīng)用于自動(dòng)化腦深部電刺激的參數(shù)調(diào)節(jié)。也就是通過強(qiáng)化學(xué)習(xí)自動(dòng)尋找個(gè)性化的最優(yōu)刺激參數(shù)，產(chǎn)生最優(yōu)的疾病治療方案。
這項(xiàng)技術(shù)在未來將有機(jī)會(huì)在面向帕金森、癱瘓、癲癇和抑郁癥等的疾病治療中發(fā)揮巨大作用。減輕病人的痛苦，減少醫(yī)生的工作量。

最佳社會(huì)價(jià)值獎(jiǎng)：Traffic Go隊(duì)

"作為交通從業(yè)者，我非?？释軌蚬?jiān)克難，打造適用于我國的先進(jìn)城市交通優(yōu)化控制與緩堵平臺(tái)。"

這是來自同濟(jì)大學(xué)的博士后王一喆，他對被稱為"交通工程領(lǐng)域王冠上的明珠"的世界性難題：交通控制和緩解擁堵發(fā)起挑戰(zhàn)。

基于強(qiáng)化學(xué)習(xí)的交通控制算法及機(jī)制，他通過構(gòu)建可復(fù)用性強(qiáng)，自動(dòng)化程度高的關(guān)鍵特征提取程序；搭建層次分明，易于查詢的數(shù)據(jù)結(jié)構(gòu)，即使面對隨機(jī)性強(qiáng)，波動(dòng)性大且呈非線性變化的復(fù)雜城市道路交通狀況，也可以獲得更高的可測性和可控制性。

最佳實(shí)踐獎(jiǎng)：穿梭在銀河的火箭隊(duì)

"希望能幫助更多人縮減決策時(shí)間，讓人們將時(shí)間用在有更有價(jià)值的地方。"

"通過本次比賽，我們更加堅(jiān)信了強(qiáng)化學(xué)習(xí)在決策領(lǐng)域巨大的潛力，希望能將學(xué)到的知識(shí)應(yīng)用于實(shí)踐，同時(shí)幫助大家理解機(jī)器決策過程中每一步的含義，也就是為什么這樣做，能夠帶來更高的收益。"

這支隊(duì)伍的陳濤，史晨佳和任智軍老師來自于上海商學(xué)院，他們聚焦個(gè)體投資者和機(jī)構(gòu)，提供完整高效可行的投資交易策略。他們的項(xiàng)目對中國的A股市場的環(huán)境和數(shù)據(jù)進(jìn)行建模，將深度強(qiáng)化學(xué)習(xí)應(yīng)用到金融領(lǐng)域，使用智能體模擬交易員，在A股市場中進(jìn)行選股和擇時(shí)交易，讓決策更優(yōu)越、更簡單。

在項(xiàng)目進(jìn)行到中后期，為了節(jié)省算力和時(shí)間，他們在REVIVE仙啟平臺(tái)進(jìn)行了多智能體模型的訓(xùn)練。"不得不說，「仙啟」的表現(xiàn)真的遠(yuǎn)超團(tuán)隊(duì)預(yù)期，只需要少量的代碼便可以進(jìn)行實(shí)操，這也極大的彌補(bǔ)了團(tuán)隊(duì)在多智能體模型上編碼能力不足的缺陷，早點(diǎn)使用該平臺(tái)也許項(xiàng)目進(jìn)度會(huì)快很多。"

該項(xiàng)目在"東方財(cái)富杯"全國大學(xué)生金融挑戰(zhàn)賽進(jìn)行了落地驗(yàn)證，以總收益20.93%戰(zhàn)勝了全國98%的選手。為他們高興！

在實(shí)際場景中的落地

南棲向參賽選手們提供了REVIVE [仙啟](https://revive.cn/）在實(shí)際場景中的落地。

南棲向參賽選手們提供了REVIVE「仙啟」幫助選手還原現(xiàn)實(shí)場景，構(gòu)建無限接近真實(shí)的虛擬環(huán)境，在這個(gè)環(huán)境中進(jìn)行策略驗(yàn)證和對比，獲得最終可遷移到實(shí)際應(yīng)用中的最佳策略。)幫助選手還原現(xiàn)實(shí)場景，構(gòu)建無限接近真實(shí)的虛擬環(huán)境，在這個(gè)環(huán)境中進(jìn)行策略驗(yàn)證和對比，獲得最終可遷移到實(shí)際應(yīng)用中的最佳策略。

仙啟官網(wǎng)：https://revive.cn/