十年網(wǎng)站開發(fā)經(jīng)驗(yàn) + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊(duì)
量身定制 + 運(yùn)營維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
新智元報(bào)道

來源:Science
編輯:白峰
【新智元導(dǎo)讀】近日,一名MIT的自由科學(xué)家Hutson在Science發(fā)文,抨擊「人工智能的一些進(jìn)展并不真實(shí)」,MIT研究人員對(duì)當(dāng)前的一些AI論文進(jìn)行了系統(tǒng)評(píng)估后發(fā)現(xiàn),新模型和之前的經(jīng)典模型結(jié)果相差并不大,論文作者宣稱的效果提升大部分是舊模型的微小改動(dòng),并采用了不同的評(píng)價(jià)標(biāo)準(zhǔn)。
人工智能似乎變得越來越聰明。每一部 iPhone 都比上一部更好地了解你的面孔、聲音和習(xí)慣,各種性能的提升真的是來自算法的創(chuàng)新嗎?
Matthew Hutson
多數(shù)算法改進(jìn)缺乏創(chuàng)新性
麻省理工學(xué)院(MIT)計(jì)算機(jī)科學(xué)專業(yè)的研究生戴維斯 布拉洛克(Davis Blalock)表示,有些算法改進(jìn)來自微調(diào),而不是發(fā)明者聲稱的核心創(chuàng)新,而且有些改進(jìn)可能根本不存在。
Blalock 和他的同事比較了幾十種改進(jìn)神經(jīng)網(wǎng)絡(luò)的方法?!肝覀兪崂砹?0篇論文,但是我們?nèi)匀徊恢雷钕冗M(jìn)的技術(shù)到底是什么?!?/p>
研究人員評(píng)估了81種剪枝算法,這些剪枝算法主要是裁剪一些不必要的連接以提高神經(jīng)網(wǎng)絡(luò)效率。所有人都都變著法說自己的算法是最好的, 但他們很少進(jìn)行公允的有說服力的比較ーー當(dāng)研究人員把這些算法放在同一標(biāo)準(zhǔn)下評(píng)估時(shí),10年的時(shí)間,并沒有什么顯著的改善。
以剪枝算法為例,質(zhì)疑這些論文主要原因有以下幾點(diǎn):
缺乏一個(gè)完備的比較。2010年之前的算法沒有加入評(píng)估,最近的更新也沒有,對(duì)比較多的是VGG、ResNet這些經(jīng)典架構(gòu),而最新的EfficientNet則很少。
你用了ImageNet,好我用CIFAR;什么你也用CIFAR,RseNet架構(gòu)?那我用CIFAR和VGG。。
數(shù)據(jù)集和神經(jīng)網(wǎng)絡(luò)架構(gòu)都不統(tǒng)一,得出的結(jié)論實(shí)在很難讓人信服。
評(píng)價(jià)指標(biāo)不一致,結(jié)果描述不完整。僅從效率和準(zhǔn)確率無法評(píng)估出模型的對(duì)比效果。只有一篇論文使用了標(biāo)準(zhǔn)差來評(píng)估整體的趨勢(shì)。
還有一點(diǎn)就是大家用的數(shù)據(jù)預(yù)處理方法、超參數(shù)的調(diào)整策略,使用的框架,剪枝和微調(diào)介入的時(shí)期等都沒有統(tǒng)一,這些都會(huì)導(dǎo)致結(jié)果的不同。比如同樣的算法,有些PyTorch的實(shí)現(xiàn)就比TensorFlow的好,當(dāng)然反過來也有可能。
水論文到底在玩什么把戲?
今年三月份在MLSys上公布的結(jié)果讓 Blalock 的博士導(dǎo)師,麻省理工學(xué)院的計(jì)算機(jī)科學(xué)家 John Guttag 感到驚訝,「這種不平衡的比較本身就可以解釋為什么停滯不前了」。這是老一套了,對(duì)吧?
從當(dāng)前主流的機(jī)器學(xué)習(xí)架構(gòu)來看,機(jī)器學(xué)習(xí)算法的收益主要來自其結(jié)構(gòu)、損失函數(shù)或優(yōu)化策略的根本性變化。
卡內(nèi)基梅隆大學(xué)的計(jì)算機(jī)科學(xué)家 Zico Kolter 研究圖像識(shí)別模型,該模型被訓(xùn)練后可以對(duì)黑客的「對(duì)抗性攻擊」免疫。
一種早期的對(duì)抗性訓(xùn)練方法投影梯度下降法(PGD) ,現(xiàn)在一些更復(fù)雜的方法看似超越了PGD,但是在二月份的 arXiv 論文中,Kolter 和他的同事們發(fā)現(xiàn),只需要一個(gè)簡單的技巧來增強(qiáng)PGD,所有這些方法的效果都差不多。
論文灌水成風(fēng),但剪枝算法建議別發(fā)了
網(wǎng)友對(duì)如今AI論文灌水之風(fēng)也是頗有微詞,比如NIPS2018入選千篇。
知乎網(wǎng)友@Xiang Wang提出,論文要么跟實(shí)際貼合提升業(yè)務(wù),要么就是理論創(chuàng)新,但是很多論文兩者都沒有做到,純用捏造,實(shí)在是尷尬。
即使新方法并不比舊方法好到哪里去,每隔一段時(shí)間也會(huì)有一個(gè)新的算法實(shí)現(xiàn)應(yīng)用上的突破, 「這幾乎就像一個(gè)風(fēng)險(xiǎn)投資組合,其中一些東西并沒有真正發(fā)揮作用,但一些業(yè)務(wù)卻表現(xiàn)出色」。
一些工業(yè)界看起來很好的效果可能是因?yàn)樵擃I(lǐng)域的爆炸性增長,論文數(shù)量超過了有經(jīng)驗(yàn)的審稿人。評(píng)審人員時(shí)間緊任務(wù)重,只與基準(zhǔn)進(jìn)行比較,很容易得出偏見性的結(jié)論。
今年早些時(shí)候,Blalock 的合著者,麻省理工學(xué)院的研究員 Jose Gonzalez Ortiz,發(fā)布了一款名為 ShrinkBench 的軟件,該軟件是基于PyTorch并且是開源的,它使得比較剪枝算法變得更加容易,以后再發(fā)這類的論文可要注意了!
參考鏈接:
https://www.zhihu.com/question/59002888)
https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real)
https://proceedings.mlsys.org/static/paper_files/mlsys/2020/73-Paper.pdf