<tfoot id="22si8"></tfoot>

<fieldset id="22si8"></fieldset>

QQ在線客服

在線客服
在線客服
在線客服
在線客服
在線客服
在線客服

當前位置：首頁> 資訊> 科技評論

用AI來改試卷狗屁不通的論文也能評高分？

2019-08-22 11:47　來源: 網(wǎng)絡(luò)　瀏覽（838）人

分享按鈕

　　用AI來改試卷狗屁不通的論文也能評高分？根據(jù)調(diào)查顯示，以自然語言處理為基礎(chǔ)的人工智能論文評分系統(tǒng)，至少已經(jīng)被美國的 21 個州正式引入到正式考試的評分工作當中。

用AI來改試卷狗屁不通的論文也能評高分？

　　而且，月圓的不僅僅只有國外，我國的「機器評卷員」也早已經(jīng)投入到考場中。

　　早在 2016 年，我國教育考試中心就和科大訊飛成立了聯(lián)合實驗室，共同開展人工智能技術(shù)在閱卷、命題、考試評價分析等方面的研究。而且在 2017 年，湖北襄陽就已經(jīng)正式在中考評卷工作中引入了該機器評分系統(tǒng)作為評分輔助手段。

　　這些機器評卷員的背后，有海量的資料作為參考，即使一天閱卷無數(shù)，也并不會因為疲勞以及不愉悅的情緒影響閱卷的效率和公正。

　　但事實真的是這樣嗎？最近，VICE 的一份報道顯示，這些 AI 評卷員實際上并沒有大家想象中的公正。

　　無可避免的算法偏見

　　AI 評卷，其實也沒有大家想象中的那么公正。而首先第一個問題，就是算法偏見。

　　實際上，教育行業(yè)一直以來都在盡力消除對不同語言背景的學(xué)生所產(chǎn)生的潛意識偏見，但這個問題則在人工智能評卷系統(tǒng)上相當嚴重。

　　ETS（美國非營利性考試服務(wù)中心）所提供的 E-rater 機器評分系統(tǒng)，目前正在為 GRE、TOEFL 等考試提供評分參考。而 ETS 也是眾多機器評分系統(tǒng)提供商中，極少數(shù)會提供偏差研究報告的。

　　ETS 新產(chǎn)品開發(fā)副總裁 David Williamson 表示：

　　其實評分系統(tǒng)存在算法偏見是一個普遍存在的問題，只不過大多數(shù)提供商都不會像我們這樣對外公開。

　　在多年的研究里，ETS 發(fā)現(xiàn)機器評分系統(tǒng)會「偏愛」來自中國大陸的學(xué)生，所給的分數(shù)整體會比人類評卷員要更高。與此同時，像非裔美國人、阿拉伯語學(xué)生、西班牙留學(xué)生等群體則更容易受到來自機器的偏見，所能得到的分數(shù)會更低一些。

　　為此，ETS 在 2018 年對算法進行了深入的研究，最終發(fā)現(xiàn)了原因。

　　以 GRE（美國研究生入學(xué)考試）為例，來自中國大陸的學(xué)生由于篇幅更長，且會在論文中使用大量復(fù)雜的詞匯，使得機器誤認為論文的水平會高于平均水準，從而給出更多的分數(shù)。即使這些復(fù)雜的句型在人類評卷員看來和論文的主旨并無太多關(guān)聯(lián)，甚至明顯能看出是套用了預(yù)先背好的范文。

　　相反，由于非裔美國人、阿拉伯語留學(xué)生的語言風(fēng)格會更偏向于簡單和直接，導(dǎo)致在機器評分系統(tǒng)中很難獲得較高的分數(shù)。

　　這些偏見實際上也直接反應(yīng)在分數(shù)上，在測試時，一群水平相當?shù)膶W(xué)生當中，E-rater 機器評分系統(tǒng)為中國大陸的學(xué)生給出的平均分達 1.31 分，而非洲裔美國人則只有 0.81 分。

　　當然，如果有參與 GRE 的讀者也不用擔(dān)心，因為該系統(tǒng)目前也只是給人類評分員「打一下輔助」而已，最終的論文成績依舊是由人類來決定。

　　而除了 ETS 以外，新澤西理工學(xué)院也發(fā)現(xiàn)了自家所使用的一項機器評分系統(tǒng)存在著算法偏見。

　　新澤西理工學(xué)院此前通過一個名為 ACCUPLACER 的評分系統(tǒng)來判斷一年級學(xué)生是否需要額外的輔導(dǎo)，但是后來經(jīng)過技術(shù)委員會的研究發(fā)現(xiàn)，該系統(tǒng)對亞裔、西班牙裔學(xué)生所寫的論文會存在偏見，并不能很公正地給出判斷。

　　甚至「狗屁不通」的論文也能獲得高分

　　如果說算法偏見只是影響分數(shù)高低，對考試公正影響還不算特別大的話，那么機器評分系統(tǒng)還有一個更嚴重的缺陷。

　　就是連胡編亂造也識別不出來。

　　在幾年前，麻省理工學(xué)院的預(yù)科主任 Les Perelman 和一群學(xué)生利用論文語言生成器 BABEL 生拼硬湊出了數(shù)篇論文。

　　這幾篇論文與正常的論文不太一樣，雖然運用了很多高級詞匯，復(fù)雜句型，但當中大部分內(nèi)容都是前言不搭后語的，甚至可以用「狗屁不通」來形容。

　　他們將這幾篇論文提交給了幾個不同的機器評分系統(tǒng)進行評分，出乎意料的是，這幾篇論文都獲得了不錯的成績。

　　更讓人想不到的是，幾年后 VICE 也復(fù)制了該實驗，結(jié)果也和之前驚人地相似。新澤西理工大學(xué)教授 Elliot 對此表示：

　　目前的論文評分系統(tǒng)更加強調(diào)語法的準確性、書面語言的標準性。但是對于學(xué)生敏銳的觀點和特別的洞察卻很難發(fā)現(xiàn)出來。然而這兩點在人類評卷員看來，都是一篇論文最寶貴的地方。

　　目前，已經(jīng)有不少教育領(lǐng)域的相關(guān)人士對這些機器改卷員提出質(zhì)疑，而澳大利亞也已經(jīng)宣布暫時擱置在標準考試當中引入機器評分系統(tǒng)。

　　來自 AI Now 研究所的 Sarah Myers West 表示，與在更廣泛的人工智能應(yīng)用領(lǐng)域中一樣，想把算法偏見在評分系統(tǒng)中消除同樣是一場持久戰(zhàn)。

　　不過盡管如此，無論是來自新澤西理工大學(xué)教授的 Elliot 還是來自 AI Now 研究所的 Sarah Myers West，他們都還是發(fā)展機器評分系統(tǒng)的支持者。因為這確實是未來的一個發(fā)展方向，正如猶他州的考試發(fā)展評估員 Cydnee Carter 所說，通過機器對論文進行評估，不僅能為國家的教育系統(tǒng)省下大量的人力和物力，這項技術(shù)未來還能給學(xué)生和教師提供及時的學(xué)術(shù)反饋，極大地提高教育效率。

　　只不過在完全能做到公平公正之前，這些機器評卷員，還是只充當一個輔助的角色為妙。

2898站長資源平臺網(wǎng)站資訊：http://www.afrimangol.com/news/

【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ，我們將及時溝通與處理。本站內(nèi)容除了2898站長資源平臺（ www.afrimangol.com ）原創(chuàng)外，其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容，涉及言論、版權(quán)與本站無關(guān)。

最新文章

商機加盟

更多

友鏈買賣

更多

網(wǎng)站	權(quán)重	銷量
三生網(wǎng)	5	26
電影網(wǎng)每天2萬ip	5	36
職校網(wǎng)	5	20
篆體字	5	3412
大寶導(dǎo)航網(wǎng)	5	104
英語詞典	5	32
優(yōu)尊手游網(wǎng)	4	2
生活查詢	5	2874
酒泉在線	5	14
大眾濰坊網(wǎng)	4	5

熱門文章

相關(guān)資訊

關(guān)注我們

站長資源平臺微信公眾號

微信二維碼

￥/月