調查發現,89%的美國大學生已經在用ChatGPT寫作業,而其中的72%也同時支持封殺。對此,老師們的態度倒是褒貶不一,值得玩味。ChatGPT誕生才兩個月,但它給全世界投下的‘重磅炸彈’就沒停下來過。
雖然在很多學校,老師們防ChatGPT如洪水猛獸,卻還是屢禁不止。
一項調查顯示,現在美國89%的大學生都是用ChatGPT做作業的。
89%的學生用ChatGPT做作業
89%?沒錯,甚至,真實的比例更高。
雖然此前,紐約的教育系統全面封殺ChatGPT,但憑學生們的聰明才智,怎麼可能真正把它禁掉呢?
果然,現在教育工作者們不得不直面現實:學生們已經在用ChatGPT肆無忌憚地作弊。
比如,北密歇根大學哲學教授Antony Aumann在為自己的世界宗教課評分時發現,全班第一的論文竟然是用ChatGPT寫的。
在線課程供應商Study.com向1,000名18歲以上的學生中發起一項調查,詢問他們在課堂上使用ChatGPT的情況。
結果顯示——
每10個學生中就有超過9個知道ChatGPT,遠遠超過小學教育工作者
超過89%的學生使用ChatGPT來完成傢庭作業
48%的學生用ChatGPT完成小測驗,53%的學生用ChatGPT寫論文,22%的學生用ChatGPT生成論文大綱
令人驚訝的是,72%的大學生認為ChatGPT應該在大學網絡中被禁
這些高得驚人的數據,令我們不得不正視這個現象:AI已經融入人類的社會結構,且產生廣泛而深遠的後果。
有趣的是,雖然有將近90%的學生在傢裡用ChatGPT做作業,但也有將近四分之三的學生希望ChatGPT在學校被禁。
也就是說,不患寡而患不均,無論是在哪個場景,學生們都希望站在同一起跑線上。
要麼大傢一起用,要麼就都不用。
老師們怎麼看?
同時,Study.com也調查100多名教育工作者,以便深入解他們對ChatGPT的感受。
解ChatGPT的大學教授中有72%擔心它對作弊的影響,而小學教育工作者中這一比例為58%
超過三分之一 (34%) 的教育工作者認為ChatGPT應該在學校中被禁,剩下66%的則支持學生使用
看來,老師們遠比我們想象得開明。那麼他們打算如何使用ChatGPT呢?
根據Study.com的調查,已經有21%的老師開始用ChatGPT輔助教學工作——
7%使用ChatGPT提供寫作提示
5%使用 ChatGPT來幫助授課
4%使用ChatGPT來制定課程計劃
4%使用ChatGPT教授寫作風格
3%使用ChatGPT作為數字導師
可以看到,與我們的印象不同,參與調查的老師中,大部分人對於AI的態度是相對開明的,66%的人認為ChatGPT可以作為幫助學生的資源。
與之相比,反倒是學生們自己的信任度要低得多,高達72%的人認為ChatGPT在學校裡應該被禁。
在整個人類歷史上,一項新事物的誕生,往往伴隨著諸多爭議。
很顯然,面對ChatGPT這個誕生兩個月的‘新生兒’,教師團隊內部也並沒有統一意見。
其中一部分教師,對於學生使用ChatGPT的態度非常鮮明——就是純純的作弊!
紐約大學教授:要像避瘟神一樣躲開ChatGPT!
這幾天,美國的很多學校開學,師生中最熱門的話題,無疑就是ChatGPT。
在紐約大學,教學大綱的‘學術誠信’部分已經明確把使用AI視為作弊行為,明令禁止。
此外,學生們在上課第一天也收到教授的警告。
在紐約大學Tisch藝術學院的一堂課上,教授在教學大綱上直截當地寫道——
‘問:使用ChatGPT或其他生成文本或內容的AI工具是否視為作弊?答:是的。’
即使在不需要寫論文的課上,教授也提出ChatGPT警告。
一份宏觀經濟學教學大綱這樣寫道:‘我們刻意把時間限制得很緊,所以你不可能有時間查閱書籍、ChatGPT或其他資源,同時還能完成測試。在測驗的24小時中,學生不得與任何人(包括 ChatGPT)交流。’
當然,眾所周知ChatGPT面對數學題時常犯蠢,因此數學系的教授們倒是免這一層擔憂。
紐約大學文理學院副院長Jenni Quilter表示,現在教授們都在擔心學生會使用ChatGPT作弊。
據Quilter介紹,早在12月,就有學生使用ChatGPT的事件發生。
‘在未經允許的情況下使用ChatGPT,後果等同於任何學術剽竊事件,處理結果包括重做作業、扣分、寫檢查。’
紐約大學古典學教授David Levene表示,他正在密切關註所有與ChatGTP相關的剽竊行為。
‘我已經明確警告學生,除非有我的許可,否則無論以任何形式使用ChatGPT,都是作弊。’
‘我還跟他們說,我已經試過用ChatGPT寫論文,它的最好成績是B-,最差是F。所以如果他們想得到比B-更高的成績,就應該像避瘟神一樣避開它!’
紐約大學教授們的擔心並非杞人憂天。
根據斯坦福日報進行的一項調查,17%的學生曾使用ChatGPT來完成秋季學期的作業和考試。
不過,比起Study.com的89%和48%,斯坦福這邊的比例顯然要低很多。
AI會讓學生‘大腦萎縮’?
很多教授在擔心,AI聊天機器人會對教育產生災難性影響。
‘僅僅因為有一臺機器可以幫助我舉起啞鈴,並不意味著我的肌肉就會發達,’西華盛頓大學歷史學教授Johann Neem接受《華爾街日報》采訪時說。
‘同樣地,有一臺可以寫論文的機器並不意味著我的思維就會發展。’
但其他教授認為,應該利用ChatGPT強大的技術,讓學生為新的現實做好準備。
韋伯州立大學教授Alex Lawrence表示:‘我希望它能給你足夠的啟發和教育,讓你想要學習如何利用這些工具,而不僅僅是學會更好地作弊。’
而賓夕法尼亞大學的Ethan Mollick說,他希望自己文學系的學生能夠利用技術‘寫得更多’和‘寫得更好’。
‘ChatGPT是寫作的力量倍增器,’Mollick補充道。‘我希望他們使用它。’
Google可以,ChatGPT就不行?
雖然引發學術誠信的風暴,但許多專傢認為,這項技術隻是一個新學習時代的開始——AI寫作工具是學習的未來。
迪肯大學數字研究中心主任Phillip Dawson表示:‘我認為這是人類能力提升的一個重大時刻。’
‘在我看來,五年後畢業的學生比現在的學生能做的事情要多得多,因為他們有這些AI工具。’
他把寫論文的學生與駕駛現代飛機的飛行員做類比。‘是的,你必須學會使用所有的儀器,你需要知道這些儀器是如何工作的,但你也需要在儀器出現故障時駕駛飛機。’
阿德萊德大學計算機與數學學院講師Cheryl Pope博士表示,ChatGPT非常適合編寫初稿,但無法取代人工編輯和事實核查的需求。‘你需要理解這個話題,才能評論它產生的答案。’
ChatGPT能讓你走出幾步,但不能讓你獲得高分。但它的可能性讓人興奮,能讓我們走向更高的標準。就像我們對兩個小時的筆試和兩個月寫出的論文有不同的期待。
還有一個原因是,獲得幫助需要大量的社會資源。
問別人一個蠢問題,會讓人很羞愧,但是面對AI,我們永遠不會有這樣的擔心。
斯坦福最強檢測器:DetectGPT
有攻就有防,能為老師們解憂的AI作弊檢測工具,也火速誕生。
最近,來自斯坦福大學的研究團隊就提出一種用於檢測AI生成文本的全新方法——DetectGPT。
概括來說:
DetectGPT通過利用模型的對數概率函數的局部曲率(由LLM生成的往往占據負曲率區域),來檢測文本是否出自預訓練語言模型。
DetectGPT隻使用興趣模型計算出的對數概率和來自另一個通用預訓練語言模型(如T5)的隨機擾動,無需訓練單獨的分類器,收集真實或生成的段落數據集,或給生成文本加水印。
DetectGPT的檢測效果比現有的零樣本(zero-shot)方法更好,特別是將20B參數GPT-NeoX生成的假新聞的檢測率從0.81 AUROC提高到0.95 AUROC。
論文地址:https://arxiv.org/abs/2301.11305
我們可以觀察到,機器生成的文本(左)有位於對數負曲率區域的趨勢,而附近的樣本平均具有較低的模型對數概率。
相比之下,人類的文本(右)則不會明顯占據負對數概率曲率區域。
接下來,想要確定一段文字是否由一個特定的LLM產生,如GPT-3。
首先需要DetectGPT使用一個通用的預訓練模型(如T5)對該段落產生輕微的擾動。然後再讓DetectGPT比較原始樣本與每個擾動樣本的對數概率。
如果平均對數比很高,則該樣本很可能來自源模型。
具體的測試結果如下:
此外,經過真實和生成文本的大型數據集訓練的有監督檢測模型,在分佈式文本上的表現與DetectGPT一樣,甚至更好。(上)
然而,對於新的領域,如PubMed醫學文本和來自WMT16的德國新聞數據,zero-shot是開箱即用的,而有監督的檢測方法則會由於過度的分佈偏移而垮掉。(下)
不過,DetectGPT自身也存在著明顯的限制。
首先,DetectGPT基於的是白盒假設,即我們可以評估有關模型的對數概率。對於那些API背後的模型(如GPT-3),評估概率還需要花錢。
其次,DetectGPT需要獲得一個合理的擾動函數。雖然在這項工作中,作者使用現成的掩碼模型,如T5和mT5(用於非英語語言),但如果現有的模型不能很好地對空間進行表征,那麼DetectGPT在一些領域的性能就可能會降低。
最後,DetectGPT比其他檢測方法的計算量更大,因為它需要對每個候選段落的擾動集進行抽樣和評分,而不是僅僅對候選段落進行評分。
雖然DetectGPT現階段還沒開放,但問題不大。
畢竟,市面上還有很多工具可以直接使用。
尤其是GPTZero,不僅免費,而且效果拔群。
小編親測發現,最新版本的GPTZero甚至可以明確地指出一段文字中,哪段是AI生成的,哪段是人類寫的。
原理上,GPTZero主要靠‘困惑度’(文本的隨機性)和‘突發性’(困惑度的變化)作為指標進行判斷。
在每次測試中,GPTZero還會挑選出困惑度最高的那個句子,也就是AI寫出的最像人話的句子。