Exploring the  Feasibility of Automatic Scoring of Written Test Using ChatGPT: Focusing on the World Geography Written Test

doi:10.25202/JAKG.12.3.3

All Issue

2023 Vol.12, Issue 3 Preview Page Next Page

Research Article

Exploring the Feasibility of Automatic Scoring of Written Test Using ChatGPT: Focusing on the World Geography Written Test ChatGPT를 활용한 서･논술형 평가 자동 채점 가능성 탐색: 세계지리 서･논술형 평가를 중심으로: 성정원^1†, 신병철²
Jeong-won Seong^1†, Byoung-chul Shin²; ¹수원외국어고등학교 교사
²수원외국어고등학교 교사

¹Teacher, Suwon Academy of World Languages
²Teacher, Suwon Academy of World Languages

30 September 2023. pp. 415~432

PDF

Abstract

In this study, we compared and analyzed the scoring results of teachers and ChatGPT to explore the feasibility of using ChatGPT-4 for scoring written tests. For this study, we developed written test questions and scoring criteria based on the World Geographic Climate Unit. Three geography teachers with over 15 years of educational experience scored the questions twice. Additionally, ChatGPT performed scoring under different conditions: presenting only the rubric, presenting the rubric and example answers, and presenting the rubric, example answers, and critical scoring instructions. We then compared and analyzed the results. Question 1, which had a relatively accurate correct answer, exhibited a high correlation with the teachers’ scoring results when the rubric, example answer, and critical scoring instructions were provided. This correlation is believed to meet the criteria for intra-scorer reliability (a correlation of 0.6 or higher) for written tests. However, Question 2, whose scoring can be very subjective, did not meet the reliability criteria for intra-scorer reliability in the scoring involving the rubric, example answer, and critical scoring instructions. Nonetheless, a correlation value similar to that obtained by three teachers for Question 2 was found. When scoring written tests using ChatGPT, it can function as an assistant teacher by presenting prompts with rubrics, example answers, critical scoring instructions, or rubrics and example answers.

Keywords

World geography

Written tests

Scoring by ChatGPT

Intra-scorer reliability

본 연구에서는 ChatGPT를 활용하여 서･논술형 평가문항의 채점 가능성을 탐색하기 위해 교사와 ChatGPT의 채점 결과를 비교, 분석하였다. 이를 위하여 세계지리 기후 단원의 서･논술형 평가문항과 평가기준을 개발하고, 15년 이상 교육경력의 지리 교사 3명이 2차에 걸쳐 채점을 실시하였다. 그리고 ChatGPT는 평가기준만 제시한 경우, 평가기준･예시답안만 제시한 경우, 평가기준･예시답안･비판적으로 채점 명령을 제시한 경우로 나누어 채점을 실시하고 그 결과를 비교, 분석하였다. 비교적 정확한 정답이 있는 1번 문항은 평가기준･예시답안･비판적으로 채점 명령을 제시한 경우, 그리고 평가기준･예시답안을 제시한 경우에 교사의 채점 결과와 높은 상관관계를 보였으며, 이는 서･논술형 평가의 채점에서 교사 간 신뢰도 기준(상관관계 .6 이상)을 충족한 것으로 판단된다. 하지만 채점자의 주관이 많이 개입될 수 있는 2번 문항은 평가기준･예시답안･비판적으로 채점 명령을 제시한 경우, 논술형 평가의 채점에서 요구하는 교사 간 신뢰도 기준에 미치지 못하였다. 하지만 ChatGPT의 채점 결과는 2번 문항에 대한 지리 교사 간 상관관계와 유사한 값이 나왔다. ChatGPT를 활용하여 서･논술형 평가 문항을 채점할 경우, 평가기준･예시답안･비판적으로 채점 명령, 또는 평가기준･예시답안을 제시하는 프롬프트를 활용하면 보조 교사로서 채점자의 역할을 수행할 수 있다.

키워드

세계지리

서･논술형 평가

ChatGPT 채점

채점자 간 신뢰도

References

강원석, 2018, “서술형 문항 채점을 위한 복합문 구문 의미분석 시스템에 대한 연구,” 컴퓨터교육학회 논문지, 105-115.
교육부, 2022, ｢초･중등학교 교육과정 총론(교육부 고시 제2022-33호 별책 1)｣.
국가정보원, 2023, ｢챗GPT 등 생성형 AI활용 보안 가이드라인｣, 국가사이버안보센터.
권오남･오세준･윤정은･이경원･신병철･정원, 2023, “ChatGPT의 수학적 성능 분석: 국가수준 학업성취도 평가 및 대학수학능력시험 수학 문제 풀이를 중심으로,” 수학교육 논문집, 37(2), 233-256.
김기남･성정원, 2023, “세계지리 평가가 학생들의 지역 편견 형성에 미치는 영향,” 한국지리학회지, 12(2), 335-346. 10.25202/JAKG.12.2.5
김기철･김상범･서지영･백경선･이은경･이미영･이수정･이승미･조기희, 2023. ｢고교학점제 도입･운영 안내서(연구자료 ORM 2023-25)｣, 교육부･교육과정평가원.
김남준･배종수, 2006, “서술형 평가가 초등학생의 수학적 성향에 미치는 영향 연구,” 한국초등수학교육학회지, 10(2), 195-219.
김래영･이민희, 2013, “수학과 서술형 평가에 대한 중학교 교사들의 인식연구,” 수학교육학연구, 23(4), 533-551.
김승주, 2022, “키워드 네트워크 분석 방법을 활용한 국외 글쓰기 자동채점 연구 동향 분석-인문학 및 사회과학 영역의 학술지 논문을 중심으로,” 국어교육연구, 80, 45-93.
김인석･김봉규, 2020, “인공지능형 대화형 챗봇 현황과 영어교육용 챗봇 개발 방안,” 영어영문학 21, 33(2), 73-92.
김효선･오영열, 2014, “서술형 수학 쓰기 수업이 초등학생의 문제해결 및 수학적 성향에 미치는 효과,” 수학교육 논문집, 28(1), 131-154. 10.7468/jksmee.2014.28.1.131
노은희･심재호･김명화･김재훈, 2012, ｢대규모 평가를 위한 서답형 문항 자동채점 방안 연구 (연구보고 RRE 2012-6)｣, 서울: 한국교육과정평가원.
노은희･송미영･박종임･김유향･이도길, 2016, ｢한국어 문장 수준 서답형 문항 자동채점 프로그램 고도화 개발 및 적용 (연구보고 RRE 2016-11)｣, 서울: 한국교육과정평가원.
박도순･홍후조, 2011, ｢교육과정과 교육평가｣, 서울: 문음사.
박선미, 1999, “지리교육의 평가방법 재구조화,” 대한지리학회 학술대회논문집, 155-162. 10.1002/scin.5591551102
박종임･이상하･송민호･이문복･이민정･최숙기, 2022, ｢컴퓨터 기반 서 논술형 평가를 위한 자동채점 방안 설계(I) (연구보고 RRE 2022-6)｣, 진천: 한국교육과정평가원.
성태제, 2014, ｢문항제작 및 분석의 이론과 실제｣, 서울: 학지사.
손태권, 2023, “ChatGPT의 수학교육 활용 가능성 탐색: 분수 문제에 관한 학생의 산출물과 예비교사의 담화 사례를 중심으로,” 초등수학교육, 26(2), 99-113.
신동광･정혜경･이용상, 2023, “내용중심 영어 교수 학습의 도구로서 ChatGPT의 활용 가능성 탐색,” 영어교과교육, 22(1), 171-192.
양혜진･김혜영･신동광･이장호, 2019, “인공지능 음성챗봇기반 초등학교 영어 말하기 수업 연구,” Multimedia-Assisted Language Learning, 22(4), 184-205.
오정현, 2006, “고등학교 역사과 서술형･ 논술형 평가의 특징과 개선 방안,” 역사교육연구, 4, 109-157.
유재진, 2023, “인공지능을 활용한 지리교육 연구 -ChatGPT 기반 질의･응답을 중심으로-,” 한국사진지리학회지, 33(1), 162-173.
윤여범･박미애, 2020, “인공지능과 초등영어교육: 챗봇의 현황과 발전 방향을 중심으로,” 한국초등교육, 31(특별호), 77-90.
이동한, 2018, “인공지능을 활용한 영어 학습용 챗봇 시스템 개발 방안 연구,” 중등영어교육, 11(1), 45-68. 10.20487/kasee.11.1.201802.45
이진희･조인정, 2016, “지리공간기술의 지리교육현장 적용에 대한 예비교사들의 태도 연구,” 한국지리학회지, 5(2), 85-97. 10.25202/JAKG.5.2.1
장유정, 2020, “[윤리와 사상] 서술형 평가에 대한 학생 인식 조사,” 도덕윤리과교육, 68, 195-222. 10.18338/kojmee.2020..68.195
장진아･박준형･박지선, 2021, “인공지능 챗봇 관련 국내 연구 동향 및 챗봇 활용 현황 분석: 과학 교육에서의 활용을 위한 시사점을 중심으로,” 학습자중심교과교육연구, 21(13), 729-743.
조경철, 2012, “지리교육과정의 성취목표와 국가수준학업성취도 평가의 평가목표의ㅡ 비교분석: Bloom의 신교육목표분류학에 근거하여,” 한국지리학회지, 1(1), 19-31. 10.25202/JAKG.1.1.3
지은림, 2000, “논술형 수행평가를 위한 채점방법들의 비교,” 경희대학교 교육문제연구소 논문집, 16, 235-246.
진경애･남명호･김명화･오상철･김민정･주형미, 2006, ｢서답형 문항 자동채점 프로그램 도입 방안 연구(I) (연구보고 RRI 2006-6)｣, 서울: 한국교육과정평가원.
추성엽･민덕기, 2019, “영어 상호작용 촉진을 위한 과업 기반 AI 챗봇 활용 및 학생 발화 분석,” 초등영어교육, 25(2), 27-52.
최원경, 2020, “AI 챗봇을 활용한 초등영어 과정중심 말하기 평가,” 초등영어교육, 26(1), 131-152. 10.25231/pee.2020.26.1.131
최진영･하민수, “2023, 국어과 읽기 영역 서술형 평가를 위한 비지도 기반 인공지능 채점 보고 프로그램(SAAI)의 성능과 활용도 탐색”, 청람어문교육, 92, 7-48.
홍선호･윤택남･이삭･오은진, 2021, “초등영어교육에서 음성대화형 챗봇 활용 방법론 탐색 및 효과,” 한국초등교육, 31(5), 31-55.
황정규･서민원･최종근･김민성･양명희･김재철･강태훈･이대식･김준엽･신종호･김동일, 2016, ｢교육평가의 이해｣, 서울: 학지사.
황현숙, 2012, “중학교 1학년 과학에서 서술형 수행평가가 자기주도적 학습능력과 과학적 학습태도에 미치는 효과,” 한국교원대학교 석사학위논문.
Crawford, J., Cowling, M., and Allen, K.A., 2023, Leadership is needed for ethical ChatGPT: Character, assessment, and learning using artificial intelligence (AI), Journal of University Teaching & Learning Practice, 20(3), 1-19. 10.53761/1.20.3.02
Gao, C.A., Howard, F.M., Markov, N.S., Dyer, E.C., Ramesh, S., Luo, Y., and Pearson, A.T., 2022, Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers, BioRxiv, 1-18. 10.1101/2022.12.23.521610
Liu, N.F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., and Liang, P., 2023, Lost in the middle: How language models use long contexts, arXiv preprint arXiv:2307.03172, 1-19.
OpenAI, 2023, GPT-4 technical report, arXiv:2303.08774, 1-100.
Peel, M.C., Finlayson, B.L., and McMahon, T.A., 2007, Updated world map of the Köppen-Geiger climate classification, Hydrology and earth system sciences, 11(5), 1633-1644. 10.5194/hess-11-1633-2007
Plevris, V., Papazafeiropoulos, G., and Rios, A. J., 2023, Chatbots put to the test in math and logic problems: A preliminary comparison and assessment of ChatGPT-3.5, ChatGPT-4, and Google Bard. arXiv preprint arXiv:2305.18618. 1-20.
Qadir, J., 2023, Engineering education in the era of ChatGPT: Promise and pitfalls of generative AI for education, In 2023 IEEE Global Engineering Education Conference (EDUCON), 1-9. 10.1109/EDUCON54358.2023.10125121
Shakarian, P., Koyyalamudi, A., Ngu, N., and Mareedu, L., 2023, An Independent Evaluation of ChatGPT on Mathematical Word Problems (MWP), arXiv preprint arXiv:2302.13814, 1-9.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., and Polosukhin, I., 2017, Advances in neural information processing systems, 1-15.
MIT Technology Review, 2023년 8월 7일자, “ChatGPT is going to change education, not destroy it,” https://www.technologyreview.kr/chatgpt-is-going-to-change-education-not-destroy-it
OpenAI, 2023년 7월 12일자, “Documentation”, https://platform.openai.com/docs/introduction
OpenAI Playground, https://platform.openai.com/playground
Wikipedia, 2023년 8월 8일자, https://en.wikipedia.org/wiki/K%C3%B6ppen_climate_classification

Information

Publisher :The Association of Korean Geographers
Publisher(Ko) :한국지리학회
Journal Title :Journal of the Association of Korean Geographers
Journal Title(Ko) :한국지리학회지
Volume : 12
No :3
Pages :415~432
DOI :https://doi.org/10.25202/JAKG.12.3.3

[1] 강원석, 2018, “서술형 문항 채점을 위한 복합문 구문 의미분석 시스템에 대한 연구,” 컴퓨터교육학회 논문지, 105-115.

[2] 교육부, 2022, ｢초･중등학교 교육과정 총론(교육부 고시 제2022-33호 별책 1)｣.

[3] 국가정보원, 2023, ｢챗GPT 등 생성형 AI활용 보안 가이드라인｣, 국가사이버안보센터.

[4] 권오남･오세준･윤정은･이경원･신병철･정원, 2023, “ChatGPT의 수학적 성능 분석: 국가수준 학업성취도 평가 및 대학수학능력시험 수학 문제 풀이를 중심으로,” 수학교육 논문집, 37(2), 233-256.

[5] 김기남･성정원, 2023, “세계지리 평가가 학생들의 지역 편견 형성에 미치는 영향,” 한국지리학회지, 12(2), 335-346. 10.25202/JAKG.12.2.5

[6] 김기철･김상범･서지영･백경선･이은경･이미영･이수정･이승미･조기희, 2023. ｢고교학점제 도입･운영 안내서(연구자료 ORM 2023-25)｣, 교육부･교육과정평가원.

[7] 김남준･배종수, 2006, “서술형 평가가 초등학생의 수학적 성향에 미치는 영향 연구,” 한국초등수학교육학회지, 10(2), 195-219.

[8] 김래영･이민희, 2013, “수학과 서술형 평가에 대한 중학교 교사들의 인식연구,” 수학교육학연구, 23(4), 533-551.

[9] 김승주, 2022, “키워드 네트워크 분석 방법을 활용한 국외 글쓰기 자동채점 연구 동향 분석-인문학 및 사회과학 영역의 학술지 논문을 중심으로,” 국어교육연구, 80, 45-93.

[10] 김인석･김봉규, 2020, “인공지능형 대화형 챗봇 현황과 영어교육용 챗봇 개발 방안,” 영어영문학 21, 33(2), 73-92.

[11] 김효선･오영열, 2014, “서술형 수학 쓰기 수업이 초등학생의 문제해결 및 수학적 성향에 미치는 효과,” 수학교육 논문집, 28(1), 131-154. 10.7468/jksmee.2014.28.1.131

[12] 노은희･심재호･김명화･김재훈, 2012, ｢대규모 평가를 위한 서답형 문항 자동채점 방안 연구 (연구보고 RRE 2012-6)｣, 서울: 한국교육과정평가원.

[13] 노은희･송미영･박종임･김유향･이도길, 2016, ｢한국어 문장 수준 서답형 문항 자동채점 프로그램 고도화 개발 및 적용 (연구보고 RRE 2016-11)｣, 서울: 한국교육과정평가원.

[14] 박도순･홍후조, 2011, ｢교육과정과 교육평가｣, 서울: 문음사.

[15] 박선미, 1999, “지리교육의 평가방법 재구조화,” 대한지리학회 학술대회논문집, 155-162. 10.1002/scin.5591551102

[16] 박종임･이상하･송민호･이문복･이민정･최숙기, 2022, ｢컴퓨터 기반 서 논술형 평가를 위한 자동채점 방안 설계(I) (연구보고 RRE 2022-6)｣, 진천: 한국교육과정평가원.

[17] 성태제, 2014, ｢문항제작 및 분석의 이론과 실제｣, 서울: 학지사.

[18] 손태권, 2023, “ChatGPT의 수학교육 활용 가능성 탐색: 분수 문제에 관한 학생의 산출물과 예비교사의 담화 사례를 중심으로,” 초등수학교육, 26(2), 99-113.

[19] 신동광･정혜경･이용상, 2023, “내용중심 영어 교수 학습의 도구로서 ChatGPT의 활용 가능성 탐색,” 영어교과교육, 22(1), 171-192.

[20] 양혜진･김혜영･신동광･이장호, 2019, “인공지능 음성챗봇기반 초등학교 영어 말하기 수업 연구,” Multimedia-Assisted Language Learning, 22(4), 184-205.

[21] 오정현, 2006, “고등학교 역사과 서술형･ 논술형 평가의 특징과 개선 방안,” 역사교육연구, 4, 109-157.

[22] 유재진, 2023, “인공지능을 활용한 지리교육 연구 -ChatGPT 기반 질의･응답을 중심으로-,” 한국사진지리학회지, 33(1), 162-173.

[23] 윤여범･박미애, 2020, “인공지능과 초등영어교육: 챗봇의 현황과 발전 방향을 중심으로,” 한국초등교육, 31(특별호), 77-90.

[24] 이동한, 2018, “인공지능을 활용한 영어 학습용 챗봇 시스템 개발 방안 연구,” 중등영어교육, 11(1), 45-68. 10.20487/kasee.11.1.201802.45

[25] 이진희･조인정, 2016, “지리공간기술의 지리교육현장 적용에 대한 예비교사들의 태도 연구,” 한국지리학회지, 5(2), 85-97. 10.25202/JAKG.5.2.1

[26] 장유정, 2020, “[윤리와 사상] 서술형 평가에 대한 학생 인식 조사,” 도덕윤리과교육, 68, 195-222. 10.18338/kojmee.2020..68.195

[27] 장진아･박준형･박지선, 2021, “인공지능 챗봇 관련 국내 연구 동향 및 챗봇 활용 현황 분석: 과학 교육에서의 활용을 위한 시사점을 중심으로,” 학습자중심교과교육연구, 21(13), 729-743.

[28] 조경철, 2012, “지리교육과정의 성취목표와 국가수준학업성취도 평가의 평가목표의ㅡ 비교분석: Bloom의 신교육목표분류학에 근거하여,” 한국지리학회지, 1(1), 19-31. 10.25202/JAKG.1.1.3

[29] 지은림, 2000, “논술형 수행평가를 위한 채점방법들의 비교,” 경희대학교 교육문제연구소 논문집, 16, 235-246.

[30] 진경애･남명호･김명화･오상철･김민정･주형미, 2006, ｢서답형 문항 자동채점 프로그램 도입 방안 연구(I) (연구보고 RRI 2006-6)｣, 서울: 한국교육과정평가원.

[31] 추성엽･민덕기, 2019, “영어 상호작용 촉진을 위한 과업 기반 AI 챗봇 활용 및 학생 발화 분석,” 초등영어교육, 25(2), 27-52.

[32] 최원경, 2020, “AI 챗봇을 활용한 초등영어 과정중심 말하기 평가,” 초등영어교육, 26(1), 131-152. 10.25231/pee.2020.26.1.131

[33] 최진영･하민수, “2023, 국어과 읽기 영역 서술형 평가를 위한 비지도 기반 인공지능 채점 보고 프로그램(SAAI)의 성능과 활용도 탐색”, 청람어문교육, 92, 7-48.

[34] 홍선호･윤택남･이삭･오은진, 2021, “초등영어교육에서 음성대화형 챗봇 활용 방법론 탐색 및 효과,” 한국초등교육, 31(5), 31-55.

[35] 황정규･서민원･최종근･김민성･양명희･김재철･강태훈･이대식･김준엽･신종호･김동일, 2016, ｢교육평가의 이해｣, 서울: 학지사.

[36] 황현숙, 2012, “중학교 1학년 과학에서 서술형 수행평가가 자기주도적 학습능력과 과학적 학습태도에 미치는 효과,” 한국교원대학교 석사학위논문.

[37] Crawford, J., Cowling, M., and Allen, K.A., 2023, Leadership is needed for ethical ChatGPT: Character, assessment, and learning using artificial intelligence (AI), Journal of University Teaching & Learning Practice, 20(3), 1-19. 10.53761/1.20.3.02

[38] Gao, C.A., Howard, F.M., Markov, N.S., Dyer, E.C., Ramesh, S., Luo, Y., and Pearson, A.T., 2022, Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers, BioRxiv, 1-18. 10.1101/2022.12.23.521610

[39] Liu, N.F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., and Liang, P., 2023, Lost in the middle: How language models use long contexts, arXiv preprint arXiv:2307.03172, 1-19.

[40] OpenAI, 2023, GPT-4 technical report, arXiv:2303.08774, 1-100.

[41] Peel, M.C., Finlayson, B.L., and McMahon, T.A., 2007, Updated world map of the Köppen-Geiger climate classification, Hydrology and earth system sciences, 11(5), 1633-1644. 10.5194/hess-11-1633-2007

[42] Plevris, V., Papazafeiropoulos, G., and Rios, A. J., 2023, Chatbots put to the test in math and logic problems: A preliminary comparison and assessment of ChatGPT-3.5, ChatGPT-4, and Google Bard. arXiv preprint arXiv:2305.18618. 1-20.

[43] Qadir, J., 2023, Engineering education in the era of ChatGPT: Promise and pitfalls of generative AI for education, In 2023 IEEE Global Engineering Education Conference (EDUCON), 1-9. 10.1109/EDUCON54358.2023.10125121

[44] Shakarian, P., Koyyalamudi, A., Ngu, N., and Mareedu, L., 2023, An Independent Evaluation of ChatGPT on Mathematical Word Problems (MWP), arXiv preprint arXiv:2302.13814, 1-9.

[45] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., and Polosukhin, I., 2017, Advances in neural information processing systems, 1-15.

[46] MIT Technology Review, 2023년 8월 7일자, “ChatGPT is going to change education, not destroy it,” https://www.technologyreview.kr/chatgpt-is-going-to-change-education-not-destroy-it

[47] OpenAI, 2023년 7월 12일자, “Documentation”, https://platform.openai.com/docs/introduction

[48] OpenAI Playground, https://platform.openai.com/playground

[49] Wikipedia, 2023년 8월 8일자, https://en.wikipedia.org/wiki/K%C3%B6ppen_climate_classification

Journal of the Association of Korean Geographers ISSN:2287-4739(Print) 2733-8991(Online) 한국지리학회지

All Issue