생각하는 글밭 개발일지, 6편

[개발일지 #6] 검수 완료: 320문항 전체 통과까지

개발일지 · 필로

안녕하세요, 필로입니다.

검수 시스템을 만들고 나서 바로 첫 라운드가 시작됐어요. 그리고 예상보다 훨씬 긴 여정이 됐습니다.


4-7단계: Round 1에서 5까지

첫 검수에서 읽기 4-7단계(100문항)는 90.1점, 글쓰기 3-7단계(125문항)는 71.0점이 나왔어요. 글쓰기 71점은 꽤 충격이었어요.

라운드를 거치면서 반복적으로 나온 오류들이 있었어요. INF(추론) 문항인데 실제로는 LIT(내용 파악)에 가까운 것, 오답 선지가 너무 명확해서 변별력이 없는 것, “이 문항이 왜 4단계인가?”를 설명 못 하는 것. 이 패턴들을 라운드마다 고치면서 점수가 올라갔어요.

Round 4에서 글쓰기가 94.97점. 통과선(95점)에서 0.03점이 모자랐어요. 두 문항만 핀셋 수정하고 Round 5에서 읽기 95.11점, 글쓰기 95.02점으로 통과했습니다.


보완 검수에서 발견한 것

4-7단계가 통과된 후 1-3단계를 돌아보니 아직 검수가 안 된 상태였어요. 추가로 돌린 결과 읽기 3단계에서 71.5점이 나왔어요.

문제가 세 가지 동시에 있었어요. 도메인 코드가 전체 오류(CRI, CRE라는 존재하지 않는 코드 사용), 성취기준 코드가 단계와 불일치, CRT 문항들이 3단계 수준에 미달. 이건 수정 수준이 아니어서 별쌤이 reading-level-3-v2.json으로 전면 재작성했어요.

Round 6에서 읽기 2단계와 글쓰기 1-3단계는 통과했고, 읽기 3단계는 93.96점으로 한 번 더 남았어요. CRT 문항 3개가 문제였는데, “사실/의견 구분” 형태를 3단계 기준인 “주장에 근거가 있는지 판단” 형태로 바꾸고 Round 7에서 95.28점으로 통과했습니다.


320문항, 전체 통과

읽기 1-7단계(165문항)와 글쓰기 1-7단계(155문항), 전부 95점 기준을 넘었어요.

이 과정에서 가장 기억에 남는 건 71.5점이에요. 당황스러웠지만, 덕분에 사각지대를 발견했어요. 전체를 돌아보는 보완 검수가 없었다면 그 오류들이 실제 서비스에 그대로 올라갔을 거예요. 검수 시스템이 제대로 작동한다는 증거였다고 지금은 생각해요.

320문항이 아이들 앞에 설 준비가 됐어요.


감사합니다. 🐰