대학원생 혹사하는 비윤리적 텍스트 전사, 소프트웨어로 해방
머신러닝 도구로 혁신된 근대 초기 텍스트 전환
최근 몇 년간 디지털화 노력으로 16세기와 17세기 인쇄본이 그 어느 때보다 널리 보급되었다.
학자들은 이제 책상을 나서거나 실제 기록 보관소를 방문하지 않고도 디지털 전사본에서 키워드를 검색할 수 있다.
하지만 접근이 아무리 쉬워도 대부분의 디지털 자료는 시간, 노동력, 자금의 제약으로 전사되지 않은 상태로 남아 있다.
세레나 스트레커Serena Strecker와 킴벌리 리프턴Kimberly Lifton이 16세기 저널 The Sixteenth Century Journal에 게재한 새로운 논문은 이 문제의 기술적 측면과 윤리적 측면을 모두 다룬다.
저자들은 역사적 텍스트를 수동으로 필사하기 위해 종종 아웃소싱된 노동자(대학원생이나 노동자)에 의존한 전통적인 필사 방법에 대한 대안을 논의한다.
광학 문자 인식 Optical Character Recognition (OCR) 소프트웨어는 19세기 후반과 20세기 텍스트 필사에는 효과적이지만, 근대 초기 인쇄본에서 흔히 나타나는 불일치 유형에는 적합하지 않다.
따라서 근대 초기 학자들은 필사 텍스트 인식 Handwritten Text Recognition (HTR) 기술에 점점 더 관심을 기울인다.
가장 효과적인 HTR 소프트웨어인 Transkribus는 공개 필사 모델 접근이나 개인 교육을 지원하여 필사 과제에 대한 새로운 해결책을 제시한다.
스트레커와 리프턴은 16세기 독일 표본 컬렉션 4개로 구성된 표본 집단을 대상으로 Transkribus를 사용하여 사례 연구를 수행했다.
실험 결과, 공개적으로 이용 가능한 HTR 모델조차도 매우 정확한 근대 초기 인쇄본 필사본을 생성할 수 있음을 증명했다.
또한, 학자들이 Transkribus 공개 모델을 사용하여 훈련 데이터를 생성하면, 5단계 과정을 거쳐 원본 자료에 맞는 자체 모델을 개발할 수 있다.
이러한 접근 방식은 필사 정확도를 극대화할 뿐만 아니라 윤리적 준수도 보장한다.
저자들은 아웃소싱 인력을 고용하는 것이 "더 이상 필요하지도 바람직하지도 않다"고 주장한다.
대신, 개별 연구자들이 스스로 필사본을 제작할 수 있도록 권한을 부여하는 방향으로 전환해야 한다고 주장하며, 이를 통해 학계의 불평등을 심화하고 식민지 노동 관행의 장기적인 영향을 재생산하는 것을 방지한다.
HTR의 가능성에도 불구하고, 저자들은 근대 초기 학계가 이 기술을 연구 워크플로에 어떻게 통합할 수 있는지 논의해야 한다는 점을 분명히 한다.
스트레커와 리프턴은 "근대 초기 인쇄본의 정확하고 자동화한 필사가 더 이상 목표가 아닌 현실이 된 지금, 근대 초기 연구 분야는 인간 노동과 머신러닝 기술의 어떤 조합이 수용되고, 지지되며, 궁극적으로 연구의 미래를 형성할 것인지 고려해야 한다"고 결론지었다.
그들은 미래의 필사본은 기술적으로 효율적일 뿐만 아니라 노동 윤리를 준수해야 한다고 강조한다.
"윤리적인 노동 관행을 고수해야만 학자들은 학계 위계질서 내의 불평등을 심화시키거나 식민주의의 지속적인 불평등을 영속시키는 것을 피할 수 있습니다."
More information: Strecker, S., & Lifton, K. (2025). Unlocking the digitized archive of early modern print: The automatic transcription of early modern printed books. The Sixteenth Century Journal, 56(2), 395–419. doi:10.1086/735052
*** [편집자주] ***
이짝이나 저짝이나 필사본 같은 텍스트를 디지털 전환하는 일은 연구책임자 이름으로 프로젝트를 따와서 수행하지만
그 작업 대부분은 대학원생이나 다른 연구원들의 고된 노동이 바탕에 있다.
그네들이 일단은 그 난해한 필사본 텍스트를 일일이 정서해야 하니 얼마나 품이 많이 들고 고되겠는가?
이를 훈련이라는 이름으로 강제했다.
흔히 하는 말이 그러는 가운데서 문서를 보는 법을 터득하고 문제의식을 습득하며 그에서 결국 진짜 연구자가 탄생한다 운운하는 개소리가 넘쳐난다.
지금 이 순간에도 그런 허울에 연구원들이 각종 비인간적인 처우를 받는다는 것이다.
이 과정을 없애겠다는 것이 이 프로젝트 목표라는 뜻인 듯하다.
그 전근대적인 혹사노동을 없애겠다 뭐 이런 뜻인 듯하다.