뉴스 > 주요뉴스 > 종목주요

주요뉴스

[단독] 국립국어원이 제공하는 AI 학습자료에도 혐오·차별 발언 발견됐다
한국경제 | 2021-01-15 14:50:12

정부가 약 200억원의 예산을 들여 만든 인공지능(AI) 데이터에 혐오, 차별 발언
등 다수의 문제 있는 표현이 들어간 것으로 확인됐다. 전문가들은 혐오나 차별
등의 내용을 데이터에서 걸러내도록 현장에서 AI 윤리가 뿌리내려야 한다고 조
언했다. AI가 배우는 자료에 혐오·차별 표현 다수 발견
15일 한국경제신문이 입수한 자료에 따르면 국립국어원 빅데이터 모음집 &lsqu
o;모두의 말뭉치’의 메신저 대화에 다수의 혐오·차별표현, 반사회
적 표현 등이 포함됐다. 이 대화 내역에는 ‘에이즈는 게이들 걸리는 거
아닌가’ ‘마누라 XX하고 토막내 죽인다고 해줄게’ ‘내
글에서 줌내(기혼 여성에 대한 비하 표현)날까봐’ 등의 문장이 들어있었
다. ‘조교 확인해서 XXX교수님께 확인부탁해요’ 등 공인, 연예인이
아닌 실제 사람의 이름이 들어있기도 했다. 정보기술(IT) 업계 관계자는 &ldq
uo;충분한 필터링 과정을 거치지 않아 비식별화에 실패한 것으로 파악된다&rdq
uo;고 말했다.

해당 사업의 설명자료인 ‘메신저 대화 자료 수집 및 말뭉치 구축’
에 따르면 “자료를 선별할 때 비속어의 사용이 포함된 대화는 자연스러운
언어 습관의 한 부분으로 간주해 수집 대상에 포함시켰으나 지나치게 선정적인
내용이나 반사회적인 내용, 범죄 모의, 혐오나 차별 등의 내용이 다수 포함돼
있어 말뭉치로 구축하였을 경우 논란이 될 여지가 있는 메신저 대화는 수집 대
상에서 제외했다”고 설명하고 있다. 이어 “수집 대화의 경우 사전
에 지나치게 선정적인 내용, 반사회적 내용, 혐오나 차별 등의 논란이 될 수 있
는 대화는 수집하지 않는다고 안내해 이러한 대화를 원천적으로 원천 차단했다
”고 덧붙였다. 또한 실명도 비식별화를 했다고 밝혔다.

이 ‘모두의 말뭉치’ 사업은 국립국어원이 예산 204억원을 배정 받
아 진행했다. AI와 관련한 연구·개발을 진행하고 관련 산업계에서 국가
공공재로 활용할 자료를 구축하기 위해 시작했다. 말뭉치란 한국어 분야의 빅
데이터로 사람이 실제 사용하는 문장 등을 기계가 학습할 수 있는 형태로 모아
놓은 자료집을 말한다. 챗봇이나 AI 비서가 한국어를 자연스럽게 알아듣고 분석
해 말하려면 반드시 다양한 한국어 말뭉치로 학습을 해야 한다. 이 자료는 지난
해 8월부터 국립국어원 ‘모두의 말뭉치’ 웹사이트에 공개돼 AI를
연구하겠다는 사람이면 누구나 신청해 다운로드 받을 수 있다. 즉 누구나 이 데
이터로 혐오·차별 발언을 하는 챗봇을 만들 수 있다는 의미다.

국립국어원 관계자는 “사업을 진행할 때 최대한 문제 소지가 있는 표현을
배제하라고 지침을 내보냈다”며 “거르긴 했지만 한계가 있었을 거
같다”고 해명했다. “AI 윤리, 현장 적용 중요”

AI는 실제 사람들 간의 메신저 대화 등을 학습해 인간과 비슷한 언어 구사 능력
을 갖게 된다. AI의 '학습 자료'에 혐오와 차별 발언이 있으면 이를 그
대로 답습할 수 있다. AI 개발사가 제대로 된 개인정보 동의를 얻지 않고 메신
저 대화를 모으는 것도 새로운 사회문제로 대두되고 있다.

최근 개인정보 유출, 혐오 표현 등의 논란을 빚고 있는 AI 챗봇(채팅로봇) &ls
quo;이루다’가 대표적이다. 이 서비스의 개발사 스캐터랩은 이날 개인정
보보호위원회·한국인터넷진흥원(KISA) 합동 조사가 종료되는 즉시 이루
다 데이터베이스(DB)와 딥러닝 대화 모델을 폐기하기로 발표했다. 그러나 문제
가 된 ‘연애의 과학’ 데이터의 전량 폐기가 아니라 이용자들의 반
발은 계속될 것으로 예상된다.

IT 업계는 ‘이루다 사건’을 계기로 유사한 사태의 재발을 막기 위
한 대응에 나서고 있다. 지난 13일 카카오는 증오발언 근절을 위한 원칙을 발표
했다. 스캐터랩의 사례를 반면교사로 삼아야 한다는 분석이 나온다. 양상환 네
이버 D2SF 리더는 “‘이루다 사건’은 AI 산업 발전의 성장통
이 될 것”이라며 “특히 스타트업은 앞으로 데이터 확보와 활용에
있어 내부에서 잘 제어할 수 있는 시스템을 구축하는 것이 중요하다”고
말했다.

전문가들은 AI 산업 전반에 윤리 의식이 제고될 필요가 있다고 지적했다. 이광
석 서울과학기술대학교 IT정책전문대학원 교수는 “차별, 혐오 표현 등이
데이터에 계속해서 섞이고 있는 것이 문제”라며 “현장에서 AI 윤
리를 중요하게 여기지 않거나, 인지하고 있지 못한다는 의미”라고 설명했
다. 이어 “정부 기관이 나서서 AI 윤리에 대해 산업 관계자가 인지할 수
있도록 교육하는 가이드라인을 만들어야 한다”고 했다.

김남영 기자 nykim@hankyung.com

ⓒ 한국경제 & hankyung.
com, 무단전재 및 재배포 금지

이시각 주요뉴스