미디어젠, AI 학습용 아동 음성 데이터셋 구축 본격화
상태바
미디어젠, AI 학습용 아동 음성 데이터셋 구축 본격화
  • 황민승 기자
  • 승인 2021.09.29 17:22
  • 댓글 0
이 기사를 공유합니다

초등생 이하 아동 한글·영어 음성 대상...메트웍스 홈페이지서 신청 가능

인공지능(AI) 전문기업 미디어젠이 아동 음성의 AI 인식률 저하를 해결할 데이터셋 구축에 본격 돌입했다.

미디어젠은 한국지능정보사회진흥원(NIA)이 추진하는 ‘2021 인공지능 학습용 데이터 구축 사업’의 일환으로 메트릭스 리서치와 함께 아동 음성 데이터 구축을 위한 아동 음성 녹음에 본격 착수했다고 29일 밝혔다.

이번 녹음을 통해 양사는 한국어 5000시간, 영어 5000시간의 대규모 아동 음성 데이터를 구축할 계획이다. AI 서비스가 성인에 비해 아이들의 음성을 제대로 인식하지 못하는 문제를 개선하는 것이 목표다. 이를 통해 아동 대상 교육용 AI 튜터 등 학습 AI 서비스 확산도 기대하고 있다.

데이터셋 구축에 참여를 원하는 아동 보호자는 메트웍스 홈페이지 가입 후 신청하면 되며, 각 미션별로 8만 5000원~12만 원 수준의 사례비가 제공된다. 참여 아동의 경우 교재를 활용해 제작된 문장을 책 읽듯이 낭독해 집에서 휴대전화, 태블릿, 노트북으로 간편하고 쉽게 목소리를 녹음할 수 있다.

참여 대상 아동은 만 4세부터 초등학교 6학년까지며 △언어 종류(한글·영어) △거주지 △연령대 △녹음 환경에 따라 선택 참여할 수 있다. 한글과 영어에 아직 익숙하지 못한 아동들이 참여할 수 있도록 듣기 기능을 제공해 듣고 따라 읽으며 녹음하면 된다.

아동 음성 수집을 담당하는 메트릭스 리서치 박두진 이사는 “AI 학습용 데이터로 아이들의 자연스러운 낭독 목소리를 수집하고 있다”며, “한국 아동의 음성 수집이 목표인 만큼 유창한 발음이나 영어실력이 중요하지 않으니 많은 참여를 기다리고 있다”고 강조했다.

미디어젠 윤성준 부사장은 “아동의 음성 데이터는 성인보다 부족한 데다 미취학 아동의 음성, 영어 음성은 특히 더 부족한 게 현실”이라며, “아동에게 부담을 주지 않도록 1000문장을 2주 이상 녹음할 수 있도록 구성했기 때문에 많은 아동의 참여로 고품질 AI 학습용 데이터가 구축될 것으로 기대한다”고 말했다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.