[생활과학] 데이터 라벨링, 인공지능의 ‘교과서’를 만들다
상태바
[생활과학] 데이터 라벨링, 인공지능의 ‘교과서’를 만들다
  • 김혜나 기자
  • 승인 2021.12.22 13:37
  • 댓글 0
이 기사를 공유합니다

작업 난이도 높지 않고 전문성을 요하지 않아 부업으로 인기 몰이 중

우리는 인공지능(AI)이 적용된 다양한 기술과 서비스를 사용하며 보다 편리한 생활을 누리고 있다. 기계의 무인화, 시설 제어, 가깝게는 AI 스피커나 휴대폰 음성인식 서비스가 이에 해당한다.

AI 기술의 고도화는 데이터 학습을 통해 이루어지는데, AI가 데이터를 학습하려면 가공된 데이터, 즉 AI가 인지하고 학습할 수 있는 정제된 데이터가 필요하다.

최근 디지털 전환이 가속화되며 AI 학습을 위한 데이터 수요도 증가하고 있다. 다양한 분야에서 AI가 활용됨에 따라 더 많은 ‘학습 데이터’가 필요하기 때문이다.

이렇게 AI가 인지할 수 있도록 데이터를 가공하는 작업이 데이터 라벨링으로, 문서, 이미지, 영상, 소리 등의 데이터를 수집하고 그렇게 수집한 데이터에 데이터 가공 도구를 활용하여 AI가 학습할 수 있도록 정보를 입력하는 등의 행위가 여기에 속한다.

과학기술정보통신부는 데이터 라벨링을 "기술·산업적으로 유망하고 AI응용개발에 공통적으로 활용 가능한 이미지·영상 등 범용성 높은 AI 데이터를 구축하는 것"으로 정의하고 있다.

데이터 라벨링의 작업 방식은 수집과 가공으로 나뉘는데, 먼저 수집은 어떤 대상의 사진 또는 자신의 목소리를 녹음해 제공하는 작업이다. 예를 들어 식물에 관련한 데이터가 필요한 경우 해당 식물의 사진을 찍거나, 정해진 문장을 읽어서 녹음해 올린다.

가공은 앞서 수집된 자료들을 다듬어 AI의 학습용 데이터로 쓰일 수 있도록 만드는 작업이다. 가령 객체 인식 데이터 라벨링을 예시로 들면 한 사진에 고양이, 의자, 테이블이 있을 경우 그들의 범위를 각각 지정하여 ‘고양이’, ‘의자’, ‘테이블’이라는 정보를 입력하는 식이다.

데이터 라벨링은 특정한 기술이나 전문성을 요하지 않고 나이 제한을 두지 않아 대학생, 직장인을 넘어 최근 중장년 층에서도 인기를 끌고 있다. 어느 때나 작업이 가능하기 때문에 가벼운 부업으로 하는 사람도 많다. 실제로 AI 학습 데이터 플랫폼 기업 크라우드웍스의 회원 수는 누적 30만 명을 돌파했다.

앞서 언급했듯 AI가 더 고도화되려면 그만큼 더 많은 데이터를 필요로 하기 때문에, 수요와 공급은 계속해서 폭증할 전망이다. 시장조사기업 글로벌 마켓 인사이트(Global Market Insights)에 따르면 글로벌 데이터 라벨링 시장은 5조 5천억 원에 달할 것으로 예상된다.

국내 역시 비슷한 추세로, 한국데이터산업진흥원에 따르면 국내 데이터 라벨링 시장은 지난 5년간 연 평균 21.9%의 성장세를 보여왔으며 2025년에는 약 4조 3100억 원의 규모를 형성할 것으로 전망됐다.

다만 이렇게 가공되는 데이터의 질에 대한 전문가들의 우려도 있다. 지나치게 단순한 데이터만 많이 생산하는 것은 의미 없다는 것이다. 실제로 인공지능의 고도화는 질 높은 데이터를 많이 공부할수록 실수 확률이 낮아지고 보다 정확한 판별이 가능하기 때문에 보다 의미있는 데이터 생산률을 높이는 것이 중요하다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.