데이터 라벨링이란?
인공지능이 학습할 수 있도록 라벨을 달아주는 것 ! => 인공지능에게 라벨이란 정답과 같은 의미를 갖는다.
- 인공지능의 학습
1. 데이터 수집
2. 데이터 정제
3. 데이터 라벨링
4. 데이터 검수
4차 산업혁명 + 언택트 + 디지털 대전환 -> 양질의 학습용 데이터를 만들기 위해 데이터 라벨링이 필요
- 463EB : 463Exabyte : 2025년 지구에서 하루 동안 생산될 데이터의 양을 예상한 값
( 1EB = 100경 byte )
- 데이터 유형 : 이미지 / 영상 / 텍스트 / 음성
1. 이미지 데이터 : 랜드마크나 손글씨, 얼굴 인식, 질환 진단 등에 활용
> 수집 : 작업 대상과 기준에 맞춰 업로드
> 가공 : 바운딩 , 감정 분석, 키포인트, 얼굴 랜드 마크, OCR, 폴리곤, 폴리라인 등
* 폴리곤 : 시작점과 끝점이 연결 O / 폴리라인 : 시작점과 끝점이 연결 X
2. 영상 데이터 : 이상행동탐지, 동작분석, 등에 활용
> 수집 : 작업 대상과 기준에 맞춰 업로드
> 가공 : 바운딩, 스켈레톤, 특정 구간 추출, 시멘틱 세그멘테이션(폴리곤, 폴리라인, 브러쉬), 3D 라벨링, 멀티모달 라벨링
3. 텍스트 데이터 : 문자로 구성되어 있는 데이터로 '언어 모델'이라고 부름
> 수집 : 제시된 내용에 적절한 질문 작성, QNA 만들기
> 가공 : 문장 의미 비교, 감정 태깅, 키워드 찾기, 문장 요약 등
4. 음성 데이터 : 인공지능 음성인식, 자동번역, 영상 자막 등에 활용
> 수집 : 음성 등의 소리를 녹음하여 바로 업로드
> 가공 : 화자 구분, 음성 받아쓰기(일반 전사, 이중 전사)
- 용어 정리
① 크라우드소싱
대중과 아웃소싱의 합성어 : 기업활동의 일부 과정에서 일반 대중을 참여시키는 것을 의미
② 크라우드워커
일반인이 기업의 업무 용역을 대행 수행하고 일정 대가를 받는 경우를 의미
③ 데이터 라벨러
데이터의 수집에서 가공에 이르기까지 인공지능 학습에 필요한 형태의 데이터를 만드는 사람