본문 바로가기

LG CNS AI GENIUS/강의 정리본

[AI 미션클리어] 12차시 – 인공지능을 통한 음성인식 심화

1.물체소리 학습 모델 생성

배경 소음 수집

클래스 추가

소요 시간 10초로 지정 후 데이터 수집

수집 완료 후 [학습 시키기] 클릭

학습 완료!

2.음성인식 성능 평가

고급 설정에 들어가면 성능을 수치로 확인할 수 있다

정확도

어휘 설명

test acc(학습 샘플) : 추출해 놓은 데이터셋의 85%를 학습에 사용한다

 =트레이닝 샘플, 트레이닝 데이터셋

 

acc(테스트 샘플) : 모아놓은 데이터셋의 15% 가량으로 가중치 업데이트마다 성능을 평가하기 위한 데이터로 사용되는 테스트 데이터셋

 

과소적합 : 인공지능 모델이 학습 샘플의 어떠한 특징이나 복잡성을 파악하지 못하여 분류 상태가 좋지 않은 경우

=> 훈련 샘플(훈련 데이터셋)과 테스트 데이터셋에 대한 성능 모두 안 좋은 경우

 

과적합 : 인공지능 모델이 지나치게 학습 샘플과 유사하게 분류하도록 학습이 되어서 테스트 샘플에 대해서는 성능이 좋지 못한 경우

=>테스트 데이터셋에 대해서는 지속적으로 성능이 좋아지지 않지만 훈련 데이터셋에서는 아주 성능이 좋은 상태

=>아무리 에포크를 늘려도 계속 과적합 상태가 유지된다

=>과적합 상태를 극복하려면?

데이터셋의 구성을 더 다양하게 진행하여 전체 데이터셋을 85%, 15%로 나누어도 비슷한 데이터 샘플끼리 섞을 수 있도로 갇양하 ㄴ데이터와 많은 양의 데이터를 모아야한다

 

최종적으로는 훈련 데이터셋에 대한 손실 및 정확도 그래프와

테스트 데이터셋에 대한 손실 및 정확도 그래프가

서로 비슷한 범주에서 좋게 나오도록 데이터를 모으고 학습시켜야한다

(과적합X, 과소적합X)

 

정리

성능 향상시키는 방법

1. 배경 소음 데이터 확보하기

2. 데이터 수집량 늘리기

3. 데이터 특징이 잘 드러나도록 정제하기

 

성능을 평가할 수 있는 방법

1. 정확도 함수 그래프

2. 손실 함수 그래프