1.음성인식이란?
음성인식: 기계가 사람의 말소리를 인식하고 그 결과를 문자로 출력해주는 시스템
ex) 나 지금 친구랑 저녁 먹으러 왔어 => 기계:음성 분석, 인식 => 음성 인식의 결과를 문자 언어로 바꿈
2.음향모델과 음향모델훈련
음향 모델: 음성에 대해 익숙해지는 과정
음향 모델 또는 Acoustic Model을 훈련한다고 하며 음향 모델을 훈련하는 것은 특정 언어에 존재하는 모든 음소를 배우는 과정을 담고 있다
3.언어모델과 언어모델훈련
음성을 인식할 언어에 익숙해졌다면?
단어들을 자연스럽게 나열하는 규칙을 배워야한다
단어의 자연스러운 나열: 특정 단어 다음에 나타나는 단어가 의미상으로나 문법상으로 어색하지 않은 상태
단어의 자연스러운 결합을 듣고 배우는 과정을 음성인식에서는 언어모델 또는 Language Model을 훈련한다고 하며 이러한 과정을 통해 특정 언어에 존재하는 단어 결합 규칙을 습득할 수 있다
4.기계가 수행하는 음성인식 방법
음성인식을 위해 필요한 것 : 음향모델과 언어모델 학습
베이즈 정리
어떤 사건이 서로 배반하는 원인 둘에 의해 일어난다고 할 때
실제 사건이 일어났을 때, 이것이 두 원인 중 하나일 확률을 구하는 정리
P(문장 | 음성)
어떤 음성이 주어졌을 때 그것은 어떤 문장이라는 조건부 확률을 구해야 하며
이때 기계에게 주어지는 음성은 이전에 배웠던 것과 같이 오디오 파형이 된다
하지만 이 오디오 파형을 보고는 무슨 문장인지 맞힐 수 없다
그래서 먼저 각 문장에 등장하는 음소들을 특정 조건으로 주고
그 음소들의 파형을 보여주며 음향모델을 학습하게 된다
이 과정이 베이즈 정리에서 likelihood 부분이 된다
예를 들어 'ㅏ'라는 모음을 보여주고 이 음성의 파형은 다음과 같이 생겼다는 것을 보여주는 것이다
그리고 이를 모든 음성에 대해서 훈련시키면 음향모델이 완성된다
언어모델은
뉴스나 소설같은 자료를 통해 각 단어가 등장하는 횟수를 학습한다
하나의 단어 확률만 보면 언어모델에서 추구하는 자연스러운 결합을 학습하기 어렵기 때문에
보통은 두 개 세 개의 단어 연쇄를 두고 그 단어 연쇄 등장 횟수를 학습한다
이 과정이 베이즈 정리의 prior 부분이다.
이렇게 최종적으로 Posterior라고 불리는 우리가 목표한 음성인식 문제를 해결할 수 있는 음성인식 모델이 완성된다
'LG CNS AI GENIUS > 강의 정리본' 카테고리의 다른 글
[AI 미션클리어] 12차시 – 인공지능을 통한 음성인식 심화 (0) | 2022.06.09 |
---|---|
[AI 미션클리어] 11차시 – 인공지능을 통한 음성인식 기초 (0) | 2022.06.09 |
[AI 미션클리어] 9차시 – 음성 데이터의 이해 (1) | 2022.06.07 |
[AI 미션클리어] 8차시 – Teachable Machine으로 물체 구분하는 모델 만들기 (0) | 2022.05.18 |
[AI 미션클리어] 7차시 – Teachable Machine 시작하기 (0) | 2022.05.15 |