- 음성 녹음

환경, 기록 장비

 

음성신호의 저장 및 분석 방법

목소리 (Analogue) -> 컴퓨터 분석 (Digital) : AD conversion.

반대: DA conversion

 

- 표본 추출률: Sampling rate.

연속적인 형태의 아날로그 음성신호에서 주파수와 관계뙨 정보

단위: Hz

 

분석하고자 하는 최대 주파수 영역의 2배에 해당하는 값 결정.

(가청영역: 20~20000Hz) 음악CD 제작시 표본추출률 40000Hz

 

양자화 Quantification

진폭 - 소리의 에너지, 강도와 관련

단위 - bit

 

- 음파 (Sound wave)

 

x축 - 시간

y축 - 진폭

 

일정한 모양의 반복 - 주기파 (Periodic wave)

주기(period), 주파수 (frequency), 진폭 (Amplitute), 위상차 (Phase difference)

Amplitude.

복합파: Complex wave

 

- 스펙트럼 (Spectrum)

음파: x축: 시간  - Y축: 진폭

스펙트럼:

 - x축: 주파수

 - Y축: 진폭

 

(a) 파형 (b) 스펙트럼

사진 출처: http://www.aistudy.co.kr/physiology/phonation_denes.htm

 

 

 

- 스펙트로그램

사진출처: https://newsight.tistory.com/200

FFT: Fast Fourier Transform

 

스팩트로그램: 스팩트럼 + 시간

 

x축: 시간 (Time)

y축: 주파수 (Frequency domain)

z축: 진폭 (진하기/연하기)

 

 

###

기본주파수 F0, Fundamental frequency

주파수 변도률: Jitter

진폭 변동률: Shimmer

잡음 대 배율 비율 noise to harmonic rate

 

캡스트럼

- 기본 주파수 변화에 영향을 덜받음

배음의 구조 Harmonic structure.

 

FFT -> 주파수/진폭 = 스팩트럼

스팩트럼에 log를 취해서 한번 더 퓨리에 변환 -> 캡스트럼

 

CPP = Cepstral peak <-> Linear regression

음성 변화 정도의 정량화 (문장 전체)

CPP가 낮을수록 Breathy voice

 

GRBAS Score

G (Grade): 음성에 대한 종합적 평가 항목

R (Rough): 거친 정도

B (Breahty): 숨이 새어나오는 정도

A (Asthenic): 가냘픈 정도

S (Strained): 쥐어짜는 정도

 

0~4. 점수 높을수록 좋지 않음

 

 

- 음성 분석 프로그램

CSL

Dr. speech

Praat

 

- CSL MDVP. 22개의 parameter 추출

- Voice VRP

- vlsl-pitch

Posted by sosal sosal

댓글을 달아 주세요