9. CÁC ĐẶC TRƯNG ÂM THANH SỬ DỤNG TRONG MÔ HÌNH NHẬN DẠNG GIỌNG NÓI
Trang 27 |  PDF (Size KB)
Nguyễn Huy Thế, Nguyễn Tuấn Anh

CÁC ĐẶC TRƯNG ÂM THANH SỬ DỤNG TRONG MÔ HÌNH NHẬN DẠNG GIỌNG NÓI

 

 

 

Nguyễn Huy Thế, Nguyễn Tuấn Anh
Trường Đại học Thủy lợi, email: nguyenhuythe@tlu.edu.vn

 

 

 


1. GIỚI THIỆU CHUNG

 

 

Nhận dạng giọng nói ngày càng được áp dụng rộng rãi, đặc biệt là trong các lĩnh vực tương tác người - máy bởi sự đa dạng và linh hoạt trong ngôn ngữ giao tiếp. Các phương pháp nhận dạng giọng nói phổ biến dựa trên việc trích xuất thông tin đặc trưng từ giọng nói và sử dụng để huấn luyện các mô hình nhận dạng. Trích xuất các đặc trưng âm thanh là bước rất quan trọng, quyết định độ chính xác và hiệu quả của mô hình nhận dạng, cần được thực hiện đảm bảo yêu cầu hạn chế tối đa hoặc không mất mát thông tin.

 

 

Hiện nay, có rất nhiều kỹ thuật trích xuất đặc trưng giọng nói đã được phát triển. Nghiên cứu này tập trung vào một số kỹ thuật được sử dụng phổ biến nhất bao gồm Mel Frequency Cepstral Coefficients (MFCC), Linear Prediction Coefficients (LPC), Linear Prediction Cepstral Coefficients (LPCC). Các dữ liệu đặc trưng này được sử dụng để xây dựng và huấn luyện mô hình học máy nhận dạng sự có mặt của các từ khóa trong giọng nói thu âm được. Việc tính toán các bộ dữ liệu và huấn luyện mô hình nhận dạng được thực hiện với ngôn ngữ Python.

 

 

 Xem thêm ...