Nhận dạng tiếng nói

Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, còn được gọi là nhận dạng giọng nói tự động (ASR), nhận dạng giọng nói máy tính hoặc chuyển đổi giọng nói thành văn bản (STT). Với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau. Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói.

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản:

Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói.
Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm.
Nhận dạng tiếng nói là một quá trình nhận thức. Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng.

Cách tiếp cận nhận dạng tiếng nói bằng thống kê bao gồm: sử dụng mô hình Markov ẩn, mạng nơ-ron, sử dụng cơ sở tri thức, v.v..

Các hệ thống nhận dạng tiếng nói có thể được phân thành hai loại: "phụ thuộc vào người nói" (speaker-dependent) và "không phụ thuộc vào người nói" (speaker-independent)^[1]. Các ứng dụng của nhận dạng tiếng nói bao gồm giao diện người dùng bằng giọng nói, quay số bằng giọng nói, điều khiển thiết bị gia đình, tìm kiếm từ khóa, nhập dữ liệu đơn giản, chuẩn bị tài liệu có cấu trúc, xác định đặc điểm của người nói^[2], xử lý văn bản từ giọng nói và nhập liệu giọng nói trực tiếp trong máy bay.

Khác với nhận dạng tiếng nói, thuật ngữ nhận dạng giọng nói^[3]^[4]^[5] hoặc xác định người nói^[6]^[7]^[8] chỉ việc xác định ai đang nói, chứ không phải nội dung của lời nói. Nhận dạng giọng nói có thể đơn giản hóa việc dịch nội dung tiếng nói trong các hệ thống được đào tạo trên giọng nói của một người cụ thể hoặc có thể được sử dụng để chứng thực hoặc xác minh danh tính của người nói trong quá trình bảo mật.

Lịch sử của nhận dạng tiếng nói có nhiều giai đoạn và đột phá quan trọng. Gần đây, lĩnh vực này đã được hưởng lợi từ các tiến bộ trong lĩnh vực học sâu và dữ liệu lớn. Sự tiến bộ được chứng minh không chỉ qua sự gia tăng các bài báo học thuật được xuất bản trong lĩnh vực này, mà quan trọng hơn là việc ngành công nghiệp trên toàn thế giới áp dụng nhiều phương pháp học sâu trong việc thiết kế và triển khai các hệ thống nhận dạng tiếng nói.

Tham khảo

^ “Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation”. Fifthgen.com. Lưu trữ bản gốc 11 Tháng mười một năm 2013. Truy cập 15 Tháng sáu năm 2013.
^ P. Nguyen (2010). “Automatic classification of speaker characteristics”. International Conference on Communications and Electronics 2010. tr. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN 978-1-4244-7055-6. S2CID 13482115.
^ “British English definition of voice recognition”. Macmillan Publishers Limited. Lưu trữ bản gốc 16 tháng Chín năm 2011. Truy cập 21 Tháng hai năm 2012.
^ “voice recognition, definition of”. WebFinance, Inc. Lưu trữ bản gốc 3 Tháng mười hai năm 2011. Truy cập 21 Tháng hai năm 2012.
^ “The Mailbag LG #114”. Linuxgazette.net. Lưu trữ bản gốc 19 Tháng hai năm 2013. Truy cập 15 Tháng sáu năm 2013.
^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (tháng 9 năm 2020). “Optimization of data-driven filterbank for automatic speaker verification”. Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533.
^ Reynolds, Douglas; Rose, Richard (tháng 1 năm 1995). “Robust text-independent speaker identification using Gaussian mixture speaker models” (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1): 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. Lưu trữ (PDF) bản gốc 8 Tháng Ba năm 2014. Truy cập 21 Tháng hai năm 2014.
^ “Speaker Identification (WhisperID)”. Microsoft Research. Microsoft. Lưu trữ bản gốc 25 Tháng hai năm 2014. Truy cập 21 Tháng hai năm 2014. When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound.

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

[1] “Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation”. Fifthgen.com. Lưu trữ bản gốc 11 Tháng mười một năm 2013. Truy cập 15 Tháng sáu năm 2013.

[2] P. Nguyen (2010). “Automatic classification of speaker characteristics”. International Conference on Communications and Electronics 2010. tr. 147–152. doi:10.1109/ICCE.2010.5670700. ISBN 978-1-4244-7055-6. S2CID 13482115.

[Macmillan_Brit._def_of_voice_recognition-3] “British English definition of voice recognition”. Macmillan Publishers Limited. Lưu trữ bản gốc 16 tháng Chín năm 2011. Truy cập 21 Tháng hai năm 2012.

[Voice_rec,_definition-4] “voice recognition, definition of”. WebFinance, Inc. Lưu trữ bản gốc 3 Tháng mười hai năm 2011. Truy cập 21 Tháng hai năm 2012.

[mail_bag,_gazette-5] “The Mailbag LG #114”. Linuxgazette.net. Lưu trữ bản gốc 19 Tháng hai năm 2013. Truy cập 15 Tháng sáu năm 2013.

[6] Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (tháng 9 năm 2020). “Optimization of data-driven filterbank for automatic speaker verification”. Digital Signal Processing. 104: 102795. arXiv:2007.10729. doi:10.1016/j.dsp.2020.102795. S2CID 220665533.

[7] Reynolds, Douglas; Rose, Richard (tháng 1 năm 1995). “Robust text-independent speaker identification using Gaussian mixture speaker models” (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1): 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. Lưu trữ (PDF) bản gốc 8 Tháng Ba năm 2014. Truy cập 21 Tháng hai năm 2014.

[8] “Speaker Identification (WhisperID)”. Microsoft Research. Microsoft. Lưu trữ bản gốc 25 Tháng hai năm 2014. Truy cập 21 Tháng hai năm 2014. When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

x t s Những lĩnh vực chính của khoa học máy tính
Các nền tảng toán học	Logic toán · Lý thuyết tập hợp · Lý thuyết số · Lý thuyết đồ thị · Lý thuyết kiểu · Lý thuyết thể loại · Giải tích số · Lý thuyết thông tin · Đại số · Nhận dạng mẫu · Nhận dạng tiếng nói · Toán học tổ hợp · Đại số Boole · Toán rời rạc
Lý thuyết phép tính	Độ phức tạp Kolmogorov · Lý thuyết Automat · Lý thuyết tính được · Lý thuyết độ phức tạp tính toán · Lý thuyết điện toán lượng tử
Các cấu trúc dữ liệu và các giải thuật	Phân tích giải thuật · Thiết kế giải thuật · Hình học tính toán · Tối ưu hóa tổ hợp
Các ngôn ngữ lập trình và Các trình biên dịch	Các bộ phân tích cú pháp · Các trình thông dịch · Lập trình cấu trúc · Lập trình thủ tục · Lập trình hướng đối tượng · Lập trình hướng khía cạnh · Lập trình hàm · Lập trình logic · Lập trình máy tính · Lập trình mệnh lệnh · Lập trình song song · Lập trình tương tranh · Các mô hình lập trình · Prolog · Tối ưu hóa trình biên dịch
Tính song hành, Song song, và các hệ thống phân tán	Đa xử lý · Điện toán lưới · Kiểm soát song hành · Hiệu năng hệ thống · Tính toán phân tán
Công nghệ phần mềm	Phân tích yêu cầu · Thiết kế phần mềm · Các phương pháp hình thức · Kiểm thử phần mềm · Quy trình phát triển phần mềm · Các phép đo phần mềm · Đặc tả chương trình · LISP · Mẫu thiết kế · Tối ưu hóa phần mềm
Kiến trúc hệ thống	Kiến trúc máy tính · Tổ chức máy tính · Các hệ điều hành · Các cấu trúc điều khiển · Cấu trúc bộ nhớ lưu trữ · Vi mạch · Thiết kế ASIC · Vi lập trình · Vào/ra dữ liệu · VLSI design · Xử lý tín hiệu số
Viễn thông và Mạng máy tính	Audio máy tính · Chọn tuyến · Cấu trúc liên kết mạng · Mật mã học
Các cơ sở dữ liệu và Các hệ thống thông tin	Hệ quản trị cơ sở dữ liệu · Cơ sở dữ liệu quan hệ · SQL · Các giao dịch · Các chỉ số cơ sở dữ liệu · Khai phá dữ liệu · Biểu diễn và giao diện thông tin · Các hệ thống thông tin · Khôi phục dữ liệu · Lưu trữ thông tin · Lý thuyết thông tin · Mã hóa dữ liệu · Nén dữ liệu · Thu thập thông tin
Trí tuệ nhân tạo	Lập luận tự động · Ngôn ngữ học tính toán · Thị giác máy tính · Tính toán tiến hóa · Các hệ chuyên gia · Học máy · Xử lý ngôn ngữ tự nhiên · Robot học · Biểu diễn tri thức và suy luận
Đồ họa máy tính	Trực quan hóa · Hoạt họa máy tính · Xử lý ảnh
Giao diện người-máy tính	Khả năng truy cập máy tính · Giao diện người dùng · Điện toán mang được · Điện toán khắp mọi nơi · Thực tế ảo
Khoa học tính toán	Cuộc sống nhân tạo · Tin sinh học · Khoa học nhận thức · Hóa học tính toán · Khoa học thần kinh tính toán · Vật Lý học tính toán · Các giải thuật số · Toán học kí hiệu
Chú ý: khoa học máy tính còn có thể được chia thành nhiều chủ đề hay nhiều lĩnh vực khác dựa theo Hệ thống xếp loại điện toán ACM.