Препознавање на говор
Оваа статија можеби бара дополнително внимание за да ги исполни стандардите за квалитет на Википедија. Ве молиме подобрете ја оваа статија ако можете. |
Во компјутерските науки, препознавањето на говор (ПГ) е превод на изговорените зборови во текстот. Тоа е исто така познат како "автоматско препознавање на говор", "АПГ", "Компјутер за препознавање на говор", "говор на текстот", или само "STT". Некои ПГ (Препознавање на говор) системи користат "обука", каде што поединецот звучник чита делови од текстот во ПГ системот. Овие системи го анализираат конкретниот глас на лицето и го користат за фино нагодување на признавање на говорот на тоа лице, што резултира во попрецизна транскрипција. Системи кои не го користат за обука се нарекуваат "звучни независни" системи. Системи кои користат обука се нарекува "звучни зависни" системи.
Апликациите за препознавање на говор вклучуваат гласовен кориснички интерфејси како што е гласовно бирање (на пример, "Повик за дома"), насочување (на пример, "Би сакал да се направи колективен повик"), domotic - апарат за контрола, пребарување (на пример,да се најде поткаст каде одредени зборови беа изречени), едноставно внесување на податоците (на пример, со внесување на бројот на кредитната картичка), подготовка на структурирани документи (на пример, извештај за радиологија ), говор во обработка на текст (на пример, зборвен процесор или e-mail), и во авио-транспортот (обично се нарекува директен гласовен влез).
Терминот за препознавање на глас[1][2][3] се однесува на наоѓање на идентитетот на "кој" се обраќа, од она што тие го кажуваат.Со препознавање на говорникот може да се поедностави работата на преведување говор во системи кои се обучени за гласови одредено лице или тие може да се користат да се идентификува или провери идентитетот на говорникот, како дел од безбедносните процеси.
Примена
[уреди | уреди извор]Здравство
[уреди | уреди извор]Во здравството, препознавање на говор може да се спроведе во front-end или back-end на процесот на медицинската документација. Front-end препознавањето на говор е кога давателот на услуги диктира во машината за препознавање на говор , препознати зборови се прикажани како тие се изговараат, а диктаторот е одговорен за уредување и одјавување на документот. Back-end или одложено препознавање на говор е кога давателот на услуги диктира во дигитален диктафонски систем, гласот се пренесува преку машина за препознавање на говор и препознатиот draft-документ се пренесува заедно со оригиналниот глас до уредникот, каде што на предлог се изменети и пријавите. Одложеното препознавање на говор, во моментов најмногу се користи во индустријата.
Многу (ЕМС) апликации можат да бидат поефикасни и можат да се извршат многу полесно кога се распоредени во врска со машината за препознавање на говор. Пребарувања, прашања и пополнување на форми, сите можат побрзо да се изврши од страна на глас отколку со користење на тастатура.
Едно од главните прашања во врска со употребата на препознавање на говор во здравството е дека американскиот Обновен и реинвестиран акт од 2009 година (ARRA) предвидува значителна финансиска корист за лекарите кои ги користат на ЕМЗ според стандарди за "Значајни употреба" . Овие стандарди бараат значителен износ на податоци кои се одржуваат од страна на EMR (сега почесто се нарекува електронски здравствени картони или EHR. За жал, во многу случаи, употребата на препознавање на говор во рамките на една EHR нема да доведе до податоци кои се одржуваат во рамките на една основа на податоци, туку да наративниот текст. Поради оваа причина, значителни ресурси се потрошени за да се овозможи употреба на front-end СР, а фаќањето на податоци во рамките на EHR.
Војската
[уреди | уреди извор]Високо перформансни борбени авиони
[уреди | уреди извор]Значителни напори биле посветени во последната деценија на тест и евалуација на препознавање на говор во борбени авиони. Особена белешка е програмата на САД во препознавање на говор за Напредно борец Интеграција на технологија (AFTI) / F-16 авиони (Ф-16 Vista), како и програма во Франција за инсталирање на системи за препознавање на говор на Мираж авиони, а исто така и програми во Велика Британија кои се занимаваат со различни авионски платформи. Во овие програми, препознавачот на говор работеше успешно во борбени авиони, со вклучени апликации: поставување на радио честоти, командување на автопилот системот, поставување управувачка-точка со координати, оружје порака параметри и дисплеи за контролирање на летот.
Работењето со шведските пилотикои кои летаат во JAS-39 Грипен пилотската кабина, Енглунд (2004) најде препознавање на влошување со зголемување на Г-товари. Исто така, беше заклучено дека адаптацијата на голема мера ги подобрува резултатите во сите случаи и воведување на модели за дишење беше прикажанo за да се подобри препознавањето на резултати.Спротивно на она што може да се очекува,дека нема ефекти на лош англиски јазик на говорниците.Беше евидентирано дека спонтаниот говор предизвика проблеми за препознавачот, како што може да се очекува.Ограничен речник, и над сè, соодветна синтакса, со што може да се очекува значително да се подобри точноста на препознавање.[4]
На Eurofighter Тајфунот моментално во сервис со Велика Британија РАФ вработува на говорникот зависни од системот, односно го бара секој пилот да се создаде дефиниција. Системот не се користи за било кои безбедносни, критични или оружје критични задачи, како што оружје ослободување или намалување на подвозјето, но се користат за широк спектар на други пилотската кабина функции. Гласовни команди се потврдени од визуелни и / или слушни фидбек. На системот се гледа како еден од главните дизајн функција во намалувањето на обемот на работа пилот, па дури и им овозможува на пилотот да му ја додели цели кон себе со две едноставни гласовни команди или на било кој од неговите wingmen со само пет команди.[5]
Звучните независни системи исто така почнале да се развиваат и да се тестираат за “F35 Молња II (JSF)” и “Alenia Aermacchi М-346 Master lead-in fighter trainer”. Овие системи произведуваат зборовна точност во износ поголема од 98%.
Хеликоптери
[уреди | уреди извор]Проблемите на постигнување на високо признание на точност под стрес и бучава се однесуваат силно на хеликоптерската средина, како и на средината за борбени авиони. Проблемот за акустична бучава е всушност, повеќе опасен во хеликоптерската средина, не само поради високите нивоа на бучава туку и затоа што хеликоптерските пилоти воопшто не носат facemask (маска за лице) , што би ја намалило акустична бучава во микрофонот. Значителен тест и евалуација на програмите се спроведени во изминатата деценија во препознавање на говор системски апликации во хеликоптерите, особено од страна на Американската армија - Воздухопловно истражување и развој на активноста (AVRADA) и од Воздухопловна Кралската Воспоставување (RAE) во Велика Британија. Во работата на Франција препознавање на говор е вклучен во хеликоптерската Пума. Исто така е многу корисна работа и во Канада. Резултатите се охрабрувачки, и гласовните апликации се вклучени во: контрола на комуникација на радијата, системи за навигација и контрола на автоматска цел за примопредавање на систем.
Како борец во апликации, главен проблем за гласот во хеликоптерите е влијанието врз пилотската делотворност. Охрабрувачки резултати се пријавени за AVRADA тестовите, иако овие претставуваат само изводливи демонстрации во тест средината. Останува уште многу да се направи и во препознавање на говор и во целокупната препознавање на говор технологија, со цел да се постигне постојано подобрување на перформансите во оперативните поставувања.
Управување на битки
[уреди | уреди извор]Во принцип управувањето на битки со командни центри бараат брз пристап и контрола на големината, брзо менување на информации и бази на податоци. Командантите и системските оператори треба да ги пребаруваат овие бази на податоци што е можно повеќе, во непрегледна средина каде што голем дел од информациите се презентирани во display формат. Роботите за интеракција со глас имаат потенцијал да бидат многу корисни во овие средини. Голем број на напори биле преземени за комерцијално достапен изолиран- збор препознавач во битка за управување со средините. Во една изводлива ситуација, опремата за препознавање на говор беше тестирана во врска со интегриран информатички приказ за поморска битка за управување со апликации. Корисниците беа многу оптимисти во врска со потенцијалот на системот, иако способностите беа ограничени.
Програмите за разбирање на говор спонзорирани од страна на Агенцијата за Одбранбени Напредни Истражувачки проекти (АОНИП) во САД се фокусираше на овој проблем на интерфејсот на природен говор. Напорите за препознавањето на говор се фокусирани на основа на податоци за континуирано препознавање на говор (ООП), голем речник за говор дизајниран да биде претставник на менаџментот на поморските ресурси . Значаен напредок во state-of-the-art во ООП е постигнат, како и тековните напори се фокусирани на интегрирање на препознавање на говор и обработка на природни јазици да им овозможи на говорениот јазик интеракција со поморски ресурски систем.
Обука за контролери за летање
[уреди | уреди извор]Обука за контролори за летање (ATC) претставува одлична апликација за препознавање на говор системите. Многу ATC системи за обука во моментов барааат лице да дејствува како "псевдо-пилот",за ангажирање во еден гласовен дијалог со приправнички контролер, кој симулира дијалогот што контролерот ќе треба да се спроведе со пилоти во вистински ATC ситуација. Препознавањето на говор и синтеза техники нудат потенцијал да се елиминира потребата за еден човек да дејствува како псевдо-пилот, со што се намалува обука и помошениот персонал. Во теорија, воздушно контролерските задачи се исто така се одликуваат со високо структуиран говор како примарен излез на контролерот, па оттука намалување на тежкотиите во препознавањето на говор задачи треба да бидат возможни. Во пракса, ова е редок случај. Документот FAA 7110,65 ги деталите за фразите кои треба да се користат од страна на контролерите на воздушниот сообраќај. Додека овој документ дава помалку од 150 примери на такви фрази, бројот на фрази поддржани од страна на една од симулацијата на продавачите на препознавање на говор системи е во износ поголем од 500.000.
На USAF, USMC, Армијата на САД, американската морнарица, и FAA како и голем број на меѓународни ATC организации за обука, како што се на Кралските австралиски воздухопловни сили и во цивилното воздухопловство на Властите во Италија, Бразил и Канада во моментов се користи ATC симулатори со препознавање на говор од голем број на различни продавачи.
Телефонија и други домени
[уреди | уреди извор]ASR,во областа на фиксната телефонија сега е вообичаена и во областа на компјутерските игри и симулација станува сè пошироко распространета и покрај високото ниво на интеграција со обработка на зборови во генералните личните сметачи. Сепак, ASR, во областа на производство на документи не го видел очекуваните [од кого?] Зголемува во употреба.
Подобрување на брзината на мобилниот процесор прави изводлив говор за Symbian и Windows Mobile Smartphones. Говорот се користи претежно како дел од кориснички интерфејс, за создавање на пред-дефинирани или по обичај, говорни команди. Водечките софтверски продавачи во оваа област се: Microsoft Corporation (Microsoft говорна команда), дигитални Syphon (Sonic Extractor), LumenVox, нијанса комуникации (нијанса на контрола на гласот), центар за говорна технологија,Вито технологија (VITO Voice2Go), Speereo Софтвер (Speereo глас Преведувач ), Verbyx VRX и SVOX.
Дополнителни Апликации
[уреди | уреди извор]- Воздухопловство (на пример, истражување на вселената, леталата, итн) НАСА на Марс го користи полар лендер за препознавање на говор од технологијата, сензори, Inc
- Автоматски превод
- Автомобилско препознавање на говор (на пример, OnStar, Ford Sync)
- Судско известување (пишување на говор во реално време)
- Hands-free компјутери: препознавање на говор во компјутерски кориснички интерфејс
- Домашна автоматизација
- Интерактивен гласовен одговор
- Мобилната телефонија, вклучувајќи го мобилниот e-mail
- Мултимодална интеракција
- Изговорна проценка компјутерски потпомогната за учење на јазични апликации
- Роботиката
- Говор-во-текст новинар (транскрипција на говорот во текст, видео натпис, судско известување)
- Телематика (на пример, системи за навигација)
- Транскрипција (дигитален говор-во-текст)
- Видео игри, со EndWar Том Clancy и Lifeline како работни примери
Перформанси
[уреди | уреди извор]Перформансите на системите за препознавање на говор обично се оценува во однос на точност и брзина. Точноста е обично оценета со стапката на зборовни грешки (wer), додека брзина се мери со реален временски фактор. Други мерки на точност вклучуваат Single Word Error Rate (SWER) и Command Success Rate (CSR). Сепак, препознавањето на говор (со машина) е многу сложен проблем. Вокализациите се разликуваат во однос на акцентот, изговорот, артикулацијата, грубоста, обемот и брзината. Говор е искривен од страна на бучавата во позадината, еха и електричните одлики. Точноста на препознавање на говор варираат со следново:
- Големина на вокабулар и confusability
- Говорна зависност наспроти независност
- Изолирани прекини или континуиран говор
- Задачи и јазични ограничувања
- Читање наспроти спонтан говор
- Неповолни услови
Алгоритми
[уреди | уреди извор]Двете акустични моделирања и јазични моделирања се важни делови на модерните статистики засновани на алгоритмите за препознавање на говор. Скриени Маркови модели (HMMs) се широко користени во многу системи. Јазикот за моделирање, има многу други апликации како што се паметна тастатура и класификација на документи.
Скриени Маркови модели
[уреди | уреди извор]Модерна и општа намена на системите за препознавање на говор се засноваат на Скриените Маркови модели. Овие се статистички модели кои се излезна низа од симболи или количини. HMMs се користат во препознавање на говор, бидејќи говорот на сигналот може да се гледа како piecewise стационарен сигнал или кратко време на стационарен сигнал. Во кратки временски скали (на пример, 10 милисекунди), говорот може да се поистоветува како стационарен процес. Говорот може да се смета како Марков модел за многу стохастички цели.
Друга причина зошто HMMs се популарни е затоа што тие се обучени автоматски и едноставно да се користат. Во препознавањето на говор на Скриен Марков модел ќе излези низа од n-димензионални реално-вредносни вектори (со n како мал број, како на пример 10), Ставање на еден од овие секои 10 милисекунди. Овие вектори ќе се состојат од Cepstral коефициенти, кои се добиени со преземање на Фуриеова трансформација на кратко време прозорецот на говорот и decorrelating спектарот користење на косинус трансформира, а потоа полагање на првиот (најзначајните) коефициенти. Скриениот Марков модел ќе има тенденција да имаат во секоја држава статистичка дистрибуција која е мешавина на дијагонала коваријанса Гаузијанс, која ќе ја даде веројатноста за секој забележани вектор. Секој збор, или (за повеќе општи препознавање на говор системи), секоја фонема, ќе има различни излезни дистрибуција; скриена Марков модел за низа од зборови или фонеми е направен од страна concatenating поединечните обучени скриени Маркови модели за одделни зборови и фонеми.
Опишани погоре се основните елементи од најчестите, ХММ приоди засновани на препознавање на говор. Модерните системи за препознавање на говор користат различни комбинации на голем број на стандардни техники, со цел да се подобри резултатот во текот на основните пристапи е опишано погоре. Типичните големи вокабуларни системи имаат потреба од контекст зависност за фонеми (така фонеми со различни лево и десно контекст имаат различни сознанија како ХММ држави), тоа ќе го користи Cepstral нормализацијате за нормализирање за различни звучници и условите на снимање, за понатамошно звучна нормализација и тоа би можело да користи вокален тракт- должина на нормализација (VTLN) за машко-женски нормализации и максимална веројатност на линеарнате регресија (MLLR) за повеќе општи звучни адаптации. Одлики ќе имаат т.н. делта и делта-делта коефициенти за динамиката за снимање на говор и во прилог може да се користи heteroscedastic линеарни дискриминантни анализи (HLDA), или може да го прескокнете делта и делта-делта коефициенти и употреба спојување и ЛАР-засновани проекции следи можеби со heteroscedastic линеарни дискриминантна анализа или глобален semitied коваријанса трансформација (исто така познат како максимум веројатноста линеарна трансформација, или MLLT). Многу системи користат т.н. дискриминативни техники за обука што располагаат со чисто статистички приод кон ХММ параметари и проценки и наместо оптимизирана на некои класификации поврзани со меркате на обуката за податоци. Примерите се максимално меѓусебно информирање (СМИ), минимум класификација грешка (MCE) и минимум телефонска грешка (MPE).
Декодирање на говорот (термин за она што се случува кога системот е претставен со нов исказ и мора да се пресмета, најверојатно, изворот е реченица) веројатно ќе го користи алгоритмот Viterbi за да се најде најдобриот пат, и тука постои избор меѓу динамичко создавање на комбинација со скриен Марков модел, кој вклучува и акустичнен и јазичен модел на информации и комбинирање статички претходно (на конечни држава Трансдуцерот, или ФСТ, пристап).
А можно подобрување на декодирање е да се задржи збир на добри кандидати, наместо само чување на најдобар кандидат, и да ги користат за подобро постигнувајќи ја функцијата (rescoring) да ја оценат овие добри кандидати, така што ќе може да го избере најдобриот едногласно со овој рафиниран резултат. Множество на кандидати може да се чуваат или како список (N-најдобриот листа пристап) или како подмножество на модели (решетки). Rescoring обично се прави од страна се обидуваат да го минимизираат ризикот Bayes (или приближување него).[6] Наместо за преземање на изворот реченица со максимална веројатност, ние се обидуваме да преземаме казна што го минимизира векот на одредената функциска загуба во однос на сите можни транскрипции (на пример, го земеме реченица што ја минимизира просек растојание до други можни казни пондериран со нивната проценета веројатност). Губење функција е обично растојанието Levenshtein, иако тие можат да бидат различни растојанија за специфични задачи, а сет на можни транскрипции , се разбира, изчистени да се одржи послушание. Ефикасни алгоритми се смислени за да rescore решетки претставени како пондерирани конечните трансформери со уреди растојанија себе претставен како конечен државата Трансдуцерот прави проверка на одредени претпоставки.[7]
Динамично временско искривување (ДВИ) – препознавање на говор
[уреди | уреди извор]ДВИ е пристап кој историски се користи за препознавање на говор, но сега во голема мера се раселени од поуспешните HMM-засновани пристапи. ДВИ е алгоритам за мерење на сличноста помеѓу две секвенци кои може да се разликуваат во време или брзина. На пример, сличностите во одење на моделите ќе бидат откриени, дури и ако во едно видео лицето одеше бавно и ако во друга тој или таа се движат побрзо, или дури и ако имало забрзувања и забавувања во текот на едно набљудување. ДВИ се применува на видео, аудио и графика - всушност какви било податоци што можат да се претворат во една линеарена застапеност и можат да се анализираат со ДВИ.
Невронни мрежи
[уреди | уреди извор]Нервони мрежи се појавени како привлечно акустично моделирање со пристап во АДП во доцните 1980-ти. Од тогаш, нервните мрежи се користат во многу аспекти на препознавање на говор како фонема класификација , изолирани збор признавање</ref>, isolated word recognition[8], и звучници адаптација.
За разлика од HMMs, нервните мрежи не прават претпоставки за функциски статистички својства и имаат неколку квалитети што ги прави привлечни за признавање на моделите за препознавање на говор. Кога се користи за да се процени можноста за сегментот на говорната функција , нервните мрежи им овозможуваат на дискриминативна обука на природен и ефикасен начин. Неколку претпоставки за статистика на внесување одлики се направени со нервните мрежи. Сепак, и покрај нивната делотворност во класифицирањето во кратки временски единици како што се поединечни телефони и изолирани зборови, нервните мрежи се ретко успешни за континуирано признавање задачи, во голема мера поради нивниот недостаток на способноста да се моделира временски зависности. Така, еден алтернативен пристап е да се користат нервните мрежи како пред-обработка на пр. функциска трансформација, dimensionality намалување , за ХММ засновано препознавање.
Дополнителни информации
[уреди | уреди извор]Популарнитеконференции за препознавање на говор сеодржуваат секоја година или две и вклучуваат SpeechTEK и SpeechTEK Европа, ICASSP, Eurospeech / ICSLP (сега наречен Interspeech) и IEEE ASRU. Конференции во областа на природната јазична обработка, како што се ACL, NAACL, EMNLP и HLT, почнуваат да вклучуваат документи за обработка на говор. Важни списанија вклучуваат IEEE Трансакции на говор и аудио обработка (сега наречен IEEE Трансакции на аудио, говорот и обработката на јазикот), компјутерски говор и јазик и говорна комуникација. Книги како "Основи на препознавање на говор" од Лоренс Рабинер можат да бидат корисни со цел да се здобијат со основни познавања но не може да биде целосно до датум (1993). Друг добар извор може да биде "Статистички методи за препознавање на говор" од Фредерик Јелинек и "Обработка на говорениот јазик (2001)" од Xuedong Хуанг итн. повеќе до датум е "Компјутерски говор", со Манфред Р Шредер, второ издание објавено во 2004 година . Неодамна ажуриран учебник на "Говор и јазична обработка (2008)" од Jurafsky и Мартин претставува основа и држава на уметноста за АДП. Еден добар увид во техниките кои се користат во најдобрите модерни системи може да биде стекнат од обрнувајќи внимание на владата спонзорирана од проценки како што се оние организирани од страна на DARPA (најголемиот реализиран проект за препознавање на говор од 2007 година е проектот Gale, која вклучува и препознавање на говор и превод на компоненти).
Во однос на слободно достапни ресурси, Сфинга раководство Карнеги Мелон Универзитетот е едно место за да започнете да научите за препознавањето на говор и да се започне да се експериментира. Друг ресурс (бесплатно како бесплатно пиво, а не како во слободен говор) е книга HTK (и придружните HTK раководство). AT & T библиотеки ВРМ библиотека, и DCD библиотека се исто така општи софтверски библиотеки за големи речници за препознавање на говор.
За повеќе софтверски ресурси, видете Список насофтвери за препознавање на говор. Корисен преглед на областа на стабилноста во АДП е обезбедена од страна Junqua и Haton (1995).
Лица со хендикеп
[уреди | уреди извор]Лицата со хендикеп можат да имаат корист од програмите за препознавање на говор. За лица кои се глуви или наглуви, софтверот за препознавање на говор се користи за автоматски да се генерираат разговори како што се дискусиите во конференциски сали, училници, предавања,или на богослужбите.[9]
Препознавање на говор е исто така многу корисно за луѓе кои имаат потешкотии со користење на нивните раце, кои имаат проблеми од благи повторувачки стресовни повреди и вклучени пречки кои го попречуваат користењето на конвенционалните компјутерски влезни уреди. Всушност, луѓето коимногу користат тастатура и имаат развиен УПН стануваатургенти на раниотпочеток на пазарот за препознавање на говор.[10][11] Препознавање на говор се користи во глувата телефонија, како што се говорна пошта на текстот, реле услуги .Лица со потешкотии во учењето кои имаат проблеми со thought-to-paperкомуникацијата (во суштина тие мислат на една идеја, но тоа е погрешно обработено и предизвикува таа да заврши поинаку на хартија) може да имаат корист од овој софтвер.
Тековни истражувања и финансирање
[уреди | уреди извор]Мерењетo на напредокот наперформанситена препознавањеto на говор е многу тешко и контроверзно. Некои задачи за препознавање на говор се многу потешки од другите.Стапките на зборовните грешки на некои задачи се помалку од 1%. На други, тие можат да бидат високи како 50%. Понекогаш дури и се чини дека перформансите се враќаат наназад и како истражувачи се преземаат потешки задачи кои имаат повисоки стапки на грешки.
Бидејќи напредокот е бавен и е тешко да се измери, има некои перцепција дека ефикасностаи финансирањето имаат пресуши или префрли приоритети. Таквите перцепции не се нови. Во 1969 година, Џон Пирс напиша отворено писмо што не предизвика многу средства да се исуши за неколку години.[12] Во 1993 година имаше силно чувство дека перформансите се plateaued и имаше работилници посветени на ова прашање. Меѓутоа, во 1990-тите, финансирањето продолжи повеќе или помалку непречено и перформансите продолжија, полека но сигурно, да се подобруваат.
За изминатите триесет години,истражувањата за препознавањето на говор се одликуваат со постојана акумулација на мали поединечни подобрувања. Имало исто така тренд за да се промени фокусот на повеќе тешки задачи и поради двете да напредува во ефикасноста на препознавањето на говор и достапноста на побрзи компјутери. Особено, ова менување на повеќе тешки задачи ги карактеризира DARPA финансирањето на препознавање на говор од 1980 година. Во последната деценија, тој продолжи со EARS проектот, кој презеде признавање на мандарински и арапски во прилог на англиски јазик, а проектот Gale, кој се фокусираше само на мандарински и арапски и потребнитe преводи истовремено со препознавање на говор.
Комерцијалните истражувања и другите академски истражувања, исто така, продолжија да се фокусираат на повеќе тешки проблеми. Една клучна област е да се подобри стабилноста на перформансите за препознавање на говор, а не само робусноста од бучава,но робусноста против било која состојба што предизвикува голема деградација во перформансите. Друга клучна област на истражување е фокусирана на можноста отколку проблем. Ова истражување се обидува да ги искористи предностите на фактот дека во многу апликации, постои голема количина на говорни достапни податоци, до милиони часа. Тоа е премногу скапо за луѓето да имаат транскрибирам такви големи количини на говорот, така што истражувањата се фокусираат на развојот на нови методи на машинско учење со кое можат ефикасно да се користат големи количини на недостапни податоци. Другата област на истражување е подобро разбирање на човечките способности и ова разбирање се користи за да се подобри машината за препознавање на перформанси.
Поврзано
[уреди | уреди извор]- AI effect
- Jott
- ALPAC report
- Applications of artificial intelligence
- Articulatory speech recognition
- Audio mining
- Audio-visual speech recognition
- Automatic Language Translator
- Cache language model
- Keyword spotting
- Kinect
- Microphone
- Mondegreen
- Multimedia Information Retrieval
- Origin of speech
- OpenDocument
- Phonetic search technology
- Speaker diarisation
- Speaker recognition
- Speech analytics
- Speech corpus
- Speech interface guideline
- Speech recognition in Linux
- Speech synthesis including Text-to-speech (TTS)
- Speech technology
- Speech verification
- VoiceXML
- VoxForge
- Windows Speech Recognition
- Листи
Наводи
[уреди | уреди извор]- ↑ „British English definition of voice recognition“. Macmillan Publishers Limited. Посетено на February 21, 2012.
- ↑ „voice recognition, definition of“. WebFinance, Inc. Архивирано од изворникот на 2011-12-03. Посетено на February 21, 2012.
- ↑ http://linuxgazette.net/114/lg_mail.html#mailbag.3
- ↑ „Speech.kth.se“ (PDF). Архивирано од изворникот (PDF) на 2008-10-02. Посетено на 2012-08-21.
- ↑ Eurofighter Direct Voice Input
- ↑ Goel, V.; Byrne, W. J. (2000). „Minimum Bayes-risk automatic speech recognition“. Computer Speech & Language. 14 (2): 115–135. doi:10.1006/csla.2000.0138. Архивирано од изворникот на 2011-07-25. Посетено на 2011-03-28.
- ↑ Mohri, M. (2002). „Edit-Distance of Weighted Automata: General Definitions and Algorithms“ (PDF). International Journal of Foundations of Computer Science. 14 (6): 957–982. doi:10.1142/S0129054103002114. Посетено на 2011-03-28.
- ↑ J. Wu and C. Chan,(1993) "Isolated Word Recognition by Neural Network Models with Cross-Correlation Coefficients for Speech Dynamics," IEEE Trans. Pattern Anal. Mach. Intell., vol. 15, pp. 1174-1185.
- ↑ http://www.massmatch.org/aboutus/listserv/2010/2010-03-31.html
- ↑ „Speech recognition for disabled people“.
- ↑ Friends international support group
- ↑ name=jasapierce>John Pierce (1969). „Whither Speech Recognition“. Journal of the Acoustical Society of America.
Надворешни врски
[уреди | уреди извор]- Speech Technology на Curlie (англиски)
|