رابط کاربری صوتی

رابط کاربری صوتی (VUI) تعامل انسان با رایانه‌ها را از طریق گفتار ممکن می‌سازد، با استفاده از تشخیص گفتار برای درک فرمان‌های گفتاری و پاسخ به سؤالات، و معمولاً با تبدیل متن به گفتار برای تولید پاسخ، این امر را ممکن می‌سازد. دستگاه فرمان صوتی (VCD) وسیله‌ای است که با رابط کاربری صوتی کنترل می‌شود.

رابط‌های کاربر صوتی به خودروها، سیستم‌های اتوماسیون خانگی، سیستم عامل‌های رایانه، لوازم خانگی مانند ماشین لباسشویی و دستگاه مایکروویو و کنترل تلویزیون اضافه شده‌است. آن‌ها روش اصلی تعامل انسان با دستیاران مجازی در تلفن‌های هوشمند و بلندگوهای هوشمند هستند. دستیاران خودکار قدیمی‌تر (که تماس تلفنی را به درستی وصل می‌کنند) و سیستم‌های پاسخ‌دهی صوتی پویا (که معاملات پیچیده‌تری از طریق تلفن انجام می‌دهند) می‌توانند به فشار دادن دکمه‌های صفحه کلید از طریق زنگ‌های DTMF پاسخ دهند، اما سیستم‌هایی که دارای رابط کاربری صوتی کامل هستند، به تماس‌گیرندگان این امکان را می‌دهند که بدون فشردن دکمه‌ای، درخواست‌ها و پاسخ‌های خود را بیان کنند.

VCDهای جدیدتر مستقل از بلندگو هستند، بنابراین می‌توانند بدون توجه به لهجه یا تأثیرات گویشی، به صداهای متعدد پاسخ دهند. آن‌ها همچنین قادر به پاسخگویی به چندین فرمان به‌طور هم‌زمان، جدا کردن پیام‌های صوتی و ارائه بازخورد مناسب و تقلید دقیق مکالمه طبیعی هستند.^[۱]

بررسی اجمالی

VUI رابط برنامه‌های گفتاری است. چند سال پیش کنترل یک ماشین به‌سادگی صحبت کردن با آن، تنها در فیلم‌های علمی_تخیلی دیده می‌شد. اخیراً این موضوع هوش مصنوعی تلقی می‌شد. اگرچه، پیشرفت‌هایی در فناوری، مانند متن به گفتار، گفتار به متن، پردازش زبان طبیعی و سرویس‌های ابری، به‌طور کلی، منجر به پذیرش گسترده این نوع رابط‌ها می‌شود. VUIها عادی‌تر شده‌اند، و مردم از امکانات به‌وجود آمده توسط این رابط‌های بدون نیاز به دست و بدون نیاز به چشم، در بسیاری از موارد، بهره می‌برند.

VUIها باید با اطمینان به ورودی پاسخ دهند، یا توسط کاربران خود رد و اغلب مورد تمسخر قرار می‌گیرند. طراحی یک VUI خوب، مستلزم استعدادهای بین رشته‌ای علوم رایانه، زبانشناسی و روانشناسی است، همه این‌ها مهارت‌هایی گران‌قیمت هستند و به سختی بدست می‌آیند. حتی با ابزارهای پیشرفته، ساختن یک VUI مؤثر، مستلزم درک عمیقی است از دو موضوع، یک، کارهایی که باید انجام شود، و دو، مخاطب مورد نظر که از سیستم نهایی استفاده خواهد کرد. هرچه VUI با مدل ذهنی کاربر در کار مطابقت داشته باشد، استفاده از آن با آموزش کم یا بدون آموزش آسان‌تر خواهد بود و در نتیجه هم کارایی بالاتر و هم رضایت کاربر بیشتر خواهد بود.

VUI طراحی شده برای عموم مردم، باید بر سهولت استفاده تأکید کند و برای تماس گیرندگانی که برای بار اول تماس می‌گیرند، کمک و راهنمایی زیادی را ارائه دهد. در مقابل، یک VUI که برای گروه کوچکی از کاربران برق (از جمله کارمندان خدمات میدانی) طراحی شده‌است، باید بیشتر روی بهره‌وری و کمتر بر روی کمک و راهنمایی متمرکز شود. چنین برنامه‌هایی باید جریان‌های تماس را ساده‌تر کرده، نوشتن پیام‌ها را به حداقل برساند، تکرارهای غیرضروری را از بین ببرد و «گفتگوهای بداههٔ نامرتبط» را به‌طور دقیق شرح دهد، که تماس گیرندگان را قادر می‌سازد، چندین قطعه اطلاعات را به صورت یک جمله و به هر ترتیب یا ترکیبی وارد کنند. به‌طور خلاصه، برنامه‌های گفتاری باید برای فرایند تجاری خاص که به صورت خودکار انجام می‌شود، به دقت طراحی شوند.

همه فرایندهای تجاری خود را به همان خوبی در اختیار اتوماسیون گفتار قرار نمی‌دهند. به‌طور کلی، هرچه سؤال‌ها و معاملات پیچیده‌تر باشد، اتوماسیون چالش برانگیزتر خواهد بود و احتمال عدم موفقیت آن‌ها در نزد عموم مردم بیشتر است. در بعضی از سناریوها، اتوماسیون به همین سادگی کاربردی نیست، بنابراین کمک عامل زنده (آنلاین)، تنها گزینه است. به عنوان مثال، یک خط تلفن مشاوره حقوقی برای اتوماسیون بسیار دشوار خواهد بود. آن روی سکه، گفتار برای انجام معاملات سریع و روتین، مانند تغییر وضعیت سفارش کار، تکمیل ورود به زمان یا هزینه، یا انتقال وجه بین حساب‌ها مناسب است.

تاریخچه

برنامه‌های اولیه برای VUI، شامل شماره‌گیری فعال صوتی برای تلفن، مستقیم یا از طریق هدست (معمولاً بلوتوث)، یا سیستم صوتی وسیله نقلیه بود.

در سال ۲۰۰۷، در یک مقاله تجاری به گزارش CNN آمده‌است که، فرمان صوتی بیش از یک صنعت یک میلیارد دلاری ارزش دارد و شرکت‌هایی مانند گوگل و اپل در تلاش بودند تا ویژگی‌های تشخیص گفتار را ایجاد کنند.^[۲] سال‌ها از انتشار این مقاله می‌گذرد و از آن زمان تاکنون، جهان شاهد انواع دستگاه‌های فرمان صوتی بوده‌است. علاوه بر این، گوگل یک موتور تشخیص صدا به نام Pico TTS ایجاد کرده و اپل سیری (Siri) را منتشر کرده‌است. دستگاه‌های فرمان صوتی در حال گسترش هستند، و همیشه روش‌های خلاقانه‌ای برای استفاده از صدای انسان، در حال ایجاد شدن است. به‌عنوان مثال، هفته تجارت می‌گوید که کنترل از راه دور در آینده از طریق صدای انسان خواهد بود. در حال حاضر ایکس باکس لایو چنین ویژگی‌هایی را داراست، و جابز در تلویزیون جدید اپل به چنین ویژگی‌ای اشاره کرده‌است.^[۳]

محصولات نرم‌افزاری فرمان صوتی

اپل مک و ویندوز کامپیوتر هر دو، ویژگی‌های تشخیص صدا را برای جدیدترین سیستم عامل‌های خود فراهم ساخته‌اند.

ویندوز مایکروسافت

دو سیستم عامل مایکروسافت، ویندوز ۷ و ویندوز ویستا، قابلیت تشخیص گفتار را ارائه می‌دهند. مایکروسافت فرمان‌های صوتی را در سیستم عامل‌های خود ادغام می‌کند تا مکانیزمی را برای افرادی که می‌خواهند استفاده از موس و کیبورد را محدود کنند، فراهم کند، اما هنوز هم می‌خواهد بهره‌وری کلی خود را حفظ یا افزایش دهد.^[۴]

ویندوز ویستا

با استفاده از کنترل صوتی ویندوز ویستا، کاربر این امکان را دارد که اسناد و ایمیل را در برنامه‌های اصلی دیکته کند، راه اندازی و جابجایی بین برنامه‌ها، کنترل سیستم عامل، شکل‌دهی به اسناد، ذخیرهٔ اسناد، ویرایش پوشه‌ها، به‌طور مؤثر خطاها را تصحیح کند و فرم‌ها را در اینترنتپر کند. نرم فزار تشخیص گفتار هر بار که کاربر از آن استفاده می‌کند، به صورت خودکار یاد می‌گیرد، و تشخیص گفتار به زبان‌های انگلیسی (ایالات متحده)، انگلیسی (انگلیس)، آلمانی (آلمان)، فرانسوی (فرانسه)، اسپانیایی (اسپانیا)، ژاپنی، چینی (سنتی)، و چینی (ساده شده) در دسترس است. علاوه بر این، این نرم‌افزار دارای یک آموزش تعاملی است، که می‌تواند هم برای آموزش کاربر و هم برای آموزش موتور تشخیص گفتار مورد استفاده قرار گیرد.^[۵]

ویندوز ۷

علاوه بر تمام ویژگی‌های ارائه شده در ویندوز ویستا، ویندوز ۷ یک نابغه را برای راه‌اندازی میکروفون و آموزش نحوه استفاده از این ویژگی ارائه می‌دهد.^[۶]

Mac OS X

تمام رایانه‌های Mac OS X نرم‌افزار تشخیص گفتار را، از ابتدا نصب شده، دارند. این نرم‌افزار مستقل از کاربر است، و به کاربر این امکان را می‌دهد تا «در منوها حرکت کرده و میانبرهای صفحه کلید را وارد کند؛ نام چک‌باکس، نام دکمه‌های رادیویی، موارد لیست و نام دکمه‌ها را بیان کند؛ و باز کند، ببندد، کنترل کند و میان برنامه‌ها جابه‌جا شود.»^[۷] با این حال، وب سایت اپل به کاربر توصیه می‌کند، کالای تجاری به نام Dictate را خریداری کند.

محصولات تجاری

اگر یک کاربر از ساختار نرم‌افزار تشخیص گفتار راضی نباشد یا کاربر برای سیستم عامل خود نرم‌افزاری برای تشخیص گفتار نداشته باشد، سپس این امکان را دارد که یک محصول تجاری مانند Braina Pro یا DragonNaturallySpeaking را برای رایانه‌های با سیستم عامل ویندوز آزمایش کند.^[۸] و همچنین Dictate، نام همان نرم‌افزار Mac OS است.^[۹]

فرمان صوتی برای تلفن‌های همراه

هر دستگاه تلفن همراه دارای سیستم عامل Android ,Microsoft Windows Phone , iOS 5 یا بالاتر یا Blackberry OS قابلیت فرمان صوتی را ارائه می‌دهد. علاوه بر نرم‌افزار تشخیص گفتار ساخته‌شده برای سیستم عامل هر تلفن همراه، یک کاربر این امکان را دارد که برنامه‌های فرمان صوتی دیگر را از فروشگاه برنامه‌های هر سیستم عامل بارگیری کند.

سیستم عامل Android

گوگل یک سیستم عامل منبع باز به نام Android، ایجاد کرده‌است، که به کاربر این امکان را می‌دهد که دستورهای صوتی مانند: ارسال پیام‌های متنی، گوش دادن به موسیقی، راهنمایی‌ها، تماس با مشاغل، تماس با مخاطبین، ارسال ایمیل، مشاهده نقشه، مراجعه به وب‌سایت‌ها، نوشتن یادداشت و جستجوی گوگل را انجام دهد.^[۱۰] نرم‌افزار تشخیص گفتار از اندروید 2.2 "Froyo" برای تمامی دستگاه‌ها در دسترس است، اما تنظیمات باید به زبان انگلیسی تنظیم شود. گوگل به کاربر اجازه می‌دهد زبان را تغییر دهد، و از کاربر خواسته می‌شود که وقتی برای اولین بار از ویژگی تشخیص صدا استفاده می‌کند، اگر دوست دارد، داده‌های صوتی خود را به حساب گوگل خود وصل کند. اگر کاربر تصمیم به انتخاب این سرویس بگیرد، به گوگل اجازه می‌دهد تا نرم‌افزار را با صدای کاربر آموزش دهد.^[۱۱]

گوگل دستیار Google را با Android 7.0 "Nougat" معرفی کرد. بسیار پیشرفته‌تر از نسخه قدیمی است.

Amazon.com دارای Echo است، که از نسخه سفارشی اندروید آمازون برای ارائه رابط صوتی استفاده می‌کند.

ویندوز مایکروسافت

ویندوز فون سیستم عامل دستگاه تلفن همراه مایکروسافت است. در ویندوز فون ۷٫۵، برنامه گفتار مستقل از کاربر است و می‌توان از آن برای: تماس با شخصی از لیست مخاطب خود، تماس با هر شماره تلفن، شماره‌گیری دوبارهٔ آخرین شماره، ارسال یک پیام متنی، تماس با نامه صوتی خود، بازکردن یک برنامه، بررسی و خواندن قرار ملاقات‌ها، بررسی وضعیت تلفن و جستجو در اینترنت، استفاده کرد.^[۱۲]^[۱۳] بعلاوه، در حین تماس تلفنی می‌توان از گفتار نیز استفاده کرد، و اقدامات زیر در طی تماس تلفنی امکان‌پذیر است: فشردن یک شماره، روشن کردن بلندگوی تلفن یا تماس گرفتن با شخصی دیگر، که تماس فعلی را نگه می‌دارد.

ویندوز ۱۰ سیستم کنترل صدا را با نام Cortana، معرفی می‌کند، که جایگزین کنترل صوتی که پیش از این در تلفن‌های ویندوز استفاده می‌شده‌است، می‌شود.

iOS

اپل، سیستم کنترل صدا را به عنوان ویژگی جدید iPhone OS 3، به خانواده خود در دستگاه‌های iOS اضافه کرد؛ و بعد از آن، همهٔ محصولاتش با یک دستیار صوتی پیشرفته تر به نام Siri همراه هستند . کنترل صدا هنوز هم می‌تواند از طریق فهرست تنظیمات دستگاه‌های جدید فعال شود. Siri یک ویژگی تشخیص گفتار داخلی مستقل از کاربر است، که به کاربر امکان صادر کردن فرمان‌های صوتی را می‌دهد. با کمک Siri یک کاربر این امکان را دارد که فرمان‌هایی مانند، ارسال یک پیام متنی، بررسی وضعیت هوا، تنظیم یادآوری، یافتن اطلاعات، برنامه‌های جلسات، ارسال ایمیل، یافتن یک مخاطب، تنظیم زنگ هشدار، دریافت مسیرها، پیگیری سهام خود، تنظیم یک تایمر و درخواست نمونه‌هایی از نمونه جستارهای فرمان صوتی را ارسال کند.^[۱۴] علاوه بر این، Siri با بلوتوث و هدفون‌های باسیم نیز کار می‌کند.^[۱۵]

Amazon Alexa

در سال ۲۰۱۴ آمازون، دستگاه خانهٔ هوشمند Alexa را معرفی کرد. هدف اصلی آن فقط یک بلندگو هوشمند بود، که به مصرف‌کننده این امکان را می‌داد تا دستگاه را با صدای خود کنترل کند. سرانجام، آن را به یک دستگاه جدید تبدیل کرد که توانایی کنترل لوازم خانگی را با استفاده از صدا، داشت. اکنون تقریباً تمام لوازم خانه با الکسا قابل کنترل است، از جمله لامپ‌ها و دما. با قابلیت کنترل صدا، الکسا می‌تواند به فناوری خانهٔ هوشمند متصل شود و به شما این امکان را می‌دهد تا، خانه خود را قفل کنید، دما را کنترل کنید و دستگاه‌های مختلف را فعال کنید. این شکل از هوش مصنوعی اجازه می‌دهد تا شخصی به سادگی از او سؤالی بپرسد، و الکسا در پاسخ جستجو می‌کند، می‌یابد و پاسخ را برای شما بازخوانی می‌کند.^[۱۶]

تشخیص گفتار در اتومبیل

با پیشرفت تکنولوژی اتومبیل، ویژگی‌های بیشتری به اتومبیل‌ها افزوده می‌شود و این ویژگی‌ها به احتمال زیاد راننده را منحرف می‌کند. فرمان‌های صوتی برای اتومبیل‌ها، طبق گزارش CNET، باید به راننده این امکان را بدهد که فرمان‌ها را صادر کند بدون اینکه حواسش پرت شود. CNET اظهار داشت که Nuance پیشنهاد می‌کند که در آینده نرم‌افزاری را ایجاد کنند که شبیه به سیری باشد، اما برای اتومبیل‌ها.^[۱۷] امروزه بیشتر نرم‌افزارهای تشخیص گفتار در بازار تنها حدود ۵۰ تا ۶۰ فرمان صوتی دارند، اما فورد سنکرون ۱۰٬۰۰۰تا فرمان صوتی دارد. اگرچه، CNET نشان می‌دهد که حتی ۱۰٬۰۰۰ فرمان صوتی، با توجه به پیچیدگی و تنوع کارهایی که ممکن است کاربر بخواهد هنگام رانندگی انجام دهد، کافی نیست. فرمان صوتی برای اتومبیل‌ها با فرمان صوتی تلفن‌های همراه و رایانه‌ها متفاوت است، زیرا یک راننده ممکن است از این ویژگی برای جستجوی رستوران‌های نزدیک، جستجوی بنزین، مسیرها، شرایط جاده و محل نزدیکترین هتل استفاده کند. در حال حاضر، فناوری به راننده اجازه می‌دهد تا فرمان‌های صوتی را در هر دو، GPS قابل حمل مانند Garmin و سیستم ناوبری سازنده خودرو، صادر کند.^[۱۸]

لیست سیستم‌های فرمان صوتی ارائه شده توسط تولیدکنندگان موتور:

فورد سنکرون
فرمان صوتی لکسوس
کرایسلر UConnect
هوندا آکورد
GM IntelliLink
بی ام و
مرسدس
Pioneer
هارمن
هیوندای

ورودی غیر کلامی

در حالی که بیشتر رابط‌های کاربر صوتی برای پشتیبانی از تعامل از طریق زبان انسانی (گفتگو) طراحی شده‌اند، اخیراً کاوش‌هایی برای طراحی رابط‌هایی انجام شده‌است، که صداهای غیر کلامی انسان را به عنوان ورودی درمی‌آورد. در این سیستم‌ها، کاربر با انتشار صداهای غیر گفتاری مانند صدای زوزه زدن، سوت زدن یا دمیدن در میکروفون، رابط را کنترل می‌کند.^[۱۹]

یک نمونه از رابط کاربری صوتی غیرکلامی Blendie،^[۲۰]^[۲۱] یک سیستم هنری تعاملی است که توسط Kelly Dobson ایجاد شده‌است. این قطعه شامل یک مخلوط کن کلاسیک متعلق به دههٔ ۱۹۵۰ بود، که برای پاسخ به ورودی میکروفون ساخته‌شده‌بود. برای کنترل مخلوط کن، کاربر باید صداهای مکانیکی پیچیده‌ای را که یک مخلوط کن به‌طور معمول ایجاد می‌کند، تقلید کند: مخلوط کن در پاسخ به صدای کم کاربر، به آرامی می‌چرخد و با افزایش صدای کاربر، سرعت چرخش را افزایش می‌دهد.

مثال دیگر VoiceDraw^[۲۲] است، یک سیستم تحقیقاتی که طراحی دیجیتالی را برای افراد دارای توانایی حرکتی محدود امکان‌پذیر می‌کند. VoiceDraw به کاربر اجازه می‌دهد تا با تعدیل صداهای مصوت، که در جهت قلم‌ها نقشه‌برداری شده‌است، بر روی بوم دیجیتال، رنگ آمیزی کنند. تعدیل سایر ویژگی‌های پارالانژیکی (به عنوان مثال صدای بلند صدای آن‌ها) به کاربر این امکان را می‌دهد که ویژگی‌های مختلف طراحی مانند ضخامت ضربه قلم‌مو را کنترل کند.

رویکردهای دیگر شامل استفاده از صداهای غیرکلامی برای تقویت رابط‌های مبتنی بر لمس (به عنوان مثال از طریق تلفن همراه) برای پشتیبانی از انواع جدیدی از حرکات است که تنها با استفاده از انگشت ممکن نیست.^[۱۹]

چالش‌های طراحی

رابط‌های صوتی تعداد قابل توجهی چالش برای قابلیت استفاده دارند. برخلاف رابط‌های گرافیکی کاربر (GUI)، بهترین شیوه‌ها برای طراحی رابط صوتی هنوز ضروری هستند.^[۲۳]

قابلیت کشف

با تعامل کاملاً مبتنی بر صوت، رابط کاربری صوتی از قابلیت کشف کم، رنج می‌برد:^[۲۳] درک دامنهٔ قابلیت‌های سیستم برای کاربران دشوار است. برای اینکه سیستم بتواند بدون نمایشگر تصویری امکان‌پذیر باشد، باید گزینه‌های موجود را، که می‌تواند خسته کننده یا غیرقابل دسترس باشد، محاسبه کرد. قابلیت کشف کم، در اغلب موارد باعث می‌شود تا کاربران در مورد آنچه آن‌ها اجازهٔ گفتن آن را دارند، یا عدم توافق در مورد انتظارات از وسعت درک سیستم، گزارش سردرگمی بدهند.^[۲۴]^[۲۵]

خطاهای رونویسی

در حالی که فناوری تشخیص گفتار در سال‌های اخیر به طرز چشم‌گیری بهبود یافته‌است، رابط‌های کاربر صوتی هنوز از خطاهای تجزیه و رونویسی، که در آن سخنرانی کاربر به درستی تعبیر نمی‌شود، رنج می‌برند.^[۲۶] این خطاها مخصوصاً هنگامی متداول می‌شوند که محتوای گفتار از واژگان فنی (به عنوان مثال اصطلاحات پزشکی) یا هجی‌های غیر متعارف مانند نام هنرمندان موسیقی یا نام آهنگ‌ها باشد.^[۲۷]

کاربردهای آینده

دستگاه‌های اندازه_جیبی، مانند PDA یا تلفن‌های همراه، در حال حاضر برای ورود کاربر به دکمه‌های کوچک متکی هستند. این دکمه‌ها یا در دستگاه ساخته شده‌اند یا بخشی از رابط صفحه لمسی هستند، مانند اپل لمسی iPod و iPhone Siri Application. فشار زیاد دکمه بر روی دستگاه‌هایی با چنین دکمه‌های کوچک، می‌تواند خسته کننده و نادرست باشد، بنابراین یک VUI با کاربری آسان، دقیق و قابل اعتماد به‌صورت بالقوه می‌تواند یک پیشرفت بزرگ در سهولت استفاده از آن‌ها باشد. با این وجود، چنین VUI به نفع کاربران رایانه‌های لپ‌تاپ و رومیزی نیز خواهد بود، زیرا در حال حاضر بسیاری از مشکلات ناشی از استفاده از صفحه کلید و موس را حل می‌کند، از جمله صدمات ناشی از فشار مکرر مانند سندرم تونل کارپ و سرعت کند تایپ کردن بخشی از کاربران که بی‌تجربه هستند. علاوه بر این، استفاده از صفحه کلید به‌طور معمول مستلزم نشستن یا ایستادن مداوم در مقابل صفحه نمایش متصل است. در مقابل، یک VUI باعث می‌شود کاربر به مراتب دورتر از موبایل باشد، زیرا ورودی گفتار نیاز به نگاه کردن به صفحه کلید را از بین می‌برد.

چنین تحولاتی به معنای واقعی کلمه می‌تواند چهرهٔ ماشین‌های فعلی را تغییر داده و پیامدهای گسترده‌ای در نحوه تعامل کاربران با آن‌ها داشته باشد. دستگاه‌های دستی با صفحه‌های بزرگتر و آسان‌تر برای به نمایش درآمدن، طراحی شده‌اند، زیرا نیازی به صفحه کلید ندارند. دستگاه‌های صفحه لمسی دیگر نیازی به تقسیم صفحه نمایش بین محتوا و صفحه‌کلید روی صفحه ندارند، بنابراین مشاهده محتوا را در تمام صفحه فراهم می‌کند. لپ تاپ‌ها در اصل می‌توانند از لحاظ اندازه نصف شوند، زیرا صفحه کلید می‌تواند از بین برود و تمام اجزای داخلی در پشت صفحه نمایش یکپارچه شوند و به‌طور مؤثری تبدیل به رایانه لوحی ساده می‌شوند. رایانه‌های رومیزی شامل یک پردازنده و صفحه نمایش هستند، که باعث صرفه جویی در فضای دسکتاپ می‌شود. در غیر این صورت فضا توسط صفحه کلید اشغال می‌شود. کنترل تلویزیون و صفحه کلید بر روی ده‌ها دستگاه دیگر، از مایکروویو گرفته تا فتوکپی نیز می‌تواند از بین برود.

با این وجود، برای بروز چنین پیشرفت‌هایی باید بر چالش‌های بیشماری غلبه کرد. نخست، VUI باید به اندازه کافی پیشرفته باشد تا بتواند بین ورودی، از جمله فرمان‌ها، و گفتگوی پیش زمینه (به‌عنوان نویز شناخته می‌شود)، تفاوت قائل شود. در غیر این صورت، ورودی کاذب ثبت می‌شود و دستگاه متصل به‌طور نامنظم رفتار می‌کند. یک استاندارد فوری، مانند "رایانه"! معروف تماس توسط شخصیت‌ها در برنامه‌های علمی_تخیلی تلویزیون و فیلم‌هایی مانند Star Trek، می‌توانند VUI را فعال کرده و آن را برای دریافت ورودی بیشتر توسط همین بلندگو آماده کنند. به‌طور واضح، همچنین VUI می‌تواند، یک نمایه شبیه به انسان را شامل شود: یک صدا یا حتی یک شخصیت روی صفحه نمایش، به عنوان مثال، پاسخ می‌دهد (به عنوان مثال، "بله، وامشی؟") و همچنان برای روشن شدن ورودی دریافت شده و اطمینان از صحت آن، با کاربر در ارتباط است.

دوم، VUI باید به منظور پردازش دقیق و یافتن / بازیابی اطلاعات یا انجام عملی طبق تنظیمات برگزیدهٔ کاربر، با نرم‌افزارهای بسیار پیشرفته به صورت هماهنگ همکاری کند. به عنوان مثال، اگر سامانتا اطلاعات یک روزنامه خاص را ترجیح می‌دهد، و اگر ترجیح می‌دهد اطلاعات به صورت خلاصه طبقه‌بندی شود، می‌تواند بگوید «رایانه، اطلاعاتی دربارهٔ سیل شب گذشته در جنوب چین پیدا کنید». در پاسخ، VUI که با ترجیحات او آشنا است، می‌تواند حقایق «سیل» در «جنوب چین» را از آن منبع «پیدا کند»، آن را به شکل خلاصه تبدیل کند و آن را بر روی صفحه نمایش و / یا به صورت صوتی تحویل دهد، کامل با استناد؛ بنابراین، به نرم‌افزار دقیق تشخیص گفتار، همراه با مقداری از هوش مصنوعی در قسمتی از دستگاه مرتبط با VUI، لازم است.

منابع

↑ "Washing Machine Voice Control". Appliance Magazine. Archived from the original on 3 November 2011. Retrieved 26 January 2020.
↑ Borzo, Jeanette (8 February 2007). "Now You're Talking". CNN Money. Retrieved 25 April 2012.
↑ "Voice Control, the End of the TV Remote?". Business Week. Retrieved 1 May 2012.
↑ "Windows Vista Built In Speech". Windows Vista. Retrieved 25 April 2012.
↑ "Speech Operation On Vista". Microsoft.
↑ "Speech Recognition Set Up". Microsoft.
↑ "Physical and Motor Skills". Apple.
↑ "DragonNaturallySpeaking PC". Nuance. Archived from the original on 9 April 2017. Retrieved 26 January 2020.
↑ "DragonNaturallySpeaking Mac". Nuance. Archived from the original on 9 April 2017. Retrieved 26 January 2020.
↑ "Voice Actions". Google.
↑ "Google Voice Search For Android Can Now Be "Trained" To Your Voice". Retrieved 24 April 2012.
↑ "Using Voice Command". Microsoft. Retrieved 24 April 2012.
↑ "Using Voice Commands". Microsoft. Retrieved 27 April 2012.
↑ "Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features". Apple. Archived from the original on 31 August 2012. Retrieved 27 April 2012.
↑ "Siri FAQ". Apple. Archived from the original on 31 August 2012. Retrieved 26 January 2020.
↑ https://www.businessinsider.com/amazon-echo-and-alexa-history-from-speaker-to-smart-home-hub-2017-5
↑ "Siri Like Voice". CNET.
↑ "Portable GPS With Voice". CNET.
↑ ^۱۹٫۰ ^۱۹٫۱ "Voice augmented manipulation | Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services". dlnext.acm.org (به انگلیسی). doi:10.1145/2493190.2493244. Retrieved 2019-02-27.
↑ "Blendie | Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques". dlnext.acm.org (به انگلیسی). doi:10.1145/1013115.1013159. Retrieved 2019-02-27.
↑ "Kelly Dobson: Blendie". web.media.mit.edu. Archived from the original on 10 May 2022. Retrieved 2019-02-27.
↑ "Voicedraw | Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility". dlnext.acm.org (به انگلیسی). doi:10.1145/1296843.1296850. Retrieved 2019-02-27.
↑ ^۲۳٫۰ ^۲۳٫۱ "Design guidelines for hands-free speech interaction | Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct". dlnext.acm.org (به انگلیسی). doi:10.1145/3236112.3236149. Retrieved 2019-02-27.
↑ "Designing SpeechActs | Proceedings of the SIGCHI Conference on Human Factors in Computing Systems". dlnext.acm.org (به انگلیسی). doi:10.1145/223904.223952. Retrieved 2019-02-27.
↑ "What can I say? | Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services". dlnext.acm.org (به انگلیسی). doi:10.1145/2935334.2935386. Retrieved 2019-02-27.
↑ "Patterns for How Users Overcome Obstacles in Voice User Interfaces | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (به انگلیسی). doi:10.1145/3173574.3173580. Retrieved 2019-02-27.
↑ ""Play PRBLMS" | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (به انگلیسی). doi:10.1145/3173574.3173870. Retrieved 2019-02-27.

[appliance-1] "Washing Machine Voice Control". Appliance Magazine. Archived from the original on 3 November 2011. Retrieved 26 January 2020.

[2] Borzo, Jeanette (8 February 2007). "Now You're Talking". CNN Money. Retrieved 25 April 2012.

[3] "Voice Control, the End of the TV Remote?". Business Week. Retrieved 1 May 2012.

[4] "Windows Vista Built In Speech". Windows Vista. Retrieved 25 April 2012.

[5] "Speech Operation On Vista". Microsoft.

[6] "Speech Recognition Set Up". Microsoft.

[Y-7] "Physical and Motor Skills". Apple.

[8] "DragonNaturallySpeaking PC". Nuance. Archived from the original on 9 April 2017. Retrieved 26 January 2020.

[9] "DragonNaturallySpeaking Mac". Nuance. Archived from the original on 9 April 2017. Retrieved 26 January 2020.

[v-10] "Voice Actions". Google.

[11] "Google Voice Search For Android Can Now Be "Trained" To Your Voice". Retrieved 24 April 2012.

[12] "Using Voice Command". Microsoft. Retrieved 24 April 2012.

[win-13] "Using Voice Commands". Microsoft. Retrieved 27 April 2012.

[14] "Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features". Apple. Archived from the original on 31 August 2012. Retrieved 27 April 2012.

[15] "Siri FAQ". Apple. Archived from the original on 31 August 2012. Retrieved 26 January 2020.

[16] ttps://www.businessinsider.com/amazon-echo-and-alexa-history-from-speaker-to-smart-home-hub-2017-5

[C-17] "Siri Like Voice". CNET.

[18] "Portable GPS With Voice". CNET.

[dlnext.acm.org-19] ۱۹٫۰ ^۱۹٫۱ "Voice augmented manipulation | Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services". dlnext.acm.org (به انگلیسی). doi:10.1145/2493190.2493244. Retrieved 2019-02-27.

[20] "Blendie | Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques". dlnext.acm.org (به انگلیسی). doi:10.1145/1013115.1013159. Retrieved 2019-02-27.

[21] "Kelly Dobson: Blendie". web.media.mit.edu. Archived from the original on 10 May 2022. Retrieved 2019-02-27.

[22] "Voicedraw | Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility". dlnext.acm.org (به انگلیسی). doi:10.1145/1296843.1296850. Retrieved 2019-02-27.

[:0-23] ۲۳٫۰ ^۲۳٫۱ "Design guidelines for hands-free speech interaction | Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct". dlnext.acm.org (به انگلیسی). doi:10.1145/3236112.3236149. Retrieved 2019-02-27.

[24] "Designing SpeechActs | Proceedings of the SIGCHI Conference on Human Factors in Computing Systems". dlnext.acm.org (به انگلیسی). doi:10.1145/223904.223952. Retrieved 2019-02-27.

[25] "What can I say? | Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services". dlnext.acm.org (به انگلیسی). doi:10.1145/2935334.2935386. Retrieved 2019-02-27.

[26] "Patterns for How Users Overcome Obstacles in Voice User Interfaces | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (به انگلیسی). doi:10.1145/3173574.3173580. Retrieved 2019-02-27.

[27] ""Play PRBLMS" | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (به انگلیسی). doi:10.1145/3173574.3173870. Retrieved 2019-02-27.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

[۱۸]

[۱۹]

[۲۰]

[۲۱]

[۲۲]

[۲۳]

[۲۴]

[۲۵]

[۲۶]

[۲۷]