رابط کاربری صوتی
این مقاله دقیق، کامل و صحیح ترجمه نشده و نیازمند ترجمه به فارسی است. کل یا بخشی از این مقاله به زبانی بهجز زبان فارسی نوشته شدهاست. اگر مقصود ارائهٔ مقاله برای مخاطبان آن زبان است، باید در نسخهای از ویکیپدیا به همان زبان نوشته شود (فهرست ویکیپدیاها را ببینید). در غیر این صورت، خواهشمند است ترجمهٔ این مقاله را با توجه به متن اصلی و با رعایت سیاست ویرایش، دستور خط فارسی و برابر سازی به زبان فارسی بهبود دهید و سپس این الگو را از بالای صفحه بردارید. همچنین برای بحثهای مرتبط، مدخل این مقاله در فهرست صفحههای نیازمند ترجمه به فارسی را ببینید. اگر این مقاله به زبان فارسی بازنویسی نشود، تا دو هفتهٔ دیگر نامزد حذف میشود و/یا به نسخهٔ زبانی مرتبط ویکیپدیا منتقل خواهد شد. اگر شما اخیراً این مقاله را بهعنوان صفحهٔ نیازمند ترجمه برچسب زدهاید، لطفاً عبارت {{جا:هبک-ترجمه به فارسی|1=رابط کاربری صوتی}} ~~~~ را نیز در صفحهٔ بحث نگارنده قرار دهید. |
رابط کاربری صوتی (VUI) تعامل انسان با رایانهها را از طریق گفتار ممکن میسازد، با استفاده از تشخیص گفتار برای درک فرمانهای گفتاری و پاسخ به سؤالات، و معمولاً با تبدیل متن به گفتار برای تولید پاسخ، این امر را ممکن میسازد. دستگاه فرمان صوتی (VCD) وسیلهای است که با رابط کاربری صوتی کنترل میشود.
رابطهای کاربر صوتی به خودروها، سیستمهای اتوماسیون خانگی، سیستم عاملهای رایانه، لوازم خانگی مانند ماشین لباسشویی و دستگاه مایکروویو و کنترل تلویزیون اضافه شدهاست. آنها روش اصلی تعامل انسان با دستیاران مجازی در تلفنهای هوشمند و بلندگوهای هوشمند هستند. دستیاران خودکار قدیمیتر (که تماس تلفنی را به درستی وصل میکنند) و سیستمهای پاسخدهی صوتی پویا (که معاملات پیچیدهتری از طریق تلفن انجام میدهند) میتوانند به فشار دادن دکمههای صفحه کلید از طریق زنگهای DTMF پاسخ دهند، اما سیستمهایی که دارای رابط کاربری صوتی کامل هستند، به تماسگیرندگان این امکان را میدهند که بدون فشردن دکمهای، درخواستها و پاسخهای خود را بیان کنند.
VCDهای جدیدتر مستقل از بلندگو هستند، بنابراین میتوانند بدون توجه به لهجه یا تأثیرات گویشی، به صداهای متعدد پاسخ دهند. آنها همچنین قادر به پاسخگویی به چندین فرمان بهطور همزمان، جدا کردن پیامهای صوتی و ارائه بازخورد مناسب و تقلید دقیق مکالمه طبیعی هستند.[۱]
بررسی اجمالی
[ویرایش]VUI رابط برنامههای گفتاری است. چند سال پیش کنترل یک ماشین بهسادگی صحبت کردن با آن، تنها در فیلمهای علمی_تخیلی دیده میشد. اخیراً این موضوع هوش مصنوعی تلقی میشد. اگرچه، پیشرفتهایی در فناوری، مانند متن به گفتار، گفتار به متن، پردازش زبان طبیعی و سرویسهای ابری، بهطور کلی، منجر به پذیرش گسترده این نوع رابطها میشود. VUIها عادیتر شدهاند، و مردم از امکانات بهوجود آمده توسط این رابطهای بدون نیاز به دست و بدون نیاز به چشم، در بسیاری از موارد، بهره میبرند.
VUIها باید با اطمینان به ورودی پاسخ دهند، یا توسط کاربران خود رد و اغلب مورد تمسخر قرار میگیرند. طراحی یک VUI خوب، مستلزم استعدادهای بین رشتهای علوم رایانه، زبانشناسی و روانشناسی است، همه اینها مهارتهایی گرانقیمت هستند و به سختی بدست میآیند. حتی با ابزارهای پیشرفته، ساختن یک VUI مؤثر، مستلزم درک عمیقی است از دو موضوع، یک، کارهایی که باید انجام شود، و دو، مخاطب مورد نظر که از سیستم نهایی استفاده خواهد کرد. هرچه VUI با مدل ذهنی کاربر در کار مطابقت داشته باشد، استفاده از آن با آموزش کم یا بدون آموزش آسانتر خواهد بود و در نتیجه هم کارایی بالاتر و هم رضایت کاربر بیشتر خواهد بود.
VUI طراحی شده برای عموم مردم، باید بر سهولت استفاده تأکید کند و برای تماس گیرندگانی که برای بار اول تماس میگیرند، کمک و راهنمایی زیادی را ارائه دهد. در مقابل، یک VUI که برای گروه کوچکی از کاربران برق (از جمله کارمندان خدمات میدانی) طراحی شدهاست، باید بیشتر روی بهرهوری و کمتر بر روی کمک و راهنمایی متمرکز شود. چنین برنامههایی باید جریانهای تماس را سادهتر کرده، نوشتن پیامها را به حداقل برساند، تکرارهای غیرضروری را از بین ببرد و «گفتگوهای بداههٔ نامرتبط» را بهطور دقیق شرح دهد، که تماس گیرندگان را قادر میسازد، چندین قطعه اطلاعات را به صورت یک جمله و به هر ترتیب یا ترکیبی وارد کنند. بهطور خلاصه، برنامههای گفتاری باید برای فرایند تجاری خاص که به صورت خودکار انجام میشود، به دقت طراحی شوند.
همه فرایندهای تجاری خود را به همان خوبی در اختیار اتوماسیون گفتار قرار نمیدهند. بهطور کلی، هرچه سؤالها و معاملات پیچیدهتر باشد، اتوماسیون چالش برانگیزتر خواهد بود و احتمال عدم موفقیت آنها در نزد عموم مردم بیشتر است. در بعضی از سناریوها، اتوماسیون به همین سادگی کاربردی نیست، بنابراین کمک عامل زنده (آنلاین)، تنها گزینه است. به عنوان مثال، یک خط تلفن مشاوره حقوقی برای اتوماسیون بسیار دشوار خواهد بود. آن روی سکه، گفتار برای انجام معاملات سریع و روتین، مانند تغییر وضعیت سفارش کار، تکمیل ورود به زمان یا هزینه، یا انتقال وجه بین حسابها مناسب است.
تاریخچه
[ویرایش]برنامههای اولیه برای VUI، شامل شمارهگیری فعال صوتی برای تلفن، مستقیم یا از طریق هدست (معمولاً بلوتوث)، یا سیستم صوتی وسیله نقلیه بود.
در سال ۲۰۰۷، در یک مقاله تجاری به گزارش CNN آمدهاست که، فرمان صوتی بیش از یک صنعت یک میلیارد دلاری ارزش دارد و شرکتهایی مانند گوگل و اپل در تلاش بودند تا ویژگیهای تشخیص گفتار را ایجاد کنند.[۲] سالها از انتشار این مقاله میگذرد و از آن زمان تاکنون، جهان شاهد انواع دستگاههای فرمان صوتی بودهاست. علاوه بر این، گوگل یک موتور تشخیص صدا به نام Pico TTS ایجاد کرده و اپل سیری (Siri) را منتشر کردهاست. دستگاههای فرمان صوتی در حال گسترش هستند، و همیشه روشهای خلاقانهای برای استفاده از صدای انسان، در حال ایجاد شدن است. بهعنوان مثال، هفته تجارت میگوید که کنترل از راه دور در آینده از طریق صدای انسان خواهد بود. در حال حاضر ایکس باکس لایو چنین ویژگیهایی را داراست، و جابز در تلویزیون جدید اپل به چنین ویژگیای اشاره کردهاست.[۳]
محصولات نرمافزاری فرمان صوتی
[ویرایش]اپل مک و ویندوز کامپیوتر هر دو، ویژگیهای تشخیص صدا را برای جدیدترین سیستم عاملهای خود فراهم ساختهاند.
ویندوز مایکروسافت
[ویرایش]دو سیستم عامل مایکروسافت، ویندوز ۷ و ویندوز ویستا، قابلیت تشخیص گفتار را ارائه میدهند. مایکروسافت فرمانهای صوتی را در سیستم عاملهای خود ادغام میکند تا مکانیزمی را برای افرادی که میخواهند استفاده از موس و کیبورد را محدود کنند، فراهم کند، اما هنوز هم میخواهد بهرهوری کلی خود را حفظ یا افزایش دهد.[۴]
ویندوز ویستا
[ویرایش]با استفاده از کنترل صوتی ویندوز ویستا، کاربر این امکان را دارد که اسناد و ایمیل را در برنامههای اصلی دیکته کند، راه اندازی و جابجایی بین برنامهها، کنترل سیستم عامل، شکلدهی به اسناد، ذخیرهٔ اسناد، ویرایش پوشهها، بهطور مؤثر خطاها را تصحیح کند و فرمها را در اینترنتپر کند. نرم فزار تشخیص گفتار هر بار که کاربر از آن استفاده میکند، به صورت خودکار یاد میگیرد، و تشخیص گفتار به زبانهای انگلیسی (ایالات متحده)، انگلیسی (انگلیس)، آلمانی (آلمان)، فرانسوی (فرانسه)، اسپانیایی (اسپانیا)، ژاپنی، چینی (سنتی)، و چینی (ساده شده) در دسترس است. علاوه بر این، این نرمافزار دارای یک آموزش تعاملی است، که میتواند هم برای آموزش کاربر و هم برای آموزش موتور تشخیص گفتار مورد استفاده قرار گیرد.[۵]
ویندوز ۷
[ویرایش]علاوه بر تمام ویژگیهای ارائه شده در ویندوز ویستا، ویندوز ۷ یک نابغه را برای راهاندازی میکروفون و آموزش نحوه استفاده از این ویژگی ارائه میدهد.[۶]
Mac OS X
[ویرایش]تمام رایانههای Mac OS X نرمافزار تشخیص گفتار را، از ابتدا نصب شده، دارند. این نرمافزار مستقل از کاربر است، و به کاربر این امکان را میدهد تا «در منوها حرکت کرده و میانبرهای صفحه کلید را وارد کند؛ نام چکباکس، نام دکمههای رادیویی، موارد لیست و نام دکمهها را بیان کند؛ و باز کند، ببندد، کنترل کند و میان برنامهها جابهجا شود.»[۷] با این حال، وب سایت اپل به کاربر توصیه میکند، کالای تجاری به نام Dictate را خریداری کند.
محصولات تجاری
[ویرایش]اگر یک کاربر از ساختار نرمافزار تشخیص گفتار راضی نباشد یا کاربر برای سیستم عامل خود نرمافزاری برای تشخیص گفتار نداشته باشد، سپس این امکان را دارد که یک محصول تجاری مانند Braina Pro یا DragonNaturallySpeaking را برای رایانههای با سیستم عامل ویندوز آزمایش کند.[۸] و همچنین Dictate، نام همان نرمافزار Mac OS است.[۹]
فرمان صوتی برای تلفنهای همراه
[ویرایش]هر دستگاه تلفن همراه دارای سیستم عامل Android ,Microsoft Windows Phone , iOS 5 یا بالاتر یا Blackberry OS قابلیت فرمان صوتی را ارائه میدهد. علاوه بر نرمافزار تشخیص گفتار ساختهشده برای سیستم عامل هر تلفن همراه، یک کاربر این امکان را دارد که برنامههای فرمان صوتی دیگر را از فروشگاه برنامههای هر سیستم عامل بارگیری کند.
سیستم عامل Android
[ویرایش]گوگل یک سیستم عامل منبع باز به نام Android، ایجاد کردهاست، که به کاربر این امکان را میدهد که دستورهای صوتی مانند: ارسال پیامهای متنی، گوش دادن به موسیقی، راهنماییها، تماس با مشاغل، تماس با مخاطبین، ارسال ایمیل، مشاهده نقشه، مراجعه به وبسایتها، نوشتن یادداشت و جستجوی گوگل را انجام دهد.[۱۰] نرمافزار تشخیص گفتار از اندروید 2.2 "Froyo" برای تمامی دستگاهها در دسترس است، اما تنظیمات باید به زبان انگلیسی تنظیم شود. گوگل به کاربر اجازه میدهد زبان را تغییر دهد، و از کاربر خواسته میشود که وقتی برای اولین بار از ویژگی تشخیص صدا استفاده میکند، اگر دوست دارد، دادههای صوتی خود را به حساب گوگل خود وصل کند. اگر کاربر تصمیم به انتخاب این سرویس بگیرد، به گوگل اجازه میدهد تا نرمافزار را با صدای کاربر آموزش دهد.[۱۱]
گوگل دستیار Google را با Android 7.0 "Nougat" معرفی کرد. بسیار پیشرفتهتر از نسخه قدیمی است.
Amazon.com دارای Echo است، که از نسخه سفارشی اندروید آمازون برای ارائه رابط صوتی استفاده میکند.
ویندوز مایکروسافت
[ویرایش]ویندوز فون سیستم عامل دستگاه تلفن همراه مایکروسافت است. در ویندوز فون ۷٫۵، برنامه گفتار مستقل از کاربر است و میتوان از آن برای: تماس با شخصی از لیست مخاطب خود، تماس با هر شماره تلفن، شمارهگیری دوبارهٔ آخرین شماره، ارسال یک پیام متنی، تماس با نامه صوتی خود، بازکردن یک برنامه، بررسی و خواندن قرار ملاقاتها، بررسی وضعیت تلفن و جستجو در اینترنت، استفاده کرد.[۱۲][۱۳] بعلاوه، در حین تماس تلفنی میتوان از گفتار نیز استفاده کرد، و اقدامات زیر در طی تماس تلفنی امکانپذیر است: فشردن یک شماره، روشن کردن بلندگوی تلفن یا تماس گرفتن با شخصی دیگر، که تماس فعلی را نگه میدارد.
ویندوز ۱۰ سیستم کنترل صدا را با نام Cortana، معرفی میکند، که جایگزین کنترل صوتی که پیش از این در تلفنهای ویندوز استفاده میشدهاست، میشود.
iOS
[ویرایش]اپل، سیستم کنترل صدا را به عنوان ویژگی جدید iPhone OS 3، به خانواده خود در دستگاههای iOS اضافه کرد؛ و بعد از آن، همهٔ محصولاتش با یک دستیار صوتی پیشرفته تر به نام Siri همراه هستند . کنترل صدا هنوز هم میتواند از طریق فهرست تنظیمات دستگاههای جدید فعال شود. Siri یک ویژگی تشخیص گفتار داخلی مستقل از کاربر است، که به کاربر امکان صادر کردن فرمانهای صوتی را میدهد. با کمک Siri یک کاربر این امکان را دارد که فرمانهایی مانند، ارسال یک پیام متنی، بررسی وضعیت هوا، تنظیم یادآوری، یافتن اطلاعات، برنامههای جلسات، ارسال ایمیل، یافتن یک مخاطب، تنظیم زنگ هشدار، دریافت مسیرها، پیگیری سهام خود، تنظیم یک تایمر و درخواست نمونههایی از نمونه جستارهای فرمان صوتی را ارسال کند.[۱۴] علاوه بر این، Siri با بلوتوث و هدفونهای باسیم نیز کار میکند.[۱۵]
Amazon Alexa
[ویرایش]در سال ۲۰۱۴ آمازون، دستگاه خانهٔ هوشمند Alexa را معرفی کرد. هدف اصلی آن فقط یک بلندگو هوشمند بود، که به مصرفکننده این امکان را میداد تا دستگاه را با صدای خود کنترل کند. سرانجام، آن را به یک دستگاه جدید تبدیل کرد که توانایی کنترل لوازم خانگی را با استفاده از صدا، داشت. اکنون تقریباً تمام لوازم خانه با الکسا قابل کنترل است، از جمله لامپها و دما. با قابلیت کنترل صدا، الکسا میتواند به فناوری خانهٔ هوشمند متصل شود و به شما این امکان را میدهد تا، خانه خود را قفل کنید، دما را کنترل کنید و دستگاههای مختلف را فعال کنید. این شکل از هوش مصنوعی اجازه میدهد تا شخصی به سادگی از او سؤالی بپرسد، و الکسا در پاسخ جستجو میکند، مییابد و پاسخ را برای شما بازخوانی میکند.[۱۶]
تشخیص گفتار در اتومبیل
[ویرایش]با پیشرفت تکنولوژی اتومبیل، ویژگیهای بیشتری به اتومبیلها افزوده میشود و این ویژگیها به احتمال زیاد راننده را منحرف میکند. فرمانهای صوتی برای اتومبیلها، طبق گزارش CNET، باید به راننده این امکان را بدهد که فرمانها را صادر کند بدون اینکه حواسش پرت شود. CNET اظهار داشت که Nuance پیشنهاد میکند که در آینده نرمافزاری را ایجاد کنند که شبیه به سیری باشد، اما برای اتومبیلها.[۱۷] امروزه بیشتر نرمافزارهای تشخیص گفتار در بازار تنها حدود ۵۰ تا ۶۰ فرمان صوتی دارند، اما فورد سنکرون ۱۰٬۰۰۰تا فرمان صوتی دارد. اگرچه، CNET نشان میدهد که حتی ۱۰٬۰۰۰ فرمان صوتی، با توجه به پیچیدگی و تنوع کارهایی که ممکن است کاربر بخواهد هنگام رانندگی انجام دهد، کافی نیست. فرمان صوتی برای اتومبیلها با فرمان صوتی تلفنهای همراه و رایانهها متفاوت است، زیرا یک راننده ممکن است از این ویژگی برای جستجوی رستورانهای نزدیک، جستجوی بنزین، مسیرها، شرایط جاده و محل نزدیکترین هتل استفاده کند. در حال حاضر، فناوری به راننده اجازه میدهد تا فرمانهای صوتی را در هر دو، GPS قابل حمل مانند Garmin و سیستم ناوبری سازنده خودرو، صادر کند.[۱۸]
لیست سیستمهای فرمان صوتی ارائه شده توسط تولیدکنندگان موتور:
- فورد سنکرون
- فرمان صوتی لکسوس
- کرایسلر UConnect
- هوندا آکورد
- GM IntelliLink
- بی ام و
- مرسدس
- Pioneer
- هارمن
- هیوندای
ورودی غیر کلامی
[ویرایش]در حالی که بیشتر رابطهای کاربر صوتی برای پشتیبانی از تعامل از طریق زبان انسانی (گفتگو) طراحی شدهاند، اخیراً کاوشهایی برای طراحی رابطهایی انجام شدهاست، که صداهای غیر کلامی انسان را به عنوان ورودی درمیآورد. در این سیستمها، کاربر با انتشار صداهای غیر گفتاری مانند صدای زوزه زدن، سوت زدن یا دمیدن در میکروفون، رابط را کنترل میکند.[۱۹]
یک نمونه از رابط کاربری صوتی غیرکلامی Blendie،[۲۰][۲۱] یک سیستم هنری تعاملی است که توسط Kelly Dobson ایجاد شدهاست. این قطعه شامل یک مخلوط کن کلاسیک متعلق به دههٔ ۱۹۵۰ بود، که برای پاسخ به ورودی میکروفون ساختهشدهبود. برای کنترل مخلوط کن، کاربر باید صداهای مکانیکی پیچیدهای را که یک مخلوط کن بهطور معمول ایجاد میکند، تقلید کند: مخلوط کن در پاسخ به صدای کم کاربر، به آرامی میچرخد و با افزایش صدای کاربر، سرعت چرخش را افزایش میدهد.
مثال دیگر VoiceDraw[۲۲] است، یک سیستم تحقیقاتی که طراحی دیجیتالی را برای افراد دارای توانایی حرکتی محدود امکانپذیر میکند. VoiceDraw به کاربر اجازه میدهد تا با تعدیل صداهای مصوت، که در جهت قلمها نقشهبرداری شدهاست، بر روی بوم دیجیتال، رنگ آمیزی کنند. تعدیل سایر ویژگیهای پارالانژیکی (به عنوان مثال صدای بلند صدای آنها) به کاربر این امکان را میدهد که ویژگیهای مختلف طراحی مانند ضخامت ضربه قلممو را کنترل کند.
رویکردهای دیگر شامل استفاده از صداهای غیرکلامی برای تقویت رابطهای مبتنی بر لمس (به عنوان مثال از طریق تلفن همراه) برای پشتیبانی از انواع جدیدی از حرکات است که تنها با استفاده از انگشت ممکن نیست.[۱۹]
چالشهای طراحی
[ویرایش]رابطهای صوتی تعداد قابل توجهی چالش برای قابلیت استفاده دارند. برخلاف رابطهای گرافیکی کاربر (GUI)، بهترین شیوهها برای طراحی رابط صوتی هنوز ضروری هستند.[۲۳]
قابلیت کشف
[ویرایش]با تعامل کاملاً مبتنی بر صوت، رابط کاربری صوتی از قابلیت کشف کم، رنج میبرد:[۲۳] درک دامنهٔ قابلیتهای سیستم برای کاربران دشوار است. برای اینکه سیستم بتواند بدون نمایشگر تصویری امکانپذیر باشد، باید گزینههای موجود را، که میتواند خسته کننده یا غیرقابل دسترس باشد، محاسبه کرد. قابلیت کشف کم، در اغلب موارد باعث میشود تا کاربران در مورد آنچه آنها اجازهٔ گفتن آن را دارند، یا عدم توافق در مورد انتظارات از وسعت درک سیستم، گزارش سردرگمی بدهند.[۲۴][۲۵]
خطاهای رونویسی
[ویرایش]در حالی که فناوری تشخیص گفتار در سالهای اخیر به طرز چشمگیری بهبود یافتهاست، رابطهای کاربر صوتی هنوز از خطاهای تجزیه و رونویسی، که در آن سخنرانی کاربر به درستی تعبیر نمیشود، رنج میبرند.[۲۶] این خطاها مخصوصاً هنگامی متداول میشوند که محتوای گفتار از واژگان فنی (به عنوان مثال اصطلاحات پزشکی) یا هجیهای غیر متعارف مانند نام هنرمندان موسیقی یا نام آهنگها باشد.[۲۷]
کاربردهای آینده
[ویرایش]دستگاههای اندازه_جیبی، مانند PDA یا تلفنهای همراه، در حال حاضر برای ورود کاربر به دکمههای کوچک متکی هستند. این دکمهها یا در دستگاه ساخته شدهاند یا بخشی از رابط صفحه لمسی هستند، مانند اپل لمسی iPod و iPhone Siri Application. فشار زیاد دکمه بر روی دستگاههایی با چنین دکمههای کوچک، میتواند خسته کننده و نادرست باشد، بنابراین یک VUI با کاربری آسان، دقیق و قابل اعتماد بهصورت بالقوه میتواند یک پیشرفت بزرگ در سهولت استفاده از آنها باشد. با این وجود، چنین VUI به نفع کاربران رایانههای لپتاپ و رومیزی نیز خواهد بود، زیرا در حال حاضر بسیاری از مشکلات ناشی از استفاده از صفحه کلید و موس را حل میکند، از جمله صدمات ناشی از فشار مکرر مانند سندرم تونل کارپ و سرعت کند تایپ کردن بخشی از کاربران که بیتجربه هستند. علاوه بر این، استفاده از صفحه کلید بهطور معمول مستلزم نشستن یا ایستادن مداوم در مقابل صفحه نمایش متصل است. در مقابل، یک VUI باعث میشود کاربر به مراتب دورتر از موبایل باشد، زیرا ورودی گفتار نیاز به نگاه کردن به صفحه کلید را از بین میبرد.
چنین تحولاتی به معنای واقعی کلمه میتواند چهرهٔ ماشینهای فعلی را تغییر داده و پیامدهای گستردهای در نحوه تعامل کاربران با آنها داشته باشد. دستگاههای دستی با صفحههای بزرگتر و آسانتر برای به نمایش درآمدن، طراحی شدهاند، زیرا نیازی به صفحه کلید ندارند. دستگاههای صفحه لمسی دیگر نیازی به تقسیم صفحه نمایش بین محتوا و صفحهکلید روی صفحه ندارند، بنابراین مشاهده محتوا را در تمام صفحه فراهم میکند. لپ تاپها در اصل میتوانند از لحاظ اندازه نصف شوند، زیرا صفحه کلید میتواند از بین برود و تمام اجزای داخلی در پشت صفحه نمایش یکپارچه شوند و بهطور مؤثری تبدیل به رایانه لوحی ساده میشوند. رایانههای رومیزی شامل یک پردازنده و صفحه نمایش هستند، که باعث صرفه جویی در فضای دسکتاپ میشود. در غیر این صورت فضا توسط صفحه کلید اشغال میشود. کنترل تلویزیون و صفحه کلید بر روی دهها دستگاه دیگر، از مایکروویو گرفته تا فتوکپی نیز میتواند از بین برود.
با این وجود، برای بروز چنین پیشرفتهایی باید بر چالشهای بیشماری غلبه کرد. نخست، VUI باید به اندازه کافی پیشرفته باشد تا بتواند بین ورودی، از جمله فرمانها، و گفتگوی پیش زمینه (بهعنوان نویز شناخته میشود)، تفاوت قائل شود. در غیر این صورت، ورودی کاذب ثبت میشود و دستگاه متصل بهطور نامنظم رفتار میکند. یک استاندارد فوری، مانند "رایانه"! معروف تماس توسط شخصیتها در برنامههای علمی_تخیلی تلویزیون و فیلمهایی مانند Star Trek، میتوانند VUI را فعال کرده و آن را برای دریافت ورودی بیشتر توسط همین بلندگو آماده کنند. بهطور واضح، همچنین VUI میتواند، یک نمایه شبیه به انسان را شامل شود: یک صدا یا حتی یک شخصیت روی صفحه نمایش، به عنوان مثال، پاسخ میدهد (به عنوان مثال، "بله، وامشی؟") و همچنان برای روشن شدن ورودی دریافت شده و اطمینان از صحت آن، با کاربر در ارتباط است.
دوم، VUI باید به منظور پردازش دقیق و یافتن / بازیابی اطلاعات یا انجام عملی طبق تنظیمات برگزیدهٔ کاربر، با نرمافزارهای بسیار پیشرفته به صورت هماهنگ همکاری کند. به عنوان مثال، اگر سامانتا اطلاعات یک روزنامه خاص را ترجیح میدهد، و اگر ترجیح میدهد اطلاعات به صورت خلاصه طبقهبندی شود، میتواند بگوید «رایانه، اطلاعاتی دربارهٔ سیل شب گذشته در جنوب چین پیدا کنید». در پاسخ، VUI که با ترجیحات او آشنا است، میتواند حقایق «سیل» در «جنوب چین» را از آن منبع «پیدا کند»، آن را به شکل خلاصه تبدیل کند و آن را بر روی صفحه نمایش و / یا به صورت صوتی تحویل دهد، کامل با استناد؛ بنابراین، به نرمافزار دقیق تشخیص گفتار، همراه با مقداری از هوش مصنوعی در قسمتی از دستگاه مرتبط با VUI، لازم است.
منابع
[ویرایش]- ↑ "Washing Machine Voice Control". Appliance Magazine. Archived from the original on 3 November 2011. Retrieved 26 January 2020.
- ↑ Borzo, Jeanette (8 February 2007). "Now You're Talking". CNN Money. Retrieved 25 April 2012.
- ↑ "Voice Control, the End of the TV Remote?". Business Week. Retrieved 1 May 2012.
- ↑ "Windows Vista Built In Speech". Windows Vista. Retrieved 25 April 2012.
- ↑ "Speech Operation On Vista". Microsoft.
- ↑ "Speech Recognition Set Up". Microsoft.
- ↑ "Physical and Motor Skills". Apple.
- ↑ "DragonNaturallySpeaking PC". Nuance. Archived from the original on 9 April 2017. Retrieved 26 January 2020.
- ↑ "DragonNaturallySpeaking Mac". Nuance. Archived from the original on 9 April 2017. Retrieved 26 January 2020.
- ↑ "Voice Actions". Google.
- ↑ "Google Voice Search For Android Can Now Be "Trained" To Your Voice". Retrieved 24 April 2012.
- ↑ "Using Voice Command". Microsoft. Retrieved 24 April 2012.
- ↑ "Using Voice Commands". Microsoft. Retrieved 27 April 2012.
- ↑ "Siri, The iPhone 3GS & 4, iPod 3 & 4, have voice control like an express Siri, it plays music, pauses music, suffle, Facetime, and calling Features". Apple. Archived from the original on 31 August 2012. Retrieved 27 April 2012.
- ↑ "Siri FAQ". Apple. Archived from the original on 31 August 2012. Retrieved 26 January 2020.
- ↑ https://www.businessinsider.com/amazon-echo-and-alexa-history-from-speaker-to-smart-home-hub-2017-5
- ↑ "Siri Like Voice". CNET.
- ↑ "Portable GPS With Voice". CNET.
- ↑ ۱۹٫۰ ۱۹٫۱ "Voice augmented manipulation | Proceedings of the 15th international conference on Human-computer interaction with mobile devices and services". dlnext.acm.org (به انگلیسی). doi:10.1145/2493190.2493244. Retrieved 2019-02-27.
- ↑ "Blendie | Proceedings of the 5th conference on Designing interactive systems: processes, practices, methods, and techniques". dlnext.acm.org (به انگلیسی). doi:10.1145/1013115.1013159. Retrieved 2019-02-27.
- ↑ "Kelly Dobson: Blendie". web.media.mit.edu. Archived from the original on 10 May 2022. Retrieved 2019-02-27.
- ↑ "Voicedraw | Proceedings of the 9th international ACM SIGACCESS conference on Computers and accessibility". dlnext.acm.org (به انگلیسی). doi:10.1145/1296843.1296850. Retrieved 2019-02-27.
- ↑ ۲۳٫۰ ۲۳٫۱ "Design guidelines for hands-free speech interaction | Proceedings of the 20th International Conference on Human-Computer Interaction with Mobile Devices and Services Adjunct". dlnext.acm.org (به انگلیسی). doi:10.1145/3236112.3236149. Retrieved 2019-02-27.
- ↑ "Designing SpeechActs | Proceedings of the SIGCHI Conference on Human Factors in Computing Systems". dlnext.acm.org (به انگلیسی). doi:10.1145/223904.223952. Retrieved 2019-02-27.
- ↑ "What can I say? | Proceedings of the 18th International Conference on Human-Computer Interaction with Mobile Devices and Services". dlnext.acm.org (به انگلیسی). doi:10.1145/2935334.2935386. Retrieved 2019-02-27.
- ↑ "Patterns for How Users Overcome Obstacles in Voice User Interfaces | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (به انگلیسی). doi:10.1145/3173574.3173580. Retrieved 2019-02-27.
- ↑ ""Play PRBLMS" | Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems". dlnext.acm.org (به انگلیسی). doi:10.1145/3173574.3173870. Retrieved 2019-02-27.