کاربرد مهم هوش مصنوعی _ تشخیص گفتار

**Sina homaei** · 2018/04/26, 17:59

تشخیص گفتار طبیعی یا Natural language Processing که به اختصار NLP خوانده می‌شود، قابلیت استفاده در کاربردهای مختلفی را دارد. با استفاده یادگیری ماشین و تشخیص گفتار طبیعی می‌توان کاربران یا مشتریان را با سرعت بیشتری به سمت اطلاعاتی که مدنظر وی است، هدایت کرد. از جمله‌ی کاربردهای دیگر این سیستم می‌توان به ساده‌سازی مفاد یک قرارداد که اصطلاحات پیچیده‌ی حقوقی دارد و همچنین خلاصه کردن تمام اطلاعاتی که یک وکیل مدافع باید آن‌ها را مطالعه کند، اشاره کرد.

https://www.zoomit.ir/2016/10/16/147...e-learning-ai/

**Sina homaei** · 2018/04/26, 18:33

به گزارش گروه اجتماعی باشگاه خبرنگاران پویا؛ از طریق فناوری نرم‌افزار تایپ گفتاری زبان فارسی، انسان برای انجام کارهای معمول با ماشینها می‌تواند به‌جای استفاده از کلید و دکمه، با صحبت کردن با ماشین درخواست خود را به آن منتقل کند.
حسین صامتی؛ عضو هیئت علمی دانشکده‌ مهندسی کامپیوتر دانشگاه صنعتی شریف و طراح این نرم‌افزار با اشاره به اینکه فعالیت در زمینه هوش مصنوعی و پردازش سیگنال گفتار با هدف ایجاد ارتباط بین انسان و ماشین اجرایی شده است، بیان کرد: این نرم‌افزار علاوه بر بازشناسی گفتار پیوسته و طبیعی فارسی و نوشتن متن معادل آن، براساس شناختی که از مدل زبانی دارد، پیش‌بینی ادامه متن را انجام و از این طریق دقت تایپ را افزایش می‌دهد.
وی این نرم‌افزار را شامل دو بخش اصلی دانست و گفت: نرم‌افزار تایپ گفتاری زبان فارسی از دو بخش اصلی پردازش گفتار و پردازش زبانی تشکیل‌ شده است که در پردازش گفتار به بررسی سیگنال گفتار پرداخته می‌شود و در بخش زبانی، کلمات ادا شده از لحاظ فراوانی، گرامر و معناشناسی مورد بررسی قرار می‌گیرد که در نهایت متن معادل گفتار به درستی تهیه می‌شود.
این فعال حوزه فناوری گفت: در حال حاضر شرکتهایی همچون گوگل و چندین شرکت‌ داخلی برای زبان فارسی این سامانه را ارائه کرده‌اند که هیچ یک امکان بازشناسی متون تخصصی را ندارند.
وی با اشاره به مشتریان این نرم‌افزار در داخل گفت: در حال حاضر بیش از سه هزار مشتری اعم از سازمانی و شخصی در کشور از استفاده‌کنندگان این نرم‌افزار طراحی شده هستند؛ بانکها، قوه قضاییه، پزشکان، وزارت نفت، وزارت ارشاد و دانشجویان از مشتریان این نرم‌افزار تولید شده در کشور هستند.
صامتی تشخیص لهجه و لحن و ایجاد پروفایل شخصی برای تمامی کاربران نرم‌افزار را از قابلیتهای آن دانست و گفت: از مهم‌ترین ویژگیهای نسخه جدید آن، تولید در نسخه‌های مختلف برای کاربریهای متفاوت است که از این کاربریها، می‎توان به کاربری بیمارستانی، حقوقی، سازمانی و مدارس و نیز برای نویسندگان اعم از فیلم‌نامه‌نویس و نویسنده کتاب اشاره کرد که در هر یک از نسخه‎ها با توجه به نیازهای کاربر، تطبیق با واژگان و مدل زبانی آن گروه کاربران صورت گرفته است.
این فعال حوزه فناوری با اشاره به اینکه هیچ تناقضی میان طراحی این نرم‌افزار و بحث اشتغال وجود ندارد، گفت: با توجه به اینکه کار در حوزه فناوریهای نوین همیشه همراه با موضوع اشتغالزایی بوده است، نرم‌افزار طراحی شده ممکن است نیاز به وجود تایپیست را کم رنگتر کند اما طراحی و به‌کارگیری این نرم‌افزار نیازمند گروهی از تحصیل‌کردگان به‌منظور تحقیق و توسعه است و اشتغالزایی برای نخبگان ایجاد می‌کند.
انتهای پیام/

https://www.tasnimnews.com/fa/news/1...6-%D8%B4%D8%AF

**Sina homaei** · 2018/04/26, 18:36

صدا هوش مصنوعی
شرکت DeepMind بریتانیا با استفاده از فناوری هوش مصنوعی خود یک سیستم گفتگو تلفیقی به نام WaveNet را سال ۲۰۱۶ معرفی کرد. این سیستم بر مبنی یک شبکه عصبی مصنوعی عمل کرده که قادر است نمونه گفتاری با وضوح بهتر از نمونه‌های مشابه ارائه دهد.
به کمک چنین سیستمی صدا هوش مصنوعی به صدا انسان بسیار نزدیک‌تر است. WaveNet از این رو توسعه یافته تا گوگل اسیستنت روی سیستم عامل‌های مختلف بازدهی قابل توجهی داشته باشد. در حال حاضر WaveNet با صدا انسان گونه خود حتی بهبودی پیدا کرده و صدای نزدیک‌تر به یک انسان دارد.
این سیستم در ژانویه سال ۲۰۱۸ توسط گوگل راه اندازی می‌شود و سیستم قادر است به همکاری با سیستم متن به گفتار Tacotron 2 بپردازد. در ابتدا Tacotron 2 متن را به شکل نمایش بصری از طریق فرکانس‌های صوتی در طی مدت زمانی ترجمه می‌کند که به عنوان طیف سنجی محسوب می‌شود. سپس WaveNet به خواندن طیف سنجی پرداخته و یک نموداری با عناصر صوتی مربوطه ایجاد خواهد کرد.
براساس این مطالعه، امتیاز مدل به شکل متوسط ۴٫۵۳ بوده که برای سخنرانی‌های حرفه‌ای برابر است با ۴٫۵۸٫ به عبارتی ساده این نوع سخنرانی شباهت نزدیکی به سخنرانی ساده دارد.
در حقیقت گوگل صدا ضبط شده و AI خود را در کنار باقی قرار می‌دهد و معلوم است که دستگاه همانند یک شخص است.
سیستم سخنرانی SYNTHETIC
امروز سیستم‌های مبتنی بر هوش مصنوعی بهبودی پیدا کرده و موجب نزدیک شدن عملکرد آنها به انسان شدند. اگرچه هوش مصنوعی قادر نیست عملکردی دقیقا مشابه انسان داشته باشد اما می‌تواند نزدیک عمل کند. دیگر هوش مصنوعی می‌تواند به ایجاد ویدئوهای جعلی بپردازد و همچنین نمی‌توان حضور پر رنگ هوش مصنوعی در کنار انسان را نادیده گرفت.
تقلید کردن صدای انسانی همیشه چالشی برای هوش‌های مصنوعی بود. در حال حاضر دو سیستم WaveNet و Tacotron 2 شرکت DeepMind در حال تغییراتی هستند و موجب نزدیک شدن به عملکرد انسان می‌باشند. نه تنها این نوع هوش‌های مصنوعی می‌توانند تلفط نزدیکی داشته باشند، بلکه قادرند در آینده تلفظ کلمات و جملات را به سادگی انجام دهند. در حال حاضر تنها لغات مشخصی تلفظ می‌شود اما در آینده این امر گسترده‌تر خواهد شد.
البته نباید پنداشت سیستم جدید AI کامل است و نقصی ندارد. تکرار صدا آن تنها براساس سیستم آموزش داده شده بوده که گوگل برای آن زنی را استخدام کرد تا صدا را به ثبت برساند. برای Tacotron 2و WaveNet نیز یک زن و مردی نیاز بوده و به کار گرفته شد.
گذشته از گوگل اسیستنت که به عنوان یک دستیار فوری شناخته می‌شود، گوگل در تلاش است Tacotron 2 و امثال آن را نیز بزودی به کار گیرد تا سیستم AI مختلفی را به مشتریان خود ارائه دهد.

بزودی تشخیص صدا انسان و هوش مصنوعی دشوار می شود | تکفارس

**Sina homaei** · 2018/04/26, 18:42

صدا هوش مصنوعی
شرکت DeepMind بریتانیا با استفاده از فناوری هوش مصنوعی خود یک سیستم گفتگو تلفیقی به نام WaveNet را سال ۲۰۱۶ معرفی کرد. این سیستم بر مبنی یک شبکه عصبی مصنوعی عمل کرده که قادر است نمونه گفتاری با وضوح بهتر از نمونه‌های مشابه ارائه دهد.
به کمک چنین سیستمی صدا هوش مصنوعی به صدا انسان بسیار نزدیک‌تر است. WaveNet از این رو توسعه یافته تا گوگل اسیستنت روی سیستم عامل‌های مختلف بازدهی قابل توجهی داشته باشد. در حال حاضر WaveNet با صدا انسان گونه خود حتی بهبودی پیدا کرده و صدای نزدیک‌تر به یک انسان دارد.
این سیستم در ژانویه سال ۲۰۱۸ توسط گوگل راه اندازی می‌شود و سیستم قادر است به همکاری با سیستم متن به گفتار Tacotron 2 بپردازد. در ابتدا Tacotron 2 متن را به شکل نمایش بصری از طریق فرکانس‌های صوتی در طی مدت زمانی ترجمه می‌کند که به عنوان طیف سنجی محسوب می‌شود. سپس WaveNet به خواندن طیف سنجی پرداخته و یک نموداری با عناصر صوتی مربوطه ایجاد خواهد کرد.
براساس این مطالعه، امتیاز مدل به شکل متوسط ۴٫۵۳ بوده که برای سخنرانی‌های حرفه‌ای برابر است با ۴٫۵۸٫ به عبارتی ساده این نوع سخنرانی شباهت نزدیکی به سخنرانی ساده دارد.
در حقیقت گوگل صدا ضبط شده و AI خود را در کنار باقی قرار می‌دهد و معلوم است که دستگاه همانند یک شخص است.
سیستم سخنرانی SYNTHETIC
امروز سیستم‌های مبتنی بر هوش مصنوعی بهبودی پیدا کرده و موجب نزدیک شدن عملکرد آنها به انسان شدند. اگرچه هوش مصنوعی قادر نیست عملکردی دقیقا مشابه انسان داشته باشد اما می‌تواند نزدیک عمل کند. دیگر هوش مصنوعی می‌تواند به ایجاد ویدئوهای جعلی بپردازد و همچنین نمی‌توان حضور پر رنگ هوش مصنوعی در کنار انسان را نادیده گرفت.
تقلید کردن صدای انسانی همیشه چالشی برای هوش‌های مصنوعی بود. در حال حاضر دو سیستم WaveNet و Tacotron 2 شرکت DeepMind در حال تغییراتی هستند و موجب نزدیک شدن به عملکرد انسان می‌باشند. نه تنها این نوع هوش‌های مصنوعی می‌توانند تلفط نزدیکی داشته باشند، بلکه قادرند در آینده تلفظ کلمات و جملات را به سادگی انجام دهند. در حال حاضر تنها لغات مشخصی تلفظ می‌شود اما در آینده این امر گسترده‌تر خواهد شد.
البته نباید پنداشت سیستم جدید AI کامل است و نقصی ندارد. تکرار صدا آن تنها براساس سیستم آموزش داده شده بوده که گوگل برای آن زنی را استخدام کرد تا صدا را به ثبت برساند. برای Tacotron 2و WaveNet نیز یک زن و مردی نیاز بوده و به کار گرفته شد.
گذشته از گوگل اسیستنت که به عنوان یک دستیار فوری شناخته می‌شود، گوگل در تلاش است Tacotron 2 و امثال آن را نیز بزودی به کار گیرد تا سیستم AI مختلفی را به مشتریان خود ارائه دهد.

بزودی تشخیص صدا انسان و هوش مصنوعی دشوار می شود | تکفارس

**Sina homaei** · 2018/04/26, 18:42

گوگل نیز همانند هر شرکت دیگری، می خواهد خروجی گفتاری محصولاتش تا جای ممکن واقعی و طبیعی به نظر برسد. برای حصول این نتیجه می توان از یک هنرپیشه معروف و خوش صدا (مثلاً اسکارلت یوهانسون) بخواهیم تمام کلمات و عبارات و آواهای مختلف را ادا کند و سپس با استفاده از نرم افزاری پیچیده آنها را با هم ترکیب نماییم، اما این روش برای گوگل چندان هیجان انگیز نیست.
غول تکنولوژی مانتن ویو به تازگی از سامانه جدیدی تحت عنوان «تاکوترون» (Tacotron) رونمایی کرده که از فنون یادگیری عمیق (deep learning) برای تبدیل نوشته به گفتار بهره می گیرد. تاکوترون قادر است ویژگی های عروضی (تُن و آهنگ موسیقایی گفتار) را رعایت کند، ابهام معنایی (مانند تلفظ متفاوت read در زمان های حال و گذشته) را تشخیص دهد، خطاهای املایی نوشته را به بهترین شکل ممکن اصلاح نماید، و حتی سبک های نوشتاری هیجانی و نامأنوس (مثلاً «این خعععلی عاولیه») را نیز به خوبی ادا کند؛ این قابلیت ها تاکنون در هیچکدام از موتورهای تبدیل نوشتار به گفتار وجود نداشت.

گوگل در مقاله کامل خود عنوان می دارد که سنتز مُقطع گفتار، یعنی همان رویکردی که هم اکنون توسط اپل در «سیری» به کار گرفته می شود، خروجی طبیعی تری را در مقایسه با تاکوترون خواهد داشت، اما پیاده سازی آن بسیار پر هزینه، دشوار و با محدودیت های خاصی همراه است. مثلاً دو عبارت با کلمات مشابه در حالت خبری و سؤالی، آهنگ بیان متفاوتی خواهند داشت و تغییر نرم افزاری این ویژگی، نمی تواند در تمامی شرایط خروجی مطلوبی را ایجاد کند.
برای غلبه بر این مشکلات ناخواسته و خاص که قابل شناسایی و برنامه ریزی نیستند، تاکوترون از سیستم هوش مصنوعی مبتنی بر یادگیری عمیق برای تصمیم گیری استفاده می کند و اگرچه طبیعی ترین خروجی را تحویل نمی دهد، اما بسیار سریع تر از فناوری های کنونی عمل کرده، پیاده سازی آن ساده تر است، و موارد استثنایی و خاص را نیز به خوبی مدیریت می نماید.

به گفته مدیر این پروژه، تاکوترون فرایند پردازش و تبدیل متن به گفتار را با استفاده از معماری ساده شبکه عصبی انجام می دهد و به همین دلیل، آموزش آن با استفاده از پایگاه داده عظیم نوشتار و گفتار همانند آنچه گوگل در اختیار دارد، بسیار ساده خواهد بود.
البته گوگل هنوز در مورد استفاده از تاکوترون در محصولاتش چیزی نگفته، اما اگر در آینده با عبارتی عجیب و غریب و فنی روبرو شدید که موتور تبدیل نوشتار به گفتار گوگل به راحتی از عهده خواندن آن برآمد، مطمئن باشید که تاکوترون در آن سوی خط حضور دارد.

منبع:

FastCompany

تاکوترون؛ هوش مصنوعی جدید و پیشرفته گوگل برای تبدیل متن به گفتار - دیجیاتو

**Sina homaei** · 2018/04/26, 18:44

این هوش مصنوعی پوشیدنی لحن مکالمه را تشخیص می‌دهد!

پژوهشگران وسیله‌ای پوشیدنی توسعه داده‌اند که می‌تواند به کمک هوش مصنوعی لحن گوینده(شاد، غمگین و خنثی) را تشخیص دهد. این سامانه می‌تواند به عنوان یک مربی اجتماعی عمل کند و به طرز چشمگیری چگونگی ارتباط ما با یکدیگر را بهبود بخشد.

Samsung Simband

این یک واقعیت است که یک مکالمه را می‌توان به شیوه‌های بسیار متفاوت تفسیر کرد. برای افراد مبتلا به اضطراب یا شرایط دیگری همچون آسپرگر، موقعیت‌های اجتماعی می‌تواند بسیار استرس‌زا باشد. اما آیا روشی علمی برای اندازه‌گیری و درک متقابل ما وجود دارد؟
پژوهشگران علوم کامپیوتر و آزمایشگاه هوش مصنوعی (CSAIL) دانشگاه MIT می‌گویند که به یک راهکار بالقوه دست پیدا کرده‌اند: یک سامانه پوشیدنی هوش مصنوعی که می‌تواند بر اساس الگوهای گفتاری هر فرد پیش بینی کند که یک مکالمه شاد، غمگین و یا خنثی است.
توکا الحانی، دانشجوی کارشناسی ارشد است و با همکاری محمد قاسمی، دانشجوی دکترا این مقاله را نوشته‌اند و آن را در کنفرانس انجمن پیشرفت هوش مصنوعی (AAAI) در سانفرانسیسکو ارائه خواهند داد. توکا الحانی می‌گوید: «تصور کنید که در پایان یک مکالمه، بتوانید به عقب بازگردید و لحظاتی را ببینید که مردم اطراف شما احساس اضطراب بیشتری دارند. کار ما یک گام در این جهت است که نباید دور از جهانی باشیم که در آن مردم می‌توانند یک مربی اجتماعی هوش مصنوعی را در جیب خود داشته باشند».
این سامانه می‌تواند همزمان با اینکه یک شرکت کننده صحبت می‌کند، صدا را پردازش و متن را رونویسی کند و سیگنال‌های فیزیولوژیکی را برای تعیین لحن کلی صحبت‌ها با دقت ۸۳ درصد تجزیه و تحلیل کند. با استفاده از روش یادگیری عمیق، این سامانه همچنین می‌تواند یک نمره احساسی ویژه برای فواصل پنج ثانیه‌ای از مکالمه فراهم کند.
قاسمی می‌گوید: «تا آنجا که ما می‌دانیم، این آزمایش نخستین آزمایشی است که هر دو داده‌های فیزیکی و گفتاری را با روش انفعالی اما مقاوم جمع‌آوری می‌کند، حتی زمانی که افراد تعاملات بدون ساختار و طبیعی دارند. نتایج ما نشان می‌دهد که امکان طبقه‌بندی لحن احساسی مکالمات در زمان واقعی وجود دارد».
این گروه مشتاق است تا به این نکته نیز اشاره کند که سامانه آنها با حفظ حریم شخصی توسعه یافته است: الگوریتم قابل اجرا بر روی دستگاه کاربر از اطلاعات شخصی حفاظت می‌کند. الحانی می‌گوید که نسخه مصرف کننده نیازمند جلب رضایت از افراد درگیر در مکالمه است.
این پوشیدنی هوش مصنوعی چگونه کار می‌کند

مطالعات گذشته در این زمینه اغلب به صورت تصویری نشان می‌دهد که شرکت کنندگان «شاد» هستند یا «غمگین»، یا از آنها می‌خواهد تا به صورت مصنوعی حالت احساسی خاصی داشته باشند. اما این گروه در تلاش برای استخراج عواطف ذاتی بیشتر، از افراد خواست تا یک داستان شاد یا غمگین به انتخاب خود تعریف کنند.
شرکت کنندگان یک Samsung Simband پوشیدند. Samsung Simband یک دستگاه است که شکل موج‌های فیزیولوژیکی با کیفیت بالا از اندازه‌گیری ویژگی‌هایی همچون حرکت، ضربان قلب، فشار خون، جریان خون و دمای پوست را دریافت می‌کند. این سامانه همچنین داده‌های صوتی و رونوشت متن را می‌گیرد تا لحن، فرکانس گام، انرژی، و واژگان را تجزیه وتحلیل کند.

محمد قاسمی و توکا الحانی در حال مکالمه با این دستگاه پوشیدنی

Björn Schuller استاد سامانه‌های پیچیده و هوشمند در دانشگاه پاساو در آلمان که در این پژوهش مشارکتی نداشته می‌گوید: «استفاده این گروه از دستگاه‌های مصرفی موجود در بازار برای جمع‌آوری داده‌های فیزیولوژیکی و داده‌های گفتار نشان می‌دهد که ما چقدر به داشتن چنین ابزارهایی در وسایل روزمره نزدیک هستیم. فناوری به زودی می تواند هوش هیجانی را درک کند و یا حتی خود «احساس» را».
گروه پس از ثبت ۳۱ گفتگوی چند دقیقه‌ای مختلف، دو الگوریتم بر اساس این داده‌ها آموزش داد: یکی طبقه‌بندی ماهیت کلی یک مکالمه به صورت شاد یا غمگین و الگوریتم دوم هر پنجره زمانی پنج ثانیه‌ای از مکالمه را به صورت مثبت، منفی یا خنثی طبقه‌بندی می‌کند.
الحانی اشاره می‌کند که در شبکه‌های عصبی سنتی، تمام ویژگی‌های داده‌ها را برای الگوریتم استخراج می‌کنند. اما این گروه متوجه شد که می‌تواند عملکرد دستگاه را با سازماندهی ویژگی‌های مختلف در لایه‌های گوناگون شبکه بهبود بخشد.
نتایج

در واقع یافته‌های الگوریتم به خوبی با نکاتی که ما انسان‌ها ممکن است انتظار داشته باشیم مطابقت دارد. برای نمونه، مکث‌های طولانی و یک تن آوازی یکنواخت با داستان غمگین همراه بود، در حالی که الگوهای گفتاری متنوع و پر انرژی‌تر با داستان‌های شادتر همراه بود. از نظر زبان بدن نیز داستان غمگین به شدت با افزایش بی‌قراری و فعالیت قلبی عروقی و همچنین حالت‌های خاص مانند قرار دادن یک دست روی صورت ارتباط داشتند.

نمودار تعیین احساسات در زمان واقعی

این مدل به طور متوسط می‌تواند خلق و خوی در هر بازه پنج ثانیه‌ای را با دقتی که تقریباً ۱۸ درصد بالاتر از حالت تصادفی و ۷٫۵ درصد بهتر از روش‌های موجود بود طبقه بندی کند. این گروه در کار آینده امیدوار است برای جمع‌آوری داده‌ها در یک مقیاس بسیار بزرگتر، از دستگاه‌های تجاری همچون Apple Watch که اجازه می‌دهد آنها به راحتی سامانه را درجهان گسترش دهند، استفاده کنند.
الحانی می‌گوید: «گام بعدی ما بهبود الگوریتم برای تک تک احساسات است. پس از آن دستگاه می‌تواند به جای مثبت یا منفی لحظه‌های خسته کننده، ناراحت و هیجان زده را مشخص کند. توسعه فناوری می‌تواند نبض احساسات و عواطف انسانی را در دست بگیرد و به طرز چشمگیری چگونگی ارتباط ما با یکدیگر را بهبود ببخشد».

این هوش مصنوعی پوشیدنی لحن مکالمه را تشخیص می‌دهد! - مجلۀ فناوریهای توان‌افزا و پوشیدنی

**Sina homaei** · 2018/04/26, 18:49

سیستم Tacotron 2 دومین نسل از فناوری اختصاصی گوگل برای تولید صدای انسان توسط ماشین‌ها است. این سیستم از دو شبکه عصبی عمیق سود می‌برد.
نزدیک شدن گفتار ماشین‌ها به انسان‌ها

اولین شبکه عصبی متن را به یک اسپکتروگرام (Spectrogram) تبدیل می‌کند؛ روشی بصری برای نشان دادن فرکانس‌های صوتی در طول زمان. اسپکتروگرام الگوی صدای به دست آمده را به یک شبکه عصبی دیگر به نام WaveNet می‌دهد.

سیستم WaveNet در آزمایشگاه هوش مصنوعی DeepMind شرکت آلفابت توسعه داده شده است و می‌تواند نموداری از عناصر صوتی برای تلفظ یک متن را ترسیم کند. دقت این سیستم بسیار بالا است و یک صدا را به صد میلی‌ثانیه یا هزار میلی‌ثانیه تجزیه می‌کند تا عناصر صدا مشخص شود.
به دو صدای زیرگوش کنید:
به نظر شما کدام‌یک توسط هوش مصنوعی گوگل خوانده شده و دیگری توسط یک انسان؟ بسیار سخت و در واقع غیرقابل‌تشخیص است.
پخش‌کننده صوت00:00

00:00
برای افزایش یا کاهش صدا از کلیدهای بالا و پایین استفاده کنید.

پخش‌کننده صوت00:00

00:00
برای افزایش یا کاهش صدا از کلیدهای بالا و پایین استفاده کنید.

یک مثال دیگر:
پخش‌کننده صوت00:00

00:00
برای افزایش یا کاهش صدا از کلیدهای بالا و پایین استفاده کنید.

پخش‌کننده صوت00:00

00:00
برای افزایش یا کاهش صدا از کلیدهای بالا و پایین استفاده کنید.

البته؛ می‌توان با مراجعه به سورس گوگل و یافتن نام فایل‌ها هر صدا و مطالعات دیگر می‌توان فهمید کدام‌ توسط هوش مصنوعی خوانده شده ولی در حالت عادی این دو صدا بسیار شبیه هم هستند.
محققان گوگل می‌گویند سیستم Tacotron 2 می‌تواند کلمات سخت را نیز درست تلفظ کند یا برخی کلمات بولد شده و مهم در متن را به حالتی بخواند که شنونده متوجه شود روی آن‌ها تاکید بیشتری هست.
برخلاف بسیاری از تحقیقاتی که در گوگل انجام می‌شود؛ طراحی سیستم Tacotron 2 می‌تواند
در آینده برای گوگل بسیار مفید و کاربردی باشد. گوگل شرکتی است که چندین محصول صوتی هوشمند وارد بازار کرده است و از Tacotron 2 می‌تواند روی Google Assistant و غیره بهره ببرد یا به صورت یک سرویس مستقل به بازار عرضه کند.
راستی در دو مثال بالا، صداهای دوم را هوش مصنوعی گوگل تولید کرده است.
منبع

هوش مصنوعی یک خصلت دیگر انسان‌ها را هم یاد گرفت: دیگر صدای انسان از ماشین قابل تشخیص نیست - یک پزشک

**Sina homaei** · 2018/04/26, 18:49

تشخیص اختلال استرس پس از سانحه یا PTSD یکی از موارد بسیار سخت در علم روانپزشکی است که فهمیدن آن به تجربه ی زیاد درمانگر نیاز دارد، اما محققان هوش مصنوعی می خواهند این کار را آسان کنند و با تشخیص الگوهای آوایی این امر را میسر کنند. به گزارش کلیک، محققان هوش مصنوعی با استفاده از الگوهای آوایی افراد درصدد تشخیص اختلال استرس پس از سانحه (PTSD) و یا حتی بیماری قلبی هستند و قصد دارند از طریق گوشی‌های هوشمند و یادگیری ماشینی (الگوریتم) به این نتایج برسند. بیماری PTSD پس از اتفاق ناخوشایندی که برای شخص روی می دهد،به وجود می آید و ذکر این نکته هم لازم است که تشخیص آن بسیار سخت است، چارلز مرمر روانپزشکی با ۴۰ سال تجربه در این زمینه توضیح می دهد که با استفاده از روش‌های قدیمی هنوز هم نمی‌تواند اختلال استرس پس از سانحه را با دقت ۱۰۰ درصد تشخیص دهد. مرمر اظهار کرد که اگر یک رزمنده جنگی به دفتر من مراجعه کند و به دلیل خجالت و یا هر دلیل دیگری از گفتن حقایقی در مورد مشکلاتPTSD خودداری کند، تشخیص وضعیت و مشکل او مطمئنا سخت خواهد بود. این روانپزشک که رئیس بخش روانپزشکی در مرکز پزشکی لانگون دانشگاه نیویورک است، امیدوار است که بتواند پاسخ سوالات خود را از صحبت و صدای شخص مراجعه‌کننده دریابد. نمونه صدای یک منبع غنی از اطلاعات در مورد سلامتی فرد است و محققان بر این باورند که نشانه‌های صوتی ظریف می‌تواند زمینه‌ای از بیماری‌ها و یا خطر ابتلا به بیماری را نشان دهند. این محققان امیدوارند که بتوان در چند سال آینده، از راه دور و با استفاده از گوشی‌های هوشمند و دیگر ابزارهای پوشیدنی بر وضعیت سلامتی فرد نظارت کرد. این کار را می‌توان از طریق ضبط نمونه‌های گفتار کوتاه مدت و تجزیه و تحلیل آنها برای نشانگرهای زیستی بیماری انجام داد. برای اختلالات روانی مانند PTSD هیچ آزمایش خونی وجود ندارد و مردم اغلب از صحبت کردن در مورد وضعیت خود خجالت می‌کشند. بنابراین این شرایط اغلب غیرقابل تشخیص باقی می‌ماند. بنابراین در این مورد آزمون‌های آوایی می‌تواند مفید واقع شود. این روانپزشک حاذق به عنوان بخشی از یک مطالعه پنج ساله، مرمر نمونه‌های صوتی جانبازان را جمع‌آوری کرده است و نشانه‌های صوتی مانند تن صدا، زیر و بمی صدا، ریتم، سرعت و حجم آن را برای یافتن نشانه‌هایی از آسیب‌های نامرئی مانند PTSD، آسیب‌های مغزی (TBI) و افسردگی مورد بررسی قرار داد. مرمر از فناوری یادگیری ماشینی برای یافتن ویژگی‌هایی در صدا و یک الگوریتم برای انتخاب کردن الگوهای آوایی در افراد مبتلا به این شرایط و مقایسه آنها با نمونه‌های صوتی افراد سالم استفاده کرد. به عنوان مثال، افراد مبتلا به مشکلات روانی یا شناختی صداهای خاصی را به صورت کشیده و طولانی ادا کرده یا در تلفظ عباراتی که نیاز به حرکات ماهیچه‌های صورت دارد دچار مشکل می‌شوند

https://click.ir/1395/11/09/ai-can-d...-thoer-sounds/

**Sina homaei** · 2018/04/26, 18:50

الگوریتم هوش مصنوعی گوگل می تواند بهتر از لب خوان های حرفه ای، گفتار را تشخیص دهد

الگوریتم هوش مصنوعی گوگل به معنای واقعی باهوش است. لب خوانی می تواند برای انسان ها، کار بسیار دشواری باشد، اما با هوش مصنوعی، شاید تشخیص گفتار به کار بسیار ساده تری تبدیل شود. محققان دیپ مایند گوگل و دانشگاه آکسفورد، الگوریتم هوش مصنوعی برای لب خوانی توسعه داده اند که حتی از لب خوان های حرفه ای هم عملکرد بهتری دارد. بر اساس مقاله ای که ماه جاری منتشر شده، الگوریتم لب خوان در مجموع از ۱۱۸ هزار جمله که از شش برنامه تلویزیونی مختلف از جمله، برنامه صبحانه، نیوزنایت و وقت پرسش تلویزیون بی‌بی‌سی گرفته شده اند، تغذیه شده است. حال، این الگوریتم تنها با نگاه کردن به لب های هر گوینده به درستی، تمام جملات را تشخیص می دهد. الگوریتم لب خوان گوگل قادر به تشخیص ۴۶.۸ درصد از تمام کلمات گفته شده، بدون اشتباه است و این در حالیست که لب خوان های حرفه ای، تنها قادر به تشخیص درست ۱۲.۴ درصد کلمات هستند.

زیر نویس فوق گفتارهایی است که الگوریتم هوش مصنوعی دیپ مایند گوگل تشخیص داده است. ژیانگ ژو از دانشگاه اولو، فنلاند، گفت: “این گام بزرگی برای توسعه سیستم های لب خوان کاملا اتوماتیک است.”
الگوریتم هوش مصنوعی گوگل کاربردهای مفید بسیاری خواهد داشت. با این الگوریتم لب خوان امکان برقراری تماس تصویری حتی در اتاق های شلوغ و یا در جاده هم بسیار ساده می شود. ممکن است دیگر مجبور نباشید برای فرمان دادن به دستیار صوتی هوشمند فریاد بزنید! .
منبع: thetechnews

https://techrato.com/2016/11/22/googles-lip-reading-ai/

**Sina homaei** · 2018/04/26, 18:50

متأسفانه باید اعتراف کرد که بر اساس گزارش سازمان جهانی بهداشت، در ۴۵ سال گذشته موارد منجر به خودکشی ۶۰ درصد بیشتر شده است. بر اساس همین گزارش، سالانه یک میلیون نفر در سرتاسر جهان با اقدام به خودکشی از دنیا می‌روند. سازمان بهداشت جهانی انتظار دارد تا سال ۲۰۲۰ نرخ خودکشی از وضعیت فعلی یعنی هر ۴۰ ثانیه یک خودکشی در سرتاسر جهان، به نرخ هر ۲۰ ثانیه برسد.

گروهی از پژوهشگران دانشگاه کارنگی‌ ملون و هاروارد در آمریکا دست به طراحی الگوریتمی زده‌اند که با استفاده از فناوری یادگیری ماشینی می‌تواند بازنمایی عصبی حالات منجر به خودکشی را به دست آورد. این الگوریتم با کمک تصویرسازی تشدید مغناطیسی کارکردی (fMRI) کار می‌کند.
پژوهشگران، افراد مورد آزمایش را به دو گروه مطالعه و کنترل تقسیم‌بندی کردند که در هر گروه ۱۷ نفر حضور داشتند. در گروه آزمایش ۱۷ نفر افکاری در مورد خودکشی داشتند. در طی این پژوهش، دانشمندان ۶ واژه‌ی مرگ، ستم، مشکل،‌ بی‌خیالی، خوبی و تشویق را به اعضای گروه‌ها نشان دادند و به دنبال کشف الگوهای مغزی مرتبط با خودکشی در این افراد گشتند. الگوریتم توسعه داده‌شده موفق به کشف ۱۵ بیمار از ۱۷ بیمار با تفکر‌های مرتبط با خودکشی شد. در این بین ۱۶ نفر از ۱۷ عضو گروه آزمایش، از ام‌آر‌آی برای تعیین الگوی عصبی استفاده کردند که در نهایت دقت ۹۱ درصدی الگوریتم را نشان داد.
در حال حاضر، روانشناسان گفت‌و‌گو با فرد و پرسیدن سؤال‌های مستقیم برای پیدا کردن افکار مرتبط با خودکشی را به روش‌های دیگر ترجیح می‌دهند؛ هرچند بر اساس مطالعات انجام‌شده نزدیک به ۸۰ درصد از بیماران در جلسات مشاوره‌ی خود، افکار خودکشی را انکار کرده‌اند. الگوریتم جدید توسعه‌یافته توسط دانشمندان می‌تواند این مشکل را با دقت بالایی حل کند.
مقاله‌ی مرتبط:

۱۰ شغل با بیشترین آمار خودکشی در جهان

استفاده از هوش مصنوعی برای پیدا کردن افرادی که قصد خودکشی دارند در شرکت‌هایی نظیر فیس‌بوک هم آزمایش شده است؛ این شرکت برای پیدا کردن جریان‌های فکری مرتبط با خودکشی از هوش‌مصنوعی بهره می‌برد. نقطه‌ی مشترک تمامی این پژوهش‌ها تأکید بر تفاوت‌های موجود در مغز افرادی با قصد خودکشی در مقایسه با افراد عادی به‌حساب می‌آید. در پژوهش دانشگاه کارنگی‌ ملون با استفاده از یادگیری ماشینی و تصاویر به‌دست‌آمده از ام‌آر‌آی می‌توان این تفاوت‌ها را به‌ دست آورد.
مارسل جوست، محقق ارشد این پژوهش، می‌گوید:

یکی از محدودیت‌های اصلی این تحقیق استفاده از دستگاه ام‌آر‌آی است؛ استفاده از این دستگاه هزینه‌بر و دسترسی به آن به‌خصوص در محیط‌هایی مثل مطب سخت یا غیر ممکن به شمار می‌رود. ما به دنبال ثبت فعالیت‌های مغزی با استفاده از نوار مغزی یا الکتروانسفالوگرافی هستیم. مشکل دوم به همکاری بیمار برمی‌گردد که شرط اصلی پیدا کردن الگوهای مغزی است؛ قطع همکاری وی فرآیند تشخیصی را متوقف می‌کند.

استفاده از هوش مصنوعی و فناوری‌هایی نظیر یادگیری ماشینی در تشخیص الگوهای مغزی منتهی به خودکشی می‌تواند به کاهش نرخ خودکشی در جوامع مختلف و درمان افراد مستعد به خودکشی کمک زیادی کند.
نتایج این پژوهش علمی در نشریه‌ی Nature Human Behavior به چاپ رسیده است.

https://www.zoomit.ir/2017/11/12/244...ental-illness/

انجمن گفتگو استارتاپ و کار آفرینی

انجمن گفتگو استارتاپ و کار آفرینی

تـــوجـــه

موضوع: کاربرد مهم هوش مصنوعی _ تشخیص گفتار

لینک بک

ابزارهای موضوع

کاربرد مهم هوش مصنوعی _ تشخیص گفتار

موضوعات مشابه

استفاده از فناوری هوش مصنوعی برای تشخیص بیماری‌های قلبی

تشخیص چهره افراد از پشت دیوار ؛ هوش مصنوعی در خدمت ارتش آمریکا

خودکار هوشمند تشخیص رنگ

نوپانا: اسکنری برای تشخیص سریع نوعی سرطان پوست

خبر خوان استارتاپ : استارت آپی که با استفاده از هوش مصنوعی سرطان را تشخیص می دهد

مجوز های ارسال و ویرایش

استارتاپ‌فاروم - انجمن گفتگو استارت‌آپ‌ها

دوستان ما

لینک‌های مفید