کاربرد مهم هوش مصنوعی _ تشخیص گفتار

**Sina homaei** · 2018/04/26, 18:50

صدا هوش مصنوعی
شرکت DeepMind بریتانیا با استفاده از فناوری هوش مصنوعی خود یک سیستم گفتگو تلفیقی به نام WaveNet را سال ۲۰۱۶ معرفی کرد. این سیستم بر مبنی یک شبکه عصبی مصنوعی عمل کرده که قادر است نمونه گفتاری با وضوح بهتر از نمونه‌های مشابه ارائه دهد.
به کمک چنین سیستمی صدا هوش مصنوعی به صدا انسان بسیار نزدیک‌تر است. WaveNet از این رو توسعه یافته تا گوگل اسیستنت روی سیستم عامل‌های مختلف بازدهی قابل توجهی داشته باشد. در حال حاضر WaveNet با صدا انسان گونه خود حتی بهبودی پیدا کرده و صدای نزدیک‌تر به یک انسان دارد.
این سیستم در ژانویه سال ۲۰۱۸ توسط گوگل راه اندازی می‌شود و سیستم قادر است به همکاری با سیستم متن به گفتار Tacotron 2 بپردازد. در ابتدا Tacotron 2 متن را به شکل نمایش بصری از طریق فرکانس‌های صوتی در طی مدت زمانی ترجمه می‌کند که به عنوان طیف سنجی محسوب می‌شود. سپس WaveNet به خواندن طیف سنجی پرداخته و یک نموداری با عناصر صوتی مربوطه ایجاد خواهد کرد.
براساس این مطالعه، امتیاز مدل به شکل متوسط ۴٫۵۳ بوده که برای سخنرانی‌های حرفه‌ای برابر است با ۴٫۵۸٫ به عبارتی ساده این نوع سخنرانی شباهت نزدیکی به سخنرانی ساده دارد.
در حقیقت گوگل صدا ضبط شده و AI خود را در کنار باقی قرار می‌دهد و معلوم است که دستگاه همانند یک شخص است.
سیستم سخنرانی SYNTHETIC
امروز سیستم‌های مبتنی بر هوش مصنوعی بهبودی پیدا کرده و موجب نزدیک شدن عملکرد آنها به انسان شدند. اگرچه هوش مصنوعی قادر نیست عملکردی دقیقا مشابه انسان داشته باشد اما می‌تواند نزدیک عمل کند. دیگر هوش مصنوعی می‌تواند به ایجاد ویدئوهای جعلی بپردازد و همچنین نمی‌توان حضور پر رنگ هوش مصنوعی در کنار انسان را نادیده گرفت.
تقلید کردن صدای انسانی همیشه چالشی برای هوش‌های مصنوعی بود. در حال حاضر دو سیستم WaveNet و Tacotron 2 شرکت DeepMind در حال تغییراتی هستند و موجب نزدیک شدن به عملکرد انسان می‌باشند. نه تنها این نوع هوش‌های مصنوعی می‌توانند تلفط نزدیکی داشته باشند، بلکه قادرند در آینده تلفظ کلمات و جملات را به سادگی انجام دهند. در حال حاضر تنها لغات مشخصی تلفظ می‌شود اما در آینده این امر گسترده‌تر خواهد شد.
البته نباید پنداشت سیستم جدید AI کامل است و نقصی ندارد. تکرار صدا آن تنها براساس سیستم آموزش داده شده بوده که گوگل برای آن زنی را استخدام کرد تا صدا را به ثبت برساند. برای Tacotron 2و WaveNet نیز یک زن و مردی نیاز بوده و به کار گرفته شد.
گذشته از گوگل اسیستنت که به عنوان یک دستیار فوری شناخته می‌شود، گوگل در تلاش است Tacotron 2 و امثال آن را نیز بزودی به کار گیرد تا سیستم AI مختلفی را به مشتریان خود ارائه دهد.

بزودی تشخیص صدا انسان و هوش مصنوعی دشوار می شود

**Sina homaei** · 2018/04/26, 18:51

تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند!

گوگل در حوزه هوش مصنوعی بسیار فعال عمل می کند. این بار نیز این کمپانی با معرفی تاکوترون 2 حیرت همگان را برانگیخته است. تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند ! البته تاکوترون 2 به گونه ای این کار را انجام می دهد که شما متوجه نمی شوید گوینده متن، فقط یک ربات است!

شبیه سازی گفتار انسان و تبدیل متن به گفتار در تاکوترون 2 واقعا حیرت انگیز است. گوگل گام های بلندی را برای پروژه « AI firstl» خود برداشته است. همان طور که ممکن است شنیده باشید ،گوگل در تلاش است که با کمک فناوری هوش مصنوعی متن را به گفتار تبدیل کند، به گونه ای که شنونده نتواند تشخیص دهد یک انسان صحبت می کند یا یک ربات! بر اساس گزارش هایی که اخیرا از سوی سایت فناوری اطلاعات Inc.com منتشر شده است، فناوری جدید تبدیل متن به گفتار که با کمک هوش مصنوعی و توسط کمپانی گوگل معرفی میشود، تاکوترون 2 ( Tacotron 2) نام دارد که می تواند با کمک سیستم کامپیوتری مجهز به هوش مصنوعی، صدایی شبیه به صدای انسان تولید کند. در کنفرانس توسعه دهندگان گوگل I / O 2017، مدیر اجرایی این شرکت در هند یعنی ساندار پیچای، اعلام کرد که غول اینترنت جهان یعنی گوگل قصد دارد اولین تلفن همراه مجهز به فناوری AI first که مبتنی بر هوش مصنوعی است به همراه چندین محصول جدید با ویژگی های خوب از جمله گوگل لنز( Google Lens)، پاسخ دهی هوشمند برای جی میل ( Smart Response) دستیار گوگل برای آیفون به همه جهان معرفی کند. بر اساس مقاله منتشر شده در سایت arXiv.org، این سیستم و فناوری جدید اسپکترامی از متن را ایجاد می کند و مشخص می نماید صدای گوینده باید به چه صورتی باشد. این اسپکترام یا نمایش بصری به خواندن بهتر متن توسط رایانه کمک می کند. این تصویر از طریق الگوریتم WaveNet موجود در گوگل مورد بررسی قرار می گیرد. در این الگوریتم با کمک تصاویر و هوش مصنوعی کار جلو می رود و رایانه می تواند با توجه به میمیک های انسانی و به صورت تقلیدی از انسان، متن را به گفتار تبدیل کند. این الگوریتم به راحتی می تواند صداهای مختلف را یاد بگیرد و حتی نفس های مصنوعی ایجاد کند.

محققان معتقدند: « این مدل نمره متوسط 4.53 را دریافت خواهد کرد در صورتی که اگر همین متن توسط یک گوینده حرفه ای خوانده شود می تواند نمره 4.58 را دریافت کند.» بر اساس نمونه های صوتی تهیه شده توسط تاکوترون 2، گوگل ادعا کرده است که این سیستم آنقدر هوشمند است که واژه های شبیه به هم را هم شناسایی می کند. مثلا تاکوترون می تواند واژه هایی مثل « desert» به قالب اسم را از « desert» به عنوان فعل تشخیص دهد. وقتی اسم و فعل از یکدیگر در جمله قابل تفکیک باشند، جملات صحیح تر ادا خواهند شد. تاکوترون 2 با کمک جفت شبکه عصبی این کار را انجام می دهد. همان طور که گفته شد طریق الگوریتم WaveNet به صورت بصری فرکانس های صوتی خاص مشخص می شود و اطلاعات دیداری و بصری در قالب صوت بازسازی می شوند. گوگل این اطلاعات را در سایتی منتشر نموده است و توانایی این سیستم یعنی تاکوترون 2 را به نمایش گذاشته است. در این وب سایت نمونه های صدای تاکوترون 2 را می توانید بشنوید. سیستم تبدیل متن به گفتار به قدری حرفه ای این کار را انجام داده است که واقعا تشخیص صدای انسان واقعی از صدای ماشین کمی سخت به نظر می رسد. هم چنین کمپانی گوگل اعلام کرده است که این سیستم هوش مصنوعی می تواند حین تبدیل متن به گفتار، کلماتی که نیاز به تاکید در حین خواندن دارند را تشخیص بدهد. یا حتی می تواند جملات را سئوالی یا خبری بخواند. البته مهندسان گوگل هنوز اطلاعات زیادی در مورد تاکوترون 2 منتشر نکرده اند ولی این سیستم می تواند برای بسیاری از توسعه دهندگان که برنامه هایی مرتبط با تبدیل متن به گفتار تهیه می کنند، بسیار مهم و حایز اهمیت باشد. بر اساس گزارش منتشر شده در مورد این فناوری، هر یک از نمونه فایل های صوتی با فرمت .wav می تواند دارای یک نام پرونده جداگانه باشد که با فرمت gen یا gt. دیده می شود. بر اساس این مقاله منتشر شده در مورد تاکوترون 2، احتمال دارد که gen گفتار تولید شده توسط تاکوترون 2 را نشان دهد و فرمت gt گفتار واقعی انسان را به نمایش بگذارد. به نظر می رسد هوش مصنوعی هر روز بیش از پیش می تواند ربات ها را شبیه تر به انسان ها کند. گوگل در این مسیر توانسته گام های بزرگی برای تبدیل متن به گفتار بردارد که واقعا حیرت انگیز است. آیا واقعا روزی می توان گفت که هوش مصنوعی بتواند به جای گوینده های رادیو و تلویزیون عمل کند؟ آیا می توان با این روش فیلم های ویدئویی را دوبله کرد؟

http://mag.plaza.ir/139610/30955/%D8...8%D8%B9%DB%8C/

**Sina homaei** · 2018/04/26, 18:52

تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند!

گوگل در حوزه هوش مصنوعی بسیار فعال عمل می کند. این بار نیز این کمپانی با معرفی تاکوترون 2 حیرت همگان را برانگیخته است. تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند ! البته تاکوترون 2 به گونه ای این کار را انجام می دهد که شما متوجه نمی شوید گوینده متن، فقط یک ربات است!

شبیه سازی گفتار انسان و تبدیل متن به گفتار در تاکوترون 2 واقعا حیرت انگیز است. گوگل گام های بلندی را برای پروژه « AI firstl» خود برداشته است. همان طور که ممکن است شنیده باشید ،گوگل در تلاش است که با کمک فناوری هوش مصنوعی متن را به گفتار تبدیل کند، به گونه ای که شنونده نتواند تشخیص دهد یک انسان صحبت می کند یا یک ربات! بر اساس گزارش هایی که اخیرا از سوی سایت فناوری اطلاعات Inc.com منتشر شده است، فناوری جدید تبدیل متن به گفتار که با کمک هوش مصنوعی و توسط کمپانی گوگل معرفی میشود، تاکوترون 2 ( Tacotron 2) نام دارد که می تواند با کمک سیستم کامپیوتری مجهز به هوش مصنوعی، صدایی شبیه به صدای انسان تولید کند. در کنفرانس توسعه دهندگان گوگل I / O 2017، مدیر اجرایی این شرکت در هند یعنی ساندار پیچای، اعلام کرد که غول اینترنت جهان یعنی گوگل قصد دارد اولین تلفن همراه مجهز به فناوری AI first که مبتنی بر هوش مصنوعی است به همراه چندین محصول جدید با ویژگی های خوب از جمله گوگل لنز( Google Lens)، پاسخ دهی هوشمند برای جی میل ( Smart Response) دستیار گوگل برای آیفون به همه جهان معرفی کند. بر اساس مقاله منتشر شده در سایت arXiv.org، این سیستم و فناوری جدید اسپکترامی از متن را ایجاد می کند و مشخص می نماید صدای گوینده باید به چه صورتی باشد. این اسپکترام یا نمایش بصری به خواندن بهتر متن توسط رایانه کمک می کند. این تصویر از طریق الگوریتم WaveNet موجود در گوگل مورد بررسی قرار می گیرد. در این الگوریتم با کمک تصاویر و هوش مصنوعی کار جلو می رود و رایانه می تواند با توجه به میمیک های انسانی و به صورت تقلیدی از انسان، متن را به گفتار تبدیل کند. این الگوریتم به راحتی می تواند صداهای مختلف را یاد بگیرد و حتی نفس های مصنوعی ایجاد کند.

محققان معتقدند: « این مدل نمره متوسط 4.53 را دریافت خواهد کرد در صورتی که اگر همین متن توسط یک گوینده حرفه ای خوانده شود می تواند نمره 4.58 را دریافت کند.» بر اساس نمونه های صوتی تهیه شده توسط تاکوترون 2، گوگل ادعا کرده است که این سیستم آنقدر هوشمند است که واژه های شبیه به هم را هم شناسایی می کند. مثلا تاکوترون می تواند واژه هایی مثل « desert» به قالب اسم را از « desert» به عنوان فعل تشخیص دهد. وقتی اسم و فعل از یکدیگر در جمله قابل تفکیک باشند، جملات صحیح تر ادا خواهند شد. تاکوترون 2 با کمک جفت شبکه عصبی این کار را انجام می دهد. همان طور که گفته شد طریق الگوریتم WaveNet به صورت بصری فرکانس های صوتی خاص مشخص می شود و اطلاعات دیداری و بصری در قالب صوت بازسازی می شوند. گوگل این اطلاعات را در سایتی منتشر نموده است و توانایی این سیستم یعنی تاکوترون 2 را به نمایش گذاشته است. در این وب سایت نمونه های صدای تاکوترون 2 را می توانید بشنوید. سیستم تبدیل متن به گفتار به قدری حرفه ای این کار را انجام داده است که واقعا تشخیص صدای انسان واقعی از صدای ماشین کمی سخت به نظر می رسد. هم چنین کمپانی گوگل اعلام کرده است که این سیستم هوش مصنوعی می تواند حین تبدیل متن به گفتار، کلماتی که نیاز به تاکید در حین خواندن دارند را تشخیص بدهد. یا حتی می تواند جملات را سئوالی یا خبری بخواند. البته مهندسان گوگل هنوز اطلاعات زیادی در مورد تاکوترون 2 منتشر نکرده اند ولی این سیستم می تواند برای بسیاری از توسعه دهندگان که برنامه هایی مرتبط با تبدیل متن به گفتار تهیه می کنند، بسیار مهم و حایز اهمیت باشد. بر اساس گزارش منتشر شده در مورد این فناوری، هر یک از نمونه فایل های صوتی با فرمت .wav می تواند دارای یک نام پرونده جداگانه باشد که با فرمت gen یا gt. دیده می شود. بر اساس این مقاله منتشر شده در مورد تاکوترون 2، احتمال دارد که gen گفتار تولید شده توسط تاکوترون 2 را نشان دهد و فرمت gt گفتار واقعی انسان را به نمایش بگذارد. به نظر می رسد هوش مصنوعی هر روز بیش از پیش می تواند ربات ها را شبیه تر به انسان ها کند. گوگل در این مسیر توانسته گام های بزرگی برای تبدیل متن به گفتار بردارد که واقعا حیرت انگیز است. آیا واقعا روزی می توان گفت که هوش مصنوعی بتواند به جای گوینده های رادیو و تلویزیون عمل کند؟ آیا می توان با این روش فیلم های ویدئویی را دوبله کرد؟

تاکوترون 2 با کمک هوش مصنوعی متن را به گفتار تبدیل می کند! | پلازامگ

**Sina homaei** · 2018/04/26, 18:52

به گزارش نوداد (سکوی اجتماعی خبر) این مسئله زمانی مشاهده می شود که به یک اسپیکر هوشمند دستور العمل هایی در محل های شلوغ یا دسته های خانگی داده شود.
اکنون بنظر می رسد که انسان ها در حال از دست دادن برتری خود مبنی بر تشخیص گفتار می باشند. تکنولوژی جدید گوگل به هوش مصنوعی خود این قابلیت را می دهد که صداهای مختلفی را که بطور همزمان بیان می شوند، تشخیص دهد.
این توسعه ی پیشگام در زمینه تشخیص گفتار به دستایاران هوشمند بر پایه هوش مصنوعی این امکان را می دهد که یک صدای خاص را در جمعیت تشخیص دهد و بخوبی آن را درک کند.
چند روز پیش بود که محققان گوگل از این تکنولوژی روزمره پرده برداشتند. تیم گوگل مدت زیادی است که بر روی جدا کردن منابع صدا مانند گفتار در فیلم کار می کنند، کاری که برای سیستم های خودکار سخت می باشد.
سیستم جدید نشخیص گفتار گوگل چگونه کار می کند؟
این سیستم از مدل تفکیک گفتار صوتی و تصویری استفاده می‎کند که وقتی افراد صحبت می کنند، از طریق نظارت بر چهره آن ها، صدای آن ها را تشخیص دهد. شبکه عصبی این مدل جوری برنامه ریزی شده است که صداها را از افراد مختلف از طریق ‘دسته های جعلی’ که توسط محققان ایجاد شده است انتخاب کند.

صداهای پس زمینه در این دسته های جعلی ترکیب شده تا به هوش مصنوعی یاد بدهد که چگونه آهنگ های صوتی را توسط جداسازی صداهای مختلف، شناسایی کند. نتایج بدست آمده شگفت آور بود. نه تنها این سیستم توانست اصوات را بلکه، گفتار ۲ فرد را که همزمان صحبت می کنند جداسازی کند.

با این حال، پیامدهای حریم خصوصی سیستم تشخیص گفتار گوگل می تواند کمی ناخوشایند باشد. اگر این تکنولوژی در یک مقیاس بزرگ اجرا شود، می تواند توسط برنامه های ترد بصورت جاسوس مورد استفاده قرار بگیرد و گفت و گوی افراد را گوش کند.

https://nodud.com/tech/technology/1523887753.990621

**Sina homaei** · 2018/04/26, 18:53

بزودی تشخیص صدا انسان و هوش مصنوعی دشوار می شود

آکاایران: بزودی تشخیص صدا انسان و هوش مصنوعی دشوار می شود

آکاایران: صدا هوش مصنوعی
شرکت DeepMind بریتانیا با استفاده از فناوری هوش مصنوعی خود یک سیستم گفتگو تلفیقی به نام WaveNet را سال ۲۰۱۶ معرفی کرد. این سیستم بر مبنی یک شبکه عصبی مصنوعی عمل کرده که قادر است نمونه گفتاری با وضوح بهتر از نمونه های مشابه ارائه دهد.
به کمک چنین سیستمی صدا هوش مصنوعی به صدا انسان بسیار نزدیک تر است. WaveNet از این رو توسعه یافته تا گوگل اسیستنت روی سیستم عامل های مختلف بازدهی قابل توجهی داشته باشد. در حال حاضر WaveNet با صدا انسان گونه خود حتی بهبودی پیدا کرده و صدای نزدیک تر به یک انسان دارد.
این سیستم در ژانویه سال ۲۰۱۸ توسط گوگل راه اندازی می شود و سیستم قادر است به همکاری با سیستم متن به گفتار Tacotron 2 بپردازد. در ابتدا Tacotron 2 متن را به شکل نمایش بصری از طریق فرکانس های صوتی در طی مدت زمانی ترجمه می کند که به عنوان طیف سنجی محسوب می شود. سپس WaveNet به خواندن طیف سنجی پرداخته و یک نموداری با عناصر صوتی مربوطه ایجاد خواهد کرد.
براساس این مطالعه، امتیاز مدل به شکل متوسط ۴٫۵۳ بوده که برای سخنرانی های حرفه ای برابر است با ۴٫۵۸٫ به عبارتی ساده این نوع سخنرانی شباهت نزدیکی به سخنرانی ساده دارد.
در حقیقت گوگل صدا ضبط شده و AI خود را در کنار باقی قرار می دهد و معلوم است که دستگاه همانند یک شخص است.
سیستم سخنرانی SYNTHETIC
امروز سیستم های مبتنی بر هوش مصنوعی بهبودی پیدا کرده و موجب نزدیک شدن عملکرد آنها به انسان شدند. اگرچه هوش مصنوعی قادر نیست عملکردی دقیقا مشابه انسان داشته باشد اما می تواند نزدیک عمل کند. دیگر هوش مصنوعی می تواند به ایجاد ویدئوهای جعلی بپردازد و همچنین نمی توان حضور پر رنگ هوش مصنوعی در کنار انسان را نادیده گرفت.
تقلید کردن صدای انسانی همیشه چالشی برای هوش های مصنوعی بود. در حال حاضر دو سیستم WaveNet و Tacotron 2 شرکت DeepMind در حال تغییراتی هستند و موجب نزدیک شدن به عملکرد انسان می باشند. نه تنها این نوع هوش های مصنوعی می توانند تلفط نزدیکی دارا باشند، بلکه قادرند در آینده تلفظ کلمات و جملات را به سادگی انجام دهند. در حال حاضر تنها لغات مشخصی تلفظ می شود اما در آینده این امر گسترده تر خواهد شد.
البته نباید پنداشت سیستم نوین AI کامل است و نقصی ندارد. تکرار صدا آن تنها براساس سیستم آموزش داده شده بوده که گوگل برای آن زنی را استخدام کرد تا صدا را به ثبت برساند. برای Tacotron 2و WaveNet نیز یک زن و مردی نیاز بوده و به کار گرفته شد.
گذشته از گوگل اسیستنت که به عنوان یک دستیار فوری شناخته می شود، گوگل در تلاش است Tacotron 2 و امثال آن را نیز بزودی به کار گیرد تا سیستم AI مختلفی را به مشتریان خود ارائه دهد.
0

.منبع : ech.gamefa.com

بزودی تشخیص صدا انسان و هوش مصنوعی دشوار می شود

انجمن گفتگو استارتاپ و کار آفرینی

انجمن گفتگو استارتاپ و کار آفرینی

تـــوجـــه

موضوع: کاربرد مهم هوش مصنوعی _ تشخیص گفتار

لینک بک

ابزارهای موضوع

موضوعات مشابه

استفاده از فناوری هوش مصنوعی برای تشخیص بیماری‌های قلبی

تشخیص چهره افراد از پشت دیوار ؛ هوش مصنوعی در خدمت ارتش آمریکا

خودکار هوشمند تشخیص رنگ

نوپانا: اسکنری برای تشخیص سریع نوعی سرطان پوست

خبر خوان استارتاپ : استارت آپی که با استفاده از هوش مصنوعی سرطان را تشخیص می دهد

مجوز های ارسال و ویرایش

استارتاپ‌فاروم - انجمن گفتگو استارت‌آپ‌ها

دوستان ما

لینک‌های مفید