فاکتور مقیاس بندی[۹۳] وابسته به تغییرات فرکانسی SNR ( )که به این شکل محاسبه می شود، است:
(۲-۳۴) |
برای جلوگیری از مقادیر منفی در طیف غنی شده[۹۴] به شکل زیر عمل می شود:
(۲-۳۵) |
که یک مقدار نوعی برای برابر است.
الگوریتم پیشنهاد شده یک مقدار تفریق بیش از حد بهینه را برای هر فرکانس در فریم بر مبنای SNR محاسبه می کند. اگر چه این الگوریتم در کاهش نویز موزیکال تا حد زیادی موفق است، ممکن است بین اجزای فرکانس مجاور مطابق خطا در تخمین نویز، تغییرات بزرگی وجود داشته باشد. با این وجود الگوریتم نشان می دهد که پردازش وابسته به فرکانس را می توان برای کاهش نویز و کسب کیفیت بهتر گفتار استفاده کرد.
۲-۴-۷- تفریق طیفی چند باند[۹۵] :
تحقیقات اخیر نشان داده است که میزان نسبت سیگنال به نویز (SNR) در طول سیگنال گفتار تغییر می کند، بر خلاف نویز سفید گوسی که طیف صاف[۹۶] دارد، طیف نویز واقعی صاف نیست. لذا نویز تاثیر یکسانی روی کل طیف سیگنال نمی گذارد. بعضی از فرکانس ها بیش از بقیه تحت تاثیر قرار می گیرند. فاکتور دیگری که ما را قانع می کند که SNR در باند فرکانس های مختلف گفتار، متفاوت است، این مساله است که نویز اثر غیر یکسان روی حروف صدا دار و بی صدا دارد.
این اثرها در نمودار چگالی طیف قدرت (PSD) نویزهای مختلف و تغییرات SNR مقطعی[۹۷] نسبت به بخشی از سیگنال که به نویز مشخص آغشته شده، بهتر قابل مشاهده است.
در شکل (۲-۴)، SNR های مقطعی برای ۴ باند فرکانسی گفتار نویزی رسم شده است. SNR مقطعی برای بخشی از جمله “The shop closes for lunch” که توسط گوینده مرد تلفظ شده، حساب شده است.
شکل ۲-۴- SNR های مقطعی برای ۴ باند فرکانسی گفتار نویزی ]۱۶[
همانطور که مشخص است SNR مقطعی در فرکانس های بالا عمدتاً پایین تر از SNR در فرکانس های پایین می باشد که تفاوت بین آنها گاهی از ۱۵dB هم فراتر می رود.
بر اساس این خصوصیات S.D.Kamath ]16[ روشی را جهت کاهش نویز موزیکال و بهسازی گفتار ارائه کرده است. شکل (۲-۵) یک بلوک دیاگرام از روش پیشنهاد شده را نمایش می دهد.
شکل ۲-۵- بلوک دیاگرام سیستم تفریق طیفی چند باند
این شکل شامل ۴ بخش است. در مرحله اول سیگنال پنجره گذاری می شود و اندازه طیف با بهره گرفتن از FFT تخمین زده می شود. در مرحله دوم طیف گفتار و نویز به چند باند مختلف شکسته می شود و فاکتور تفریق بیش از حد برای هر باند محاسبه می شود. مرحله سوم شامل پردازش باندهای فرکانسی مشخص با تفریق طیف نویز از طیف گفتار نویزی می باشد. در پایان باندهای فرکانسی اصلاح شده[۹۸] با هم ترکیب شده و سیگنالی زمانی با بهره گرفتن از اطلاعات فاز نویزی و عکس تبدیل فوریه حاصل می شود. اثر عملیات پیش پردازش باعث خنثی شدن اغتشاش در خصوصیات فرکانسی دیتای ورودی می شود.
۲-۴-۷-۱- پیش پردازش[۹۹] :
علاوه بر عملیات اصلی کاهش نویز، یک سری روش های پیش پردازش نیز برای حصول کیفیت مناسب گفتار نیاز است. جهت کاهش نویز موزیکال در گفتار غنی شده، نیاز داریم که واریانس محتوای فرکانسی سیگنال را کاهش دهیم. بنابراین به جای استفاده مستقیم از چگالی طیف قدرت (PSD) سیگنال، یک نسخه هموار شده[۱۰۰] از طیف قدرت را می توان استفاده کرد. پنجره جهت عمل همواره کردن[۱۰۱] با طول ۱۶ms مناسب تشخیص داده شد، با این وجود دیده شد که هموار کردن طیف نویز تخمین در کاهش نویز موزیکال کمکی نمی کند.
متوسط گیری محلی اندازه[۱۰۲] نیز ثابت شد که به کیفیت گفتار صوت پردازش شده کمک می کند. این عمل به شکل زیر انجام می شود:
(۲-۳۶) |
کهi اندیس فریم است و متوسط گیری روی M فریم قبلی و بعدی گفتار نسبت به فریم مورد نظر انجام می شود. متوسط گیری اندازه طیف به این معنی است که محتویات نویز در فریم متوسط گیری شده به میانگین طیف نویز یعنی طیف نویز تخمینی ، نزدیک می شود. اگر خطا به شکل زیر نوشته شود:
(۲-۳۷) |