p(θ|y)=cp(y|θ)p(θ) (۱-۱۷)
p(θ)، که بدون اینکه دانشی از داده ها داشته باشیم، اطلاعاتی دربارهی θ به ما میدهد، توزیع پیشین[۱۵] θ نامیده میشود. p(θ|y)، که میگوید که با توجه به اطلاعات داده ها، چه چیزی دربارهی θ معلوم است، توزیع پسین[۱۶] θ با توجه به y نامیده میشود.
مقدار c نیز، منحصرأ مقداری ثابت و ضروری برای اطمینان توزیع پیشین p(θ|y) است.
حال، با توجه به y داده، p(θ|y)، میتواند بعنوان تابع چگالی θ مطرح شود. این بیان، تابع درستنمایی[۱۷] θ برای y داده نامیده میشود و میتواند بصورت l(θ|y) نوشته شود.
پس می توان فرمول بیز را بصورت زیر نوشت:
p(θ|y) (۱-۱۸)
بهعبارت دیگر، تئوری بیز به ما میگوید که احتمال توزیع پسین θ با y داده، متناسب است با محصول توزیع پیشین θ با داده و درستنمایی θ، با توجه به y.
Posterior distribution
تابع درستنمایی l(θ|y) نقش مهمی را در تئوری بیز بازی میکند، اگرچه این تابع y داده، دانسته های پیشین θ را تغییر میدهد. این بنابراین میتواند نماینده اطلاعات حاصله از داده ها دربارهی θ باشد. فرض کنید ما یک نمونه اولیه از مشاهده y داریم، حالا فرمول بیز میدهد:
p(θ|y1) (۱-۱۹)
حال اگر ما y2 نمونه دوم، با توزیع مستقل از نمونه اول داشته باشیم، داریم:
(۱-۲۰)
بنابراین اگر ما n مشاهدهی مستقل داشته باشیم، توزیع پسین میتواند بعد از مشاهدهی جدید، دوباره محاسبه شود، تا جایی که در مرحلهی m ام درستنمایی مرتبط با مشاهدهی m ام ، با توزیع پسین θ بعد از m-1 مشاهده با دادن توزیع پسین جدید، ترکیب میشود.
P(θ|y1,y2,…,yn) P(θ|y1,y2,…,ym-1)l(θ|ym) (1-21)
و
m=2,…,n (1-22)
این فرمول گویای آن است که اطلاعات دربارهی شرایط طبیعی نشان داده شده بوسیلهی θ، بهطور پیوسته با داده های جدید در دسترس، تغییر میکند.
۱-۹-۳- اجرای استنباط بیزی
استنباط بیزی از لحاظ مفهومی، ساده، قابل قبول و احتمالاتی ظریف است، اما اجرای عددی آن آسان نیست. توزیع پسین، اغلب، تنها در شرایط تحلیلی پیچیده، قابل بیان است. ما نمیتوانیم چگالیهای حاشیهای و مقادیر توزیع پسین را در شرایط بسته، بصورت بیان صریح تحلیلی، محاسبه کنیم. در عمل، ۳ روش مهم برای اجرای بیزی وجود دارد. روش اول، تقریب بر اساس حالتهای پسین (مدهای پسین)، مانند تقریب مختلط نسبی[۱۸] و نرمال، حداکثر انتظار و الگوریتمهای مربوطه است. روش دوم، شبیهسازی پسین و ادغام شده[۱۹] مانند نمونهگیری اهمیت[۲۰] و تحلیل تقریبی انتگرال لاپلاس[۲۱] است. روش آخر، شبیهسازی MCMC[22] است که بهنظر میرسد سادهترین راه برای بهدست آوردن نتایج قابل اعتماد برای مدلهای پیچیده باشد .
ایدهی MCMC با شبیهسازی یک روش تصادفی در فضایی از θ است که با یک توزیع ثابت مشترک با توزیع پسین همگرا میشود. متروپلیس و همکاران اولین کسانی بودند که شبیهسازی زنجیره مارکوف احتمال توزیع را شرح دادند.
۱-۹-۴- نمونهگیری گیبس
نمونهگیری گیبس[۲۳] برای اولین بار توسط جمان و جمان مطرح شد که تنها بر اساس خواص ابتدایی زنجیره مارکوف، که متضمن همگرایی[۲۴] MCMC با یک توزیع ثابت در شرایطی که اندازه نمونه n به اندازه کافی بزرگ باشد، بود . اجرای نمونهگیری گیبس بر مبنای این واقعیت است که دانسته های ما از توزیعهای شرطی برای تعیین توزیع مشترک، به اندازه کافی است (اگر وجود داشته باشد). روش، متشکل از تکرار نمونهگیری از توزیع شرطی کامل[۲۵] یکی از اجزای ارزشهای فعلی، از تمام اجزای دیگر مدل است. هر چرخه کامل بهمنزلهی یک گام در یک زنجیره مارکوف است که توزیع ثابت تحت شرایطی تخمین زده شده است. وقتی پارامترها در شرایطی از اجزای مستقل باشد، نمونهگیری گیبس بیشترین کارایی را دارد. با بهره گرفتن از تکنیکهایی چون نمونهگیری گیبس، میتوان از مشکلات در محاسبه دوری کرد.
۱-۹-۴-۱- اجرای نمونهگیری گیبس
سؤال نخست این است که «چگونه باید نمونهگیری گیبس را اجرا کرد؟» اگر بخواهیم S نمونه از پسین حاشیهای داشته باشیم، دو رویکرد را میتوان مورد استفاده قرار داد: روش اول، استفاده از اجرای موازی S و ذخیره آخرین نمونه از هر زنجیره، متعاقب دورهی سوختن[۲۶] است. این روش که «روش چندگانه با زنجیره کوتاه[۲۷] » نامیده میشود، اولین بار توسط جلفاند و اسمیت ارائه شد. روش دوم، شامل برداشتن هر مقدار T ام در یک اجر
ای طولانی بهطول N=ST، توسط گیر [۱۹۹۲ Geyer, ] ارائه شده است. روش اول بسیار ناکارآمد است زیرا باید نمونه های اولیه دورهی سوختن در هر زمان حذف شود و تنها یک نمونه در زنجیره استفاده شود. این روش بهخصوص در مواقعی که دورهی سوختن طولانی نیاز است، ناکارآمدتر است. روش دوم کارآمدتر است و نشان داده شده است که نتایجی که حاصل میشود، حداقل، بدتر از روش چندگانه با زنجیره کوتاه نیست . نقطهی شروع برای هر توالی به طول T، به یک ترسیم از توزیع ثابت که مربوط به نقطهی شروع مدنظر کاربرد در روش زنجیر چندگانه است، نزدیکتر است.
سؤال دوم دربارهی نمونهگیری گیبس است که «چه تعداد تکرار لازم است؟» پاسخ به این سؤال به اهداف محقق بستگی دارد. وقتی هدف، تمرکز روی مقدار توابع توزیع پسین باشد، یک روش اجرای ساده برای تعیین مجموع تعداد نمونه ها، و نیز تعداد نمونه های اولیه که باید بعنوان دورهی سوختن استفاده شود، توسط رفتری و لوئیس شرح داده شد. این روش برای موقعیتهایی است که یک اجرای طولانی نمونهگیری گیبس بهکار برده شده است و ابزاری مفید برای تعیین طول نمونهگیری گیبس در زمانی است که مقادیر مورد علاقه، بهجای توزیع پسین کامل، احتمالات هستند و نیز در زمانی که ترسیم توزیع پسین، برای استقلال تقریبی[۲۸]، مورد نیاز است.
لگارا و همکاران [Legarra et al., 2008] روشی کلی برای تعداد تکرار و دورهی سوختن ارائه دادند بدین صورت که:
۱- برای صفات پیوسته، ۰۰۰/۵۰ تکرار، مناسب، و ۰۰۰/۲۰۰ ـ ۰۰۰/۱۰۰ تکرار، بهقدر کافی مناسب است.
۲- برای مدلهای پیچیده (آستانهای، با اثرات مادری و …)، ۰۰۰/۵۰۰ ـ ۰۰۰/۳۰۰ میتواند کافی باشد.
۳- حدود یکپنجم تکرار، میتواند بعنوان دورهی سوختن مورد استفاده قرار گیرد مثلاً برای آنالیزی با ۰۰۰/۲۰۰ تکرار، ۰۰۰/۴۰ برای دورهی سوختن مناسب است.
۱-۹-۵- کاربرد آنالیز بیزی در اصلاح دام
در اصلاح دام، BLUP، بهطور گستردهای برای پیشبینی ارزشهای اصلاحی بهمنظور انتخاب، مورد استفاده قرار گرفته است. تئوری بیزی میتواند برای تفسیر BLUP مورد استفاده قرار گیرد. در شرایط نرمال، اگر یک مقدار پیشین به اثر ثابت β اختصاص داده شود، و فرض شود که واریانس ژنتیکی (G) معلوم است، انتظار میرود که توزیع پسین شرطی p(β,u|y,G) برابر باBLUE(β) و BLUP(U) باشد .
۱-۱۰- روش حداکثر درست نمایی (REML)
سادهترین روش برآورد پارامتر، تجزیه واریانس است که در آن فرض میشود حیوانات یک نمونه تصادفی از جامعه هستند ولی در جوامع حیوانات تجاری برای برنامههای اصلاح نژاد که انتخاب در آنها صورت میگیرد، این فرض نمیتواند صادق باشد. از محدودیتهای دیگر این روش میتوان به برآورد منفی مؤلفه های واریانس اشاره نمود. برای از بین بردن این مشکلات روش های جدید جایگزین شده است که از قویترین روشها، روش حداکثر درستنمایی محدود شده (REML) و روش بیزی مبتنی بر تکنیک نمونه گیری گیبس مهمترین روشها میباشند .
در روش REML پیش فرض اساسی این است که نمونه ها از این جامعه با توزیع نرمال هستند. این روش برای اثر انتخاب در جامعه تصحیح انجام میدهد و مؤلفه های واریانس را از طریق تکرار و همگرایی به دست میآورد .
۲-۱- داده ها و اطلاعات مورد استفاده
در این پژوهش از رکوردهای طول عمر و زندهمانی تعداد ۴۱۰۳۷ رأس بره، حاصل از ۴۹۶ رأس قوچ و ۱۰۲۵۶ رأس میش گوسفندان گیلان که طی سالهای ۱۳۶۹ تا ۱۳۹۲ به وسیله سازمان جهاد کشاورزی استان گیلان جمع آوری شده بود، استفاده شد. اطلاعات مورد استفاده شامل اطلاعات کامل شجره، جنس بره، سال، ماه و روز حذف، سن میش در زمان زایش، سال، ماه و روز تولد و نوع تولد بره، وزن تولد، وزن سه و شش ماهگی بودند.
۲-۲- نحوه انتقال اطلاعات به رایانه
کلیه اطلاعات در قالب فایل داده ها در نرم افزارExcel ذخیره شد و در چند نوبت با بهره گرفتن از بخشهای گوناگون این برنامه و برنامه Visual Fox pro 8.0 مورد بازنگری و تصحیح قرار گرفت.
۲-۳- آمادهسازی داده ها
به منظور تعیین طول عمر، تاریخ تولد از تاریخ حذف کم شده و به روز محاسبه شد و آن دسته از برهها که به دلیل نداشتن اطلاعات تاریخ تولد، طول عمر منفی داشتند از کل داده ها حذف شدند. جهت تعیین زندهمانی از تولد تا یکسالگی، به صورت تجمعی طول عمر برهها از تولد تا ۶۰، تولد تا ۹۰، تولد تا ۱۸۰، تولد تا ۲۷۰ و تولد تا ۳۶۵ روزگی در ۵ ستون متفاوت دسته بندی شد و کد سانسور ۰ و ۱ به آنها داده شد، در صورتی که قبل از پایان دوره مورد نظر مثلا ۶۰ روزگی بره تلف شده بود، کد سانسور ۱ و در صورتی که تا آخر این دوره زنده بود کد سانسور صفر داده شد. در کل داده ها، برههایی که مادر نامشخص داشتند حذف شدند.
برای انجام برخی محاسبات از جمله برآورد طول عمر و گاهی به علت پراکندگی چند اثر در بین فایلها، جهت کنار هم قرار دادن اثرات مربوطه، برخی فایلهای مورد نظر با بهره گرفتن از نرم افزار Visual Fox pro 8.0 با یکدیگر ترکیب شدند و در فایل نهایی حاصل، آن دسته از داده ها که دارای سلولهای خالی از اطلاعات بودند حذف شدند.
به منظور تعیین شماره ثبت برای هر بره به صورت انفرادی در تمام فایلها، از رابطه زیر استفاده شد
:
(۲-۱) شماره گوش + ۱۰۰۰۰۰۰ × شماره گله
خلاصهای از اطلاعات مربوط به وزن تولد، طول عمر و زندهمانی برهها در جدول ۲-۱ نشان داده شده است.
جدول ۲-۱- اطلاعات مربوط به وزن تولد، طول عمر و زندهمانی برهها از تولد تا یکسالگی
صفت | وزن تولد (kg) | وزن ۳ ماهگی (kg) | وزن ۶ ماهگی (kg) | طول عمر (روز) |