دایرههای قرمز، نارنجی و سبز نشان دهنده تشکلهای کشف شده میباشند.
در مرحله بعد، ابتدا اسناد با توجه به تشکل کاربر منتسب به آنها، به تشکل مربوطه الحاق میشوند، شکل (۳-۶) نشان دهنده این قسمت از الگوریتم است. دوایر قرمز اسناد مرتبط به هر کاربر را نشان میدهد.
شکل ۳-۶- انتساب اسناد به تشکلها.
دایره های کوچک قرمز نشان دهنده اسناد مربوط به هر کاربر هستند.
در ادامه با بهره گرفتن از روش LDA عناوین هر تشکل استخراج میشوند. یعنی برای مجموعه اسناد موجود در هر تشکل، یکبار الگوریتم LDA را اعمال میکنیم تا عناوین هر تشکل به صورت مستقل به دست آیند. با این کار ما مجموعه اسناد بزرگی که در تشکل ها هستند را به صورت خلاصه شده در غالب عناوین بیان میکنیم و برای پردازش های بعدی با این داده های خلاصه شده کار میکنیم. شکل (۳-۷) نمایانگر عملکرد الگوریتم CDBLC در این قسمت از پردازش است.
شکل ۳-۷- اعمال روش LDA بر روی اسناد درون هر تشکل.
دوایر بزرگ قرمز، عناوین کشف شده در هر تشکل را نشان می دهند.
سپس در هر مرحله، محتوای اسناد موجود در بقیه تشکلها، با عناوین یک تشکل از نظر شباهت مقایسه میشوند. یک سند و کاربران در ارتباط با آن در صورتی به تشکل جدید منتقل میشوند که محتوای سند با عناوین تشکل جدید، شباهت زیادی داشته باشد (شکل(۳-۸)).
شکل ۳-۸- محاسبه شباهت محتوای اسناد در دیگر تشکلها با عناوین یک تشکل به خصوص.
انتقال گره و سند منتسب به آن تنها در صورت وجود شباهت زیاد میسر می شود.
فاز دوم تا زمانی ادامه مییابد که الگوریتم به همگرایی[۱۴۶] برسد، یعنی با اعمال الگوریتم، دیگر تغییری در تشکل ها صورت نمیگیرد(شکل(۳-۹)).
شکل ۳-۹- همگرایی الگوریتم CDBLC.
با ادامه الگوریتم دیگر تغییری در تشکلها رخ نمیدهد.
جزییات قدم اول از الگوریتم همانند SBM است که در بخش ۳-۲ توضیح داده شد. ورودی این فاز از الگوریتم فقط ساختار مبتنی بر لینک شبکه است و خروجی آن تشکل هایی است که محتوا در آنها دخالتی ندارد. برای اعمال محتوا بر روی این تشکلها، لازم است که فاز دو را به صورت تکرار شونده اجرا کنیم. شکل (۳-۱۰) نمایش گرافیکی قدم دوم از مدل CDBLC است.
شکل ۳-۱۰- تمایش گرافیکی قدم دوم از الگوریتم CDBLC .
اسناد مربوط به هر تشکل، دارای ترکیب عنوان[۱۴۷] هستند. این ترکیب مبین وزن عنوانهای مختلف در اسناد مربوط به تشکل ام است و دارای توزیع دیریکله با پارامتر است:
(۳-۸) |
به علاوه،در هر تشکل، مثل مدلهای عنوان قدیمیتر، فرض می شود تا توزیع کلمه وجود دارد که متناظر با عنوان پنهان هستند و فرض می شود این توزیعها، خودشان دارای توزیعهای دیریکله با پیشینهی هستند:
(۳-۹) |
در نهایت پردازش[۱۴۸] تولیدی زیر برای شبکه دارای متن در نظر گرفته می شود:
تشکل های اولیه یر اساس SBM استخراج میشوند.
برای اسناد :
فرض می شود این سند دارای مولفه است. برای هر مولفه از سند، یک کلمهی منحصر به فرد، به همان ترتیبی که در LDA ساخته میشد تولید می شود. به طور خاصتر، یعنی برای مولفههای :
عنوان مولفهی ام از سند ام در تشکل ام، یعنی ، از ترکیب عناوین تشکل به صورت زیر گرفته می شود:
(۳-۱۰) |
کلمه منحصر به فرد مولفهی ام از سند ام در تشکل ام، یعنی ، از توزیع عنوان-کلمه منحصر به فرد به صورت زیر گرفته می شود:
(۳-۱۱) |