دسته بندي اسناد فارسي با استفاده از الگوريتمKNN

در چند سال اخيرالگوريتمهاي زيادي براي مسأله دسته بندي اسناد، پيشنهاد شده است. اغلب كارهاي انجام شده بر روي اسنادي به زبان انگليسي بوده و اخيراً در مورد زبانهايي مثل چيني، عربي و… كارهايي انجام شده است. در اين مقاله يك دسته بند اسناد فارسي با استفاده از الگوريتم KNNپيشنهاد شده و دليل استفاده از اين الگوريتم موفقيت زياد آن در دسته بندي اسناد مشابه در زبان انگليسي بوده است. اين دسته بند را بوسيله 540متن فارسي كه از روزنامه هاي آنلاين گرفته شده بود آموزش داده و بر روي 60متن مشابه آزمايش كرديم. متن ها به 6دسته تقسيم شده بودند كه در بين اين دسته ها، متن هاي متعلق به دسته هاي ورزشي، پزشكي و سياسي بهتر از بقيه دسته بندي شدند. معيار استفاده شده براي سنجش، دقت ميكرو و يادآوري ميكرو بود كه در بهترين حالت براي متن هاي ورزشي به 0,92 رسيد

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.