دسته بندي اسناد فارسي با استفاده از الگوريتم KNN

در چند سال اخير الگوريتمهاي زيادي براي مسأله دسته بندي اسناد، پيشنهاد شده است. اغلب كارهاي انجام شده بر روي اسنادي به زبان انگليسي بوده و اخيراً در مورد زبانهايي مثل چيني، عربي و… كارهايي انجام شده است. در اين مقاله يك دسته بند اسناد فارسي با استفاده از الگوريتم KNN پيشنهاد شده و دليل استفاده از اين الگوريتم موفقيت زياد آن در دسته بندي اسناد مشابه در زبان انگليسي بوده است .اين دسته بند را بوسيله 540 متن فارسي كه از روزنامه هاي آنلاين گرفته شده بود آموزش داده و بر روي 60 متن مشابه آزمايش كرديم. متن ها به 6 دسته تقسيم شده بودند كه در بين اين دسته ها، متن هاي متعلق به دسته هاي ورزشي، پزشكي و سياسي بهتر از بقيه دسته بندي شدند. معيار استفاده شده براي سنجش، دقت ميكرو و يادآوري ميكرو بود كه در بهترين حالت براي متن هاي ورزشي به  0,92 رسيد.

 

 

شهلا نعمتي، محمد احسان بصيري
دانشگاه صنعتي اصفهان، دانشگاه اصفهان

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *