ka | en

ავტორიზაცია

პროგრამული ინსტრუმენტები ქართულენოვანი დოკუმენტის დამუშავებისთვის

ავტორი: ლევან იობაშვილი
საკვანძო სიტყვები: დოკუმენტი, ტერმინი, მოდელი, კლასიფიკაცია, ენა, ალგორითმი
ანოტაცია:

ეს ნაშრომი ეხება დაულაგებელი დოკუმენტების კლასიფიკაციის მეთოდებს, რომლებიც გამოყენებულია ქართულენოვანი ტექსტების კლასიფიკაციისთვის. კლასიფიკაციის ეტაპი ინფორმაციის ძებნის ციკლის ერთ-ერთ უმთავარეს ნაწილს წარმოადგენს. იგი ამ პროცესის ერთგვარი საწყისი ფაზაა. ძებნა ხორციელდება სხვადასხვა ძებნის მოდელის გამოყენებით. განხილულია ბულის მოდელი, ვექტორული სივრცის მოდელი და ალბათური ძებნის მოდელი, მათი მუშაობის პრინციპები და დადებითი და უარყოფითი მხარეები. ეს მოდელები ეფუძნება ტერმინების წონის დათვლის პრინციპს. ეს წონა წარმოადგენს სტატისტიკურ სიდიდეს, რომელიც განისაზღვრება დოკუმენტში ტერმინის რაოდენობის სიხშირით და განსაზღვრავს ამ ტერმინის მნიშვნელობას. ამ ყველაფერთან ერთად განხილულია ბუნებრივი ენის ანალიზის მეთოდებიც და ხორციელდება ტექსტების სპეციფიური დამუშავება ენის მიხედვით. ნაშრომში განხილულია ტექსტის საწყისი დამუშავების პროცესებიც, რომელთა განხორციელება აუცილებელია კლასიფიკაციის საწყის ეტაპზე. განხილულია სტემინგისა და ლემატიზაციის პროცესი. აღწერილია კლასიფიკაციის ამოცანებში ყველაზე ხშირად გამოყენებული ალგორითმები. ესენია: უახლოესი მეზობლის ალგორითმი, მხარდამჭერი ვექტორების ალგორითმი და ბაიესის ალგორითმი. განვიხილავთ ყველა იმ თვისებას რომელიც დამახასიათებელია ამ ალგორითმებისთვის მუშაობის სხვადასხვა საფეხურზე. ჩვენ მოვახდინეთ ამ ალგორითმების პრაქტიკული რეალიზაცია ქართულენოვანი სამედიცინო დოკუმენტებისთვის. კველევებისთვის გამოყენებულ იქნა 25 000 - მდე დოკუმენტი. კლასიფიკაცია განხორციელდა სამ ძირითად ჯგუფად და 13 ქვეჯგუფად. ამოცანის გადაწყვეტისთვის გამოყენებულ იქნა SVM და KNN ალგორითმები. შედეგებმა გვიჩვენა, რომ ორივე მათგანი საკმაოდ კარგად მუშაობს, მაგრამ მცირედი უპირატესობა გააჩნია SVM-ს. აღსანიშნავია, რომ ეს არის ამ ტიპის ტექსტების კლასიფიკაციის პირველი მცდელობა.