ka | en

ავტორიზაცია

პროგრამული ინსტრუმენტები ქართულენოვანი ტექსტების საწყისი დამუშავებისთვის

ავტორი: გიორგი გიორხელიძე
ანოტაცია:

ნაშრომში აღწერილია ქართულენოვანი ტექსტების საწყისი დამუშავება, რომელიც გამოყენებული იქნება ტექსტების კლასიფიკაციისთვის, რაც აუცილებელია ქართულენოვანი საძიებო სისტემის განვითარებისთვის. ტექსტების საწყისი დამუშავების მნიშვნელოვანი ეტაპია სტემინგი და ლემატიზაცია. ნაშრომში განხილულია პოპულარულ ალგორითმები ლოვინსის(Lowins), პორტერის (Porter) და პაის/ჰასკის (Pice/Hask). ასევე, რადგან არსებული ალგორითმები ქართული ენისთვის გამოუსადეგარი აღმოჩნდა, ამიტომ ქართულენოვანი ტექსტების კლასიფიკაციის ამოცანაში (მსგავსად სხვა ენებისა), ტექსტის დამუშავებისათვის შემუშავებულ იქნა სტემინგის ახალი ალგორითმი. იგი ეფუძნება სიტყვების და სუფიქსების ბაზას და ეფექტურად მუშაობს სიტყვის კვეცის პრობლემებზე. ნაშრომში ასევე განხილულია ტერმინისთვის წონის მინიჭების მეთოდები. ტერმინს წონა არის სტატისტიკური სიდიდე, რომელიც განსაზღვრავს ტერმინის მნიშვნელოვნებას დოკუმენტში. განხილულია ბუნებრივი ენის ანალიზი, რომელშიც მოიაზრება ინფორმაციის ამოღება ბუნებრივ ენაზე დაწერილი დოკუმენტებიდან, მის სინტაქსსა და სემანტიკაზე დაყრდნობით. ნაშრომში ასევე აღწერილია კლასიფიკაციის სამი ყველაზე პოპულარული ალგორითმი ესენია: უახლოესი მეზობლის ალგორითმი (KNN), მხარდამჭერი ვექტორების ალგორითმი (SVM) და ბაიესის ალგორითმი (Bayes). ასევე აღწერილია, თუ როგორ გამოიყენება არსებული მონაცემები, ტერმინის წონის დასათვლელად.