ავტორიზაცია
ქართულენოვანი დოკუმენტების დამუშავების პროგრამული ინსტრუმენტები
ავტორი: ვაჟა გუჯარაიძეთანაავტორები: ბიჭიკო ჭელიძე, ზაზა პაპუნაშვილი, დავითი გაბოშვილი, თამაზი კვიჟინაძე, არჩილ ეუაშვილი, გიორგი მურადაშვილი
საკვანძო სიტყვები: ტექსტების კლასიფიკაცია, ლემატიზაცია, სტოპ სიტყვები
ანოტაცია:
ნაშრომში წარმოდგენილია ქართულენოვანი ტექსტების კლასიფიცირების პროცესის განხორციელება. ინფორმაციის ძებნის პროცესი არ წარმოადგენს ერთგვაროვან ოპერაციას. მისი წარმატებულობა და რელევანტურობა დამოკიდებულია ძებნის ციკლის ადეკვატურობაზე და სისრულეზე. ამ ციკლში ერთ-ერთი მნიშვნელოვანი ადგილი უკავია კლასიფიკაციის ეტაპს, რომლითაც, როგორც წესი, იწყება ძებნის პროცესი. ამასთანავე, აღწერილია ინფორმაციული ძებნის ამოცანებში ბუნებრივი ენის ანალიზის მეთოდები, მათი ძირითადი ეტაპები და ის მნიშვნელოვანი თვისებები, რომელიც ახასიათებს თითოეულ მათგანს. ბუნებრივი ენის ანალიზი მოიცავს სინტაქსსა და სემანტიკაზე დაყრდნობით ცოდნის ამოღებას ბუნებრივ ენაზე დაწერილი დოკუმენტებიდან. ასეთი მიდგომა შეიძლება განვიხილოთ, როგორც „სემანტიკური“ მიდგომა იმ ლოგიკით, რომ დოკუმენტის შინაარსი და სტრუქტურა განისაზღვრება არასტატისტიკური მეთოდებით. დღეისათვის სტატისტიკური/ალბათური მეთოდებისა და სინტაქსური/სემანტიკური მეთოდების ინტეგრაცია იდეალური გამოსავალია ძებნის პროცესის ეფექტურობის გაზრდისათვის. ნაშრომში განხილულია ტექსტის საწყისი დამუშავების პროცესები, რომელთა განხორციელება აუცილებელია კლასიფიკაციის საწყის ეტაპზე. განხილულია ბუნებრივი ენის დამუშავების მეთოდები კლასიფიკაციის ამოცანებში, კერძოდ, კონცეპტებზე დაფუძნებული ინფორმაციული ძებნა. დღეისათვის კლასიფიკაციის ამოცანა შეიძლება განიხილოს, როგორც მანქანური სწავლებისა და ინფორმაციული ძებნის მეთოდების ერთობლიობა.