შოთა რუსთაველის საქართველოს ეროვნული სამეცნიერო ფონდი

Shota Rustaveli National Science Foundation of Georgia

მეცნიერებისთვის, მომავლისთვის, საქართველოსთვის

საქართველოს განათლებისა და მეცნიერების სამინისტრო
EN

წარმატებული პროექტები და მეცნიერები

ქართული დიალექტური კორპუსის მორფოლოგიური ანოტირება და დიდი დიალექტური ლექსიკოგრაფიული ბაზა

2012 წლის გამოყენებითი კვლევებისათვის სახელმწიფო სამეცნიერო საგრანტო კონკურსში გაიმარჯვა პროექტმა N 30/20: “საქართველოს ლინგვისტური პორტრეტი III _ ქართული დიალექტური კორპუსის მორფოლოგიური ანოტირება და დიდი დიალექტური ლექსიკოგრაფიული ბაზის შექმნა“, ივანე ჯავახიშვილის სახელობის თბილისის სახელმწიფო უნივერსიტეტი / არნ. ჩიქობავას სახელობის ენათმეცნიერების ინსტიტუტის პროფესორის, მარინა ბერიძის ხელმძღვანელობით. პროექტის ძირითადი მიზანი იყო მორფოლოგიური ანოტირების კონცეფციის დამუშავება, მორფოლოგიური ანოტირების დაწყება და ანალიზატორის დიალექტური მოდულის შექმნა. აგრეთვე, ბეჭდური  ლექსიკოგრაფიული კომპონენტის გრამატიკულად მარკირება და ინტეგრირება კორპუსში.

პროექტის  შედეგი და  ეფექტი: მორფოლოგიური ანოტირების პროცესში გამოყენებულ იქნა სალიტერატურო ქართული ენის ანალიზისთვის შექმნილი სისტემა ”Geo trans”-ი, რომლის საშუალებითაც შემუშავდა კორპუსის საერთო სიტყვანი. მომზადდა რამდენიმე პროგრამული ჩანართი ლექსიკოგრაფიული სამუშაოს წარმართვისა და მორფოლოგიური ანოტირების სრულყოფისათვის, ორგანიზებულ იქნა მოქნილი საძიებო სისტემა როგორც სამომხმარებლო, ისე სამუშაო ინტერფეისისთვის; მომხმარებლის ინტერესის გათვალისწინებით ცალკე კომპონენტად გამოიყო ტექსტების ბიბლიოთეკა, რამაც ინტერდისციპლინური ინტერესით ამ ტექსტების გამოყენების შესაძლებლობა გააადვილა.

ცალკე სტრუქტურულ კომპონენტად შეიქმნა ლექსიკონების რედაქტორი, რომელიც ლექსიკოგრაფიულ ბაზაზე და ტექსტების კორპუსზე დაყრდნობით წარმოადგენს უნივერსალურ დიალექტურ ლექსიკონს. მისი საძიებო სისტემა სასურველი ლექსიკონის სურვილისამებრ დაგენერირების საშუალებას იძლევა (მაგალითად: ყველა დიალექტის ლექსიკონი, მხოლოდ ინგილოური ლექსიკონი, მარტო არსებითი სახელების ლექსიკონი ყველა დიალექტში, მარტო ზმნები ინგილოურში და ა. შ.). ამჟამად მომზადებულია 4 ლექსიკონი: ფერეიდნული, ინგილოური, ჩვენებურების ქართული, ლაზური. ხოლო ლექსიკოგრაფულ ბაზაში თითქმის ყველა დიალექტური წარმონაქმნის 60000-მდე გრამატიკულად მარკირებული სალექსიკონო ერთეულია ინტეგრირებული.

მიღებული შედეგების ნაწილი წარდგენილი იყო საერთაშორისო სამეცნიერო ფორუმებზე (19) და უკვე გამოქვეყნებულია  ამ ფორუმების სამეცნიერო შრომათა კრებულებში.

პროექტის ფარგლებში მომზადდა სამი ელექტრონული ვებ-პორტალი: www.corpora.co _ ქართული დიალექტური კორპუსის საერთო მისამართი; http://corpora.co/#/texts _ ქდკ-ს ტექსტების კორპუსი;http://corpora.co/#/dictionaries _ ქდკ-ს ლექსიკონები

ორი პუბლიკაცია გამოქვეყნდა საერთაშორისო მაღალრეიტინგულ რეფერირებად, რეცენზირებად სამეცნიერო კრებულში:

1.2015 Corpus Linguistics and interdisciplinary Perspectives on language Historical Corpora. Challenges and Perspectives, გერმანია  (CLIP),vol.5 Tubingen (Narr), მარინა ბერიძე, ლიანა ლორთქიფანიძე, დავით ნადარაია (20 გვ.);

2.2015 Dialect dictionaries and morphological annotation in the Georgian Dialect Corpus Logic, Language, and Computation;  Springer,  მარინა ბერიძე, ლიანა ლორთქიფანიძე, დავით ნადარაია