Математична лінгвістика. Книга 2. Комбінаторна лінгвістика: навчальний посібник

Автор(и): 
В. В. Пасічник, Ю. М. Щербина, В. А. Висоцька, Т. В. Шестакевич
Тип видання: 
навчальний посібник
Анотація: 

Посібник містить матеріали для вивчення основ математичної лінгвістики – формальних мов та граматик, а також мереж Петрі – для вирішення завдань мовознавства. Викладення матеріалу супроводжується численними прикладами, що полегшує його сприйняття та засвоєння. Подано перелік питань і тестів для самоконтролю, а також завдання для самостійного виконання трьох рівнів складності та довідкову інформацію для розв’язання задач. Для студентів, що навчаються у галузі знань 12 “Інформаційні технології”, за спеціальністю 035 “Філологія” (спеціалізація “Прикладна лінгвістика”) та спорідненими спеціальностями, пов’язаними із вивченням комп’ютерних наук, системного аналізу, інформаційних систем та технологій. Може бути корисним аспірантам як підґрунтя для наукових досліджень та викладачам як дидактичний матеріал, а також для самостійного вивчення та підвищення кваліфікації.

Зміст: 

Зміст: 

Передмова 5

 

Розділ 1. Теорія формальних граматик 13

1.1. Мови 13

1.2. Формальні породжувальні граматики 17

1.3. Типи граматик (ієрархія Н. Хомські) 20

1.4. Дерева виведення 23

1.5. Форми Бекуса–Наура 25

Контрольні запитання 26

Тести для самоконтролю 26

Задачі для самостійної роботи 30

 

Розділ 2. Мови та автомати 35

2.1. Скінченні автомати з виходом 36

2.2. Скінченні автомати без виходу 41

2.3. Подання мов 48

2.4. Автоматні системи подій 61

Контрольні запитання 70

Тести для самоконтролю 70

Задачі для самостійної роботи 78

 

Розділ 3. Застосування мереж Петрі  для генерування тексту 89

3.1. Поняття мережі Петрі 91

3.2. Графи мереж Петрі 92

3.3. Маркування мереж Петрі 93

3.4. Правила виконання мереж Петрі 93

3.5. Простір станів мережі Петрі 94

3.6. Застосування мереж Петрі для генерування тексту 98

Контрольні запитання 111

Задачі для самостійної роботи 111

 

Розділ 4. Лінгвістичний аналіз  текстової інформації 114

4.1. Основні етапи автоматичного аналізу тексту 114

4.2. Морфологічний аналіз і синтез тексту 125

4.3. Словниковий морфологічний аналіз і синтез 129

4.4. Утворення українських дієприкметників 

за допомогою породжувальних граматик 132

4.5. Лексичний аналіз тексту 158

4.6. Синтаксичний аналіз та парсинг тексту.  

Аналіз природномовних текстів 160

4.7. Парсинг 177

 

Розділ 5. Застосування методів лінгвістичного аналізу 

природномовних текстів у комп’ютерній лінгвістиці 179

5.1. Автоматична рубрикація тексту 179

5.2. Виявлення дублювання змісту контенту 204

5.3. Вибіркове поширення контенту 204

5.4. Формування дайджестів 210

5.5. Виявлення тематичних сюжетів 213

Список літератури 215

Список додаткової літератури 232

Вступ: 

Повний та всебічний опис мови та мовлення потребує врахування і якісних, і кількісних характеристик лінгвістичних об’єктів. Вико­ристання кількісних методів у мовознавстві має об’єктивні підстави: оче­видним є вплив кількісних характеристик на якісні (кількість го­лосних морфем, наприклад, впливає на звукову якість слів); можна обчислити кількість абзаців, речень, слів, букв, звуків та інших кіль­кісних характе­ристик тексту, частоти різних елементів мови у мовленні підпорядковані ймовірнісно-статистичним законам. Приклад­на лінгвісти­ка виникла наприкінці 20-х років ХХ ст. З появою комп’ютерів у цій галузі акти­візували дослідження щодо практичного застосування накопичених лінгвістичних знань, завдяки чому вини­кають і з середини ХХ ст. стрімко розвиваються математична лін­гвістика, комп’ютерна лінгвістика, ма­шинний переклад тощо. Однією з перших в Україні фахівців з прикладної лінгвістики почала готувати кафедра прикладної лінгвістики Національ­ного університету “Львівська політехніка”.

Математична лінгвістика як складова частина прик­ладної лінгвістики. Прикладна лінгвістика – галузь мовознавства, об’єктом якої є розроблення методів і засобів застосування у соціальній практиці людини результатів фундаментальних лінгвіс­тичних досліджень, спря­мованих на пізнання онтологічних власти­востей мови. Термін при­кладна лінгвістика виник наприкінці 20-х років
ХХ ст., її складовими є комп’ютерна (машинна, обчислю­вальна, інже­нерна) лінгвістика, мате­ма­тична лінгвістика, комуні­кативна лінгвісти­ка, лінгводидактика (викла­дання іноземної мови), термінознавство, перекла­дознавство, контрасти­вна лінгвістика, статистична лінгвістика, структу­рна лінгвістика тощо.

Комп’ютерна лінгвістика (машинна, обчислювальна, інженерна лінгвістика) займається застосуванням комп’ютерів з метою моделювати функціонування мови в певних умовах, використанням комп’ютерів (технологій і програм опрацювання даних) для вирішення лінгвістичних завдань, а також розробляє лінгвістичні аспекти комп’ютеризації. У широкому розумінні до комп’ютерної лінгвістики зараховують усе, що пов’язано з використанням комп’ютерів у мовознавстві. Структурна лінгвістика – сукупність поглядів на мову та методи її дослідження, яка вважає мову знаковою системою з чітко виділеними структурними елементами і прагненням до строгого, формального опису мови (її вважають попередницею комп’ютерної та математичної лінгвістики). Контрастивна лінгвістика (зіставна лінгвістика) – порівняння двох, рідше кількох мов для виявлення їх подібності або відмінностей на всіх рівнях мовної структури з метою типологічної класифікації мов. Вона виникла і активно розвивалася у 50-ті роки ХХ ст.

Математична лінгвістика виникла в 50-ті роки ХХ ст., під­ґрунтям для її появи стала необхідність в уточненні основних лінгвіс­тичних понять; потреба в уведенні точніших та об’єктивніших методів для аналізу та синтезу мови і тексту; поява міжпредметних зв’язків з іншими галузями – акустикою, фізіологією вищої нервової діяльності, кібернетикою та обчислювальною технікою, які потребують спілку­вання мовою математики; з розвитком можливостей комп’ютер­них технологій також виникла потреба, зокрема, у машинному перекладі та автома­тизованому інформаційному пошуку. Власне математичну лінгвістику – галузь науки на межі мовознавства та математики, яка вивчає можли­вості застосування математичних методів для опису та дослідження природних і штучних мов, для пояснення лінгвістичних подій, – ува­жають теоретичним підґрунтям прикладної лінгвістики. Підкреслюючи спільність поняттєвого апарату, математичну лін­гвістику іноді розді­ляють на галузі мовознавства та математики, а також зазначають, що в частині використання роз­роблених математичних моделей для опису будови природних мов математична лінгвістика належить до такої галузі досліджень, як штучний інтелект. Виділимо специфічні завдання мовознавства й прикладної лінгвістики зокрема, які вирішує математична лінгвістика за допомогою взаємодії відпо­відних математичних методів.

  • Побудовані за допомогою обернених тригонометричних фун­кцій моделі можна використовувати для опису структурних зсувів (наприклад, появи або зникнення лінгвістичних одиниць) в області лексикології, морфології, фонології, синтаксису та стилістики.
  • У роботах з діахронічної лінгвістики часто наводяться таблиці, що містять кількісні дані про виявлення досліджуваного явища на різних етапах його історії. Такі таблиці відображають динаміку лін­гвістичного процесу, який можна поглибленіше аналізувати за до­помогою елементарних функцій, графічно, а також із застосуванням аналітичних моделей досліджуваного процесу.
  • Класична глотохронологія має на меті наближено датувати процес розходження діалектів та споріднених мов, а також кількісно оцінити ступінь їхньої спорідненості, й для цього використовує ста­тистичні методи.
  • Методи математичної статистики також допоможуть у ство­ренні словників (зокрема частотних і статистичних), автоматичних словників, тезаурусів (лексикографія), у вирішенні завдань стилеметрії та інформаційного пошуку.
  • Постійне розширення сфери діяльності сприяє безперервному збільшенню термінологічного словника людини, і для лексикографічної практики, а особливо під час побудови систем машинного перекладу та реферування, важливо мати прогноз кількісного зростання термінології в різних галузях знань. Таке прогнозування дало б можливість свідомо планувати випуск та ефективне поповнення електронних політехнічних і галузевих словників та довідників.
  • Для визначення швидкості змін у мові та мовленні, а також їхніх кількісних оцінок використовують поняття похідної.
  • Тригонометричні функції та поняття границі дають змогу моде­лювати циклічний і стрибкоподібний характер лінгвістичних процесів.
  • Можна також описати процеси приросту та накопичення нових мовних елементів, використовуючи теорію рядів та інтегрування.
  • Приблизні оцінювання вимірів обмежень, що накладають на використання лінгвістичних одиниць система та норми мови, можна виконувати за допомогою комбінаторики.
  • Лінгвістичні дослідження щодо підготовки систем ма­шинного перекладу та інформаційного пошуку вимагають, зокрема, знання обсягу вибірки, необхідного, щоб забезпечити із заданою ймовірністю появу певної лінгвістичної події хоча б раз. Визначити достатній обсяг вибірки необхідно для встановлення достовірності зроблених висновків.
  • Створення машинних фондів мов.

Математична лінгвістика також бере участь у вирішенні таких універсальних проблем прикладної лінгвістики:

  • розроблення формальних моделей природних і штучних мов;
  • вирішення питань практичної транскрипції та транслітерації;
  • дешифрування невідомих писемностей;
  • усний/письмовий переклад, розроблення систем автома­тич­ного перекладу;
  • авторська та часова атрибуція твору;
  • вивчення процесів і формулювання правил утворення нових назв товарів, виробів тощо;
  • створення систем стенографії, систем письма для сліпих;
  • судова і кримінальна лінгвістика;
  • лінгводидактика: вивчання рідної та іноземної мов, роз­роблення відповідних лінгвістичних методик (навчання дітей та до­рослих, емігрантів тощо);
  • розроблення раціональної та стабільної орфографії;
  • автоматичне розпізнавання і синтез мови;
  • розроблення автоматизованих систем опрацювання текстової інформації: автоматичне зняття полісемії, автоматичне анотування, індексування і реферування, синтаксичний аналіз, компресія текстів, інтелектуальний аналіз тексту з метою виділення неявного змісту (“читання між рядками”);
  • лінгвістичне забезпечення автоматизованих систем керування;
  • комп’ютеризація навчання та автоматизація викладання за допомогою комп’ютера: автоматизовані системи навчання, системи дистанційного навчання, автоматизоване робоче місце перекладача і викладача;
  • розв’язання задач прикладного термінознавства: система­тизація та автоматизація терміносистем певних галузей, урахування дина­міч­ності їхнього розвитку, укладання термінологічних словників, стандарти­зація й уніфікація науково-технічної термінології тощо;
  • створення автоматизованих редакційно-видавничих систем.

Предмет математичної лінгвістики. Структура курсу. Цей навчальний посібник містить опис математичних методів, необхідних для ґрунтовного висвітлення фундаментальних засад математичної лінгвістики, що стосуються комбінаторної лінгвістики, а також можли­востей застосування описаних методів для розв’язування прикладних задач мовознавства. Для закріплення знань запропоновано запитання й тестові завдання із ключем, а також тридцять варіантів завдань трьох рівнів складності для самостійної роботи. Матеріал сформовано так, щоб розкрити й описати методологію вирішення завдань мовознавства за допомогою відповідних математичних методів.

Комбінаторна лінгвістика вивчає та описує лінгвістичні явища за допомогою методів “некількісної” математики – теорії формальних граматик, теорії автоматів, мереж Петрі.

Комбінаторна лінгвістика – напрям у мовознавстві, який вивчає синтагматичні зв’язки мовних одиниць та їхні комбінаторні власти­вості. Комбінаторна лінгвістика – синтез двох областей. По-перше, це син­тагматика, що являє собою аспект мови, який визначає мовні правила сполучуваності однорівневих одиниць. По-друге, комбіна­торика, змістом якої є складання і вивчення комбінацій слів, підпо­рядкованих певним комунікативним завданням за конкретних умов їх реалізації, які можна утворити із заданої кількості слів.

У межах комбінаторної лінгвістики, залежно від вибраної одиниці аналізу, виділяють такі розділи, як комбінаторна фонологія, комбіна­торна морфологія, комбінаторна морфеміка і комбінаторна лексикологія.

Актуальність цього напряму зумовлена такими причинами: 1) потребою класифікаційно-систематизованого опису сполучуваль­них властивостей мовних одиниць; 2) інтересом до дослідження фун­кціонально-мовного аспекту мови; 3) необхідністю вивчення когні­тивного аспекту сполучуваності; 4) розширенням сфери викладання іноземних мов, що спричиняє потребу в зіставно-типологічних дослід­женнях сполучуваності в різних мовах; 5) необхідністю створення словників комбінаторного типу в різних сферах вживання мови тощо.

Зародження комбінаторної лінгвістики зумовлено появою син­тагматики – сполучуваності, основаної на лінійних відносинах оди­ниць мови.

Незважаючи на великий інтерес до вивчення комбінаторних властивостей слова, єдиної загальновизнаної теорії сполучуваності поки що не створено. Сьогодні комбінаторна лінгвістика впритул взаємодіє із синтагматикою різних видів. По-перше, із синтаксичною синтагма­тикою, суть якої полягає у вивченні синтаксичної сполу­чуваності одиниць мови або закономірностей з’єднання граматичних класів слів у мові. Синта­ксична синтагматика – це сукупність правил сполу­чуваності одиниць у синтаксичні кострукції різних складності та протяжності. Закони і правила синтагматики діють у всіх сферах синтаксису. На синтаксичному рівні одиниці мови вивчають тільки в плані вираження.

Метою комбінаторної лінгвістики є теоретичний опис і ви­рішення проблем, пов’язаних із синтагматичними відносинами і комбі­наторними властивостями одиниць мови, природою сполучува­ності, синтезом семантики і сполучуваності знаків мови, функціями сполу­чуваності й, особливо, її прикладним аспектом.

З появою комп’ютерів виникла потреба у створенні засобів спілкування між людиною та машиною. Алгоритмічні мови, які органі­зовують таке спілкування, повинні задовольняти певні вимоги: бути зручними та зрозумілими для людини, а також сприйматися машинами.

У посібнику розглянуто процес моделювання за допомогою формальних граматик і автоматів лексичного етапу роботи компілятора, коли під час аналізу вхідного тексту в ньому виділяють найпростіші конструкції мови – ідентифікатори, символи, числа, символи операцій, службові слова тощо. Описано і другий етап роботи компілятора, коли тіло синтаксичного аналізатора – це діаграма переходів відповідного детермінованого скінченного автомата. Для задання синтаксису алго­ритмічної мови використовують формальні граматики, які Н. Хомські ввів як формалізацію одного із розділів лінгвістики – синтаксису. Засоби, які уможливлюють перетворення тексту з мови людини на мову машини, називають трансляторами.

У роботі компілятора (транслятора компілювального типу) ви­діляють три етапи: лексичний аналіз, синтаксичний аналіз, генерування вихідного тексту.

Комплексне завдання для закріплення знань, отриманих у сьомо­му розділі, полягає у реалізації лексичного аналізатора мови програ­мування. Теоретичну частину організовано у формі скінченного авто­мата, який розрізняє такі класи лексем: числа, рядкові та символьні константи, ко­ментарі, зарезервовані слова, оператори, розділові знаки, ідентифікатори.

Основою для методів формалізації мови є теорія формальних граматик. Скінченні автомати розглядатимемо як абстрактні моделі найпростіших пристроїв оброблення даних.

Простежити зв’язок між мовами, граматиками й автоматами допомагають певні задачі. Задають тип ідентифікатора – це ланцюжок довжини 5, який може складатися із цифр, великих або малих літер українського алфавіту. Треба побудувати скінченний автомат з виходом, що розпізнає ланцюжок заданого типу, і лише його, з певними обме­женнями (наприклад, символи з парними номерами – цифри). Необхідно побудувати граматику, що породжує такий і лише такий ланцюжок, знайти можливу кількість комбінацій елементів іденти­фікатора такого типу. Комплексне (групове) завдання для закріплення знань, отриманих у цьому розділі, полягає у реалізації лексичного аналізатора мови програмування. Теоретичну частину організовано у формі скінченного автомата, який розрізняє такі класи лексем: числа, рядкові та символьні константи, коментарі, зарезервовані слова, опера­тори, розділові знаки, ідентифікатори.

У розділі, що стосується лінгвістичного аналізу текстової інформації, текст розглядають як автономну структуру, вивчають його структуру, категорії та складові, а також правила побудови зв’язного тексту. Реалізація таких завдань передбачає застосування методів лінгвістичного аналізу для попереднього розбору багатьох текстів та порівняння результатів. Об’єктом лінгвістичного аналізу тексту може бути, наприклад, науковий, офіційно-діловий, публіцистичний чи художній тексти.

Визначені під час лінгвістичного аналізу логічні правила по­будови зв’язного тексту можна використати для розв’язування задач опрацю­вання та синтезу природної мови, що є важливою проблемою створення систем штучного інтелекту. Для моделювання асинхронних інформа­ційних потоків у системах опрацювання даних використовують модифі­кацію мережевої моделі – розфарбовану мережу Петрі. Введення поняття кольору дає змогу запровадити нове правило взаємодії між складовими мережі (дуга певного кольору, може пропустити тільки фішки відпо­відного кольору), коли із кожним кольором пов’язана конкретна се­мантична інтерпретація.

Застосування лінгвістичного аналізу дає змогу виділити правила побудови зв’язного тексту на основі аналізу текстів різного стилю. У машинній побудові зв’язних текстів, а також у реалізації машинного синтезу мови знайшли застосування мережі Петрі, пов’язані із моде­люванням причинно-наслідкових зв’язків.

Кількість сторінок: 
250
Видавництво: 
«Новий світ – 2000»
Рік: 
2020
Бібліографічний опис: 
Пасічник В. В. Математична лінгвістика. Книга 2. Комбінаторна лінгвістика: навчальний посібник / В. В. Пасічник, Ю. М. Щербина, В. А. Висоцька, Т. В. Шестакевич. – Львів: Видавництво Львівської політехніки, 2019. – 250 c