Математична лінгвістика. Книга 1. Квантитативна лінгвістика

Автор(и):

Пасічник В.В., Щербина Ю.М., Висоцька В.А., Шестакевич Т.В.

Тип видання:

навчальний посібник

Анотація:

Навчальний посібник містить матеріал, необхідний для вивчення основних теоретичних засад, функціональних можливостей та практичного застосування теорії математичної лінґвістики в дослідженні мов, розроблення прикладних засобів та інформаційних систем аналізу та опрацювання природних мов. У книзі першій розглянуто питання квантитативної лінґвістики. Викладення матеріалу супроводжується значною кількістю прикладів, що полегшує його сприйняття і засвоєння. Подається перелік запитань і тестів для самоконтролю, а також завдання для самостійного виконання (трьох рівнів складності) та довідкова інформація для розв’язування задач.

Навчальний посібник призначається для студентів, що навчаються за напрямами галузей знань «Інформатика та обчислювальна техніка» (напрям 6.050101 «Комп’ютерні науки»), «Системні науки та кібернетика» (напрям 6.040303 «Системний аналіз») і споріднених галузей знань, пов’язаних з вивченням прикладної лінґвістики та інформаційних технологій. Може бути використаний аспірантами як підгрунтя для наукових досліджень і викладачами як дидактичний матеріал, а також для самостійного вивчення і підвищення кваліфікації.

Гриф надано Міністерством освіти і науки, молоді та спорту України (Лист № 1/11-9785 від 22.10.10).

Рецензенти:

Цегелик Г.Г., доктор фіз.-мат. наук, професор, Львівський національний університет імені Івана Франка;

Камінський Р.М., доктор технічних наук, професор, Буковинський університет;

Пелещишин А.М., доктор технічних наук, Національний університет «Львівська політехніка».

Зміст:

Передмова наукового редактора серії підручників та навчальних посібників «Комп’ютинґ»

Вступне слово авторів

Методи квантитативної лінґвістики

Комбінаторний аналіз

Множина. Кортеж. Декартів добуток

Операції над множинами. Доведення рівностей з множинами

Взаємно однозначна відповідність

Основні правила комбінаторики. Розміщення і сполучення

Обчислення кількості розміщень і сполучень

Перестановки

Задача про цілочислові розв’язки

Розв’язування комбінаторних задач

Контрольні питання

Тести для самоконтролю

Задачі для самостійної роботи

Елементи теорії ймовірностей

Елементарні та складні лінґвістичні події

Операції над лінґвістичними подіями

Імовірність елементарної лінґвістичної події

Імовірності складних лінґвістичних подій

Контрольні питання

Тести для самоконтролю

Задачі для самостійної роботи

Основи математичної статистики

Первинне статистичне опрацювання тексту

Методи організації статистичного спостереження над текстом

Варіаційні ряди лінґвістичних ознак

Порядкова ознака в лінґвістичних одиницях

Якісна ознака в лінґвістичних одиницях

Графічне зображення лінґвістичних варіаційних рядів

Статистичні характеристики лінґвістичних варіаційних рядів

Середнє арифметичне і дисперсія для декількох сукупностей

Довжина слововживання як статистично-стилістичний параметр

Статистична однорідність тексту

Двовимірний статистичний розподіл вибірки і його числові характеристики

Контрольні питання

Тести для самоконтролю

Задачі для самостійної роботи

Елементи теорії інформації в лінґвістиці

Кількісні міри інформації

Інформаційні виміри кодування інформації

Умовна ентропія та ентропія об’єднання

Розрахунок швидкості передавання інформації та пропускної здатності інформаційних каналів зв’язку

Визначення надлишковості повідомлень. Оптимальне кодування

Контрольні питання

Тести для самоконтролю

Задачі для самостійної роботи

Ймовірнісне моделювання тексту та його складових

Види випробувань у тексті

Повторення незалежних випробувань у тексті

Вибірки без повторень та з повтореннями

Три схеми незалежних лінґвістичних випробувань

Проста схема незалежних випробувань. Формула Бернуллі

Поліноміальна схема

Пуасонівська схема

Лінґвістична вибірка без повторень та її опис за допомогою формули Бернуллі

Ймовірність появи події в заданому діапазоні кількості появ

Визначення необхідного обсягу вибірки

Метод контент-аналізу текстової інформації

Контрольні питання

Задачі для самостійної роботи

Інформація лінґвістичних подій

Формально-структурні характеристики інформації

Трактування поняття «інформація»

Основи теорії інформації

Якісні властивості інформації

Дійсні числа

Поняття числа

Множина дійсних чисел

Моделювання інформаційної побудови мови

Зміна синтаксичної інформації в мові

Розподіл інформації в слові

Розподіл інформації в тексті

Розподіл контекстної обумовленості

Інформаційні моделі слова і тексту

Інформаційні виміри в тексті

Кількість інформації

Приклади вимірювання кількості інформації

Синтаксична інформація та особливості її розподілу в тексті і словах

Особливості синтаксичної інформації

Максимальний обсяг інформації в слові

Оцінювання максимального обсягу інформації слова

Ряд та діахронічний процес

Приріст та накопичення інформації в тексті

Контекстна обумовленість та надлишковість тексту

Вимірювання змістовної інформації в тексті

Кількісні оцінки змістовної інформації

Застосування методів аналізу побудови текcту

Організація пам’яті для інформаційного пошуку

Методи визначення емоційної тональності тексту

Контрольні питання

Задачі для самостійної роботи

Статистична лінґвістика

Лінґвометрія

Статистична структура тексту

Кількісні оцінки мовлення

Стилеметрія

Глоттохронологія

Контрольні питання

Задачі для самостійної роботи

Криптолінґвістика

Основні визначення криптолінґвістики

Лінгвістичні схеми у криптографії

Кодування інформації

Моноалфавітні шифри

Застосування перестановок

Поліалфавітні шифри

Книжкові шифри

Дволітерні шифри

Основи криптоаналізу. Лінґвістичне дешифрування

Розкриття шифру Цезара

Розкриття шифру заміни

Розкриття книжкового шифру

Розкриття шифру Віженера

Контрольні питання

Задачі для самостійної роботи

Список використаної літератури

Предметний покажчик

Додатки

Додаток А

Додаток Б

Додаток В

Додаток Г

Додаток Д

Додаток Е

Додаток Ж

Додаток З

Додаток И

Додаток К

Додаток Л

Вступ:

Вступне слово авторів

Повний та різносторонній опис мови та мовлення вимагає врахування і якісних, і кількісних характеристик лінґвістичних об’єктів. Використання кількісних методів у мовознавстві має об’єктивні підстави: очевидним є вплив кількісних характеристик на якісні (кількість голосних морфем, наприклад, впливає на звукову якість слів), можемо обчислити кількість абзаців, речень, слів, букв, звуків та інших кількісних характеристик тексту, частоти різних елементів мови у мовленні підлягають ймовірнісно-статистичним законам. Прикладна лінґвістика виникла наприкінці 1920-х років, і з появою комп’ютерів у цій галузі активізуються дослідження щодо практичного застосування накопичених лінґвістичних знань, завдяки чому виникають і з середини ХХ-го століття стрімко розвиваються математична лінґвістика, комп’ютерна лінґвістика, машинний переклад тощо. Однією з перших в Україні фахівців з прикладної лінґвістики почала готувати кафедра прикладної лінґвістики Національного університету «Львівська політехніка”.

Математична лінґвістика як складова частина прикладної лінґвістики. Прикладна лінґвістика – галузь мовознавства, об’єктом якої є розроблення методів і засобів застосування у соціальній практиці людини результатів фундаментальних лінґвістичних досліджень, спрямованих на пізнання онтологічних властивостей мови [88]. Термін прикладна лінґвістика виник наприкінці 20-х рр. ХХ ст., її складовими є комп’ютерна (машинна, обчислювальна, інженерна) лінґвістика, математична лінґвістика, комунікативна лінґвістика, лінґводидактика (викладання іноземної мови), термінознавство, перекладознавство, контрастивна лінґвістика, статистична лінґвістика, структурна лінґвістика і т. ін.

Комп’ютерна лінґвістика (машинна, обчислювальна, інженерна лінґвістика) займається застосуванням комп’ютерів для моделювання функціонування мови в певних умовах, використанням комп’ютерів (технологій і програм опрацювання даних) для вирішення лінґвістичних завдань, а також розробляє лінґвістичні аспекти комп’ютеризації. У широкому розумінні до комп’ютерної лінґвістики відносять все, що пов’язане з використанням комп’ютерів у мовознавстві. Структурна лінґвістика – сукупність поглядів на мову та методи її дослідження із погляду на мову як на знакову систему з чітко виділеними структурними елементами і прагненням до строгого, формального опису мови (уважають попередницею комп’ютерної та математичної лінґвістики). Контрастивна лінґвістика (співставна лінґвістика) – співставлення двох, рідше кількох мов для виявлення їх подібності або відмінності на всіх рівнях мовної структури з метою типологічної класифікації мов. Вона виникла і активно розвивалася у 50-ті рр. ХХ ст.

Математична лінґвістика виникла в 50-ті рр. ХХ ст. [92], підґрунтям для її появи стала необхідність в уточненні основних лінґвістичних понять; потреба в уведенні більш точних та об’єктивних методів для аналізу та синтезу мови і тексту; поява міжпредметних зв’язків з іншими галузями – акустикою, фізіологією вищої нервової діяльності, кібернетикою та обчислювальною технікою, які вимагають спілкування мовою математики; з розвитком можливостей комп’ютерних технологій також виникла потреба, зокрема, у машинному перекладі та автоматизованому інформаційному пошуку. Власне математичну лінґвістику – галузь науки на межі мовознавства та математики, яка вивчає можливості застосування математичних методів для опису та дослідження природних і штучних мов, для пояснення лінґвістичних подій, – уважають теоретичним підґрунтям прикладної лінґвістики. Підкреслюючи спільність поняттєвого апарату, математичну лінґвістику іноді розділяють на галузі мовознавства та математики, а також відзначають, що в частині використання розроблених математичних моделей для опису будови природних мов математична лінґвістика належить до такої галузі досліджень, як штучний інтелект. Відзначимо специфічні завдання мовознавства й прикладної лінґвістики зокрема, які вирішує математична лінґвістика за допомогою взаємодії відповідних математичних методів [21, 92, 131].

Побудовані за допомогою обернених тригонометричних функцій моделі можна використовувати для опису структурних зсувів (наприклад, поява або зникнення лінґвістичних одиниць) в області лексикології, морфології, фонології, синтаксису та стилістики.
У роботах з діахронічної лінґвістики часто наводяться таблиці, що містять кількісні дані про використання досліджуваного явища на різних етапах його історії. Такі таблиці показують динаміку лінґвістичного процесу, який можна більш поглиблено аналізувати за допомогою елементарних функцій, графічно, а також з використанням аналітичних моделей досліджуваного процесу.
Класична глоттохронологія має на меті наближено датувати процес розходження діалектів та споріднених мов, а також кількісно оцінити ступінь їх спорідненості, для чого використовує статистичні методи.
Методи математичної статистики також допоможуть у створенні словників (у тому числі частотних і статистичних), автоматичних словників, тезаурусів (лексикографія), у вирішенні завдань стилеметрії та інформаційного пошуку.
Постійне розширення сфери діяльності сприяє неухильному збільшенню термінологічного словника людини, і для лексикографічної практики, а особливо під час побудови систем машинного перекладу та реферування, важливо мати прогноз кількісного росту термінології в різних областях знань. Таке прогнозування дало б можливість свідомо планувати випуск та ефективне поповнення електронних політехнічних і галузевий словників та довідників.
Для визначення швидкості зміни в мові та мовленні, а також їх кількісних оцінок використовується поняття похідної.
Тригонометричні функції та поняття границі дозволяють моделювати циклічний і стрибкоподібний характер лінґвістичних процесів.
Можна також описати процеси приросту та накопичення нових мовних елементів, використовуючи теорію рядів та інтегрування.
Приблизні оцінювання вимірів обмежень, що накладаються на використання лінґвістичних одиниць системою та нормою мови, можна виконувати за допомогою комбінаторики.
Лінґвістичні дослідження щодо підготовки систем машинного перекладу та інформаційного пошуку вимагають, зокрема, знання обсягу вибірки, необхідного для забезпечення із заданою ймовірністю появи певної лінґвістичної події хоча б раз. Знаходження достатнього обсягу вибірки необхідне для визначення достовірності отриманих висновків.
Створення машинних фондів мов.

Математична лінґвістика також бере участь у вирішенні таких універсальних проблем прикладної лінґвістики [21, 88, 130]:

розроблення формальних моделей природних і штучних мов;
вирішення питань практичної транскрипції та транслітерації;
дешифрування невідомих писемностей;
усний/письмовий переклад, розроблення систем автоматичного перекладу;
авторська та часова атрибуція твору;
вивчення процесів і створення правил утворення нових назв товарів, виробів тощо;
створення систем стенографії, систем письма для сліпих;
судова і кримінальна лінґвістика;
лінґводидактика: навчання рідній та іноземній мові, розроблення відповідних лінґвістичних методик (навчання дітей та дорослих, навчання емігрантів тощо);
розроблення раціональної та стабільної орфографії;
автоматичне розпізнавання і синтез мови;
розроблення автоматизованих систем опрацювання текстової інформації: автоматичне зняття полісемії, автоматичне анотування, індексування і реферування, синтаксичний аналіз, компресія текстів, інтелектуальний аналіз тексту з метою виділення неявного змісту («читання між рядків»);
лінґвістичне забезпечення автоматизованих систем керування;
комп’ютеризація навчання та автоматизація викладання за допомогою комп’ютера: автоматизовані системи навчання, системи дистанційного навчання, автоматизоване робоче місце перекладача і викладача;
розв’язання задач прикладного термінознавства: систематизація та автоматизація терміносистем певних галузей, врахування динамічності їх розвитку, укладання термінологічних словників, стандартизація й уніфікація науково-технічної термінології тощо;
створення автоматизованих редакційно-видавничих систем.

Предмет математичної лінґвістки. Структура курсу. Цей методичний посібник містить опис математичних методів, необхідних для ґрунтовного висвітлення фундаментальних засад математичної лінґвістики, що стосуються квантитативної лінґвістики, а також можливості застосування описаних методів до розв’язування прикладних задач мовознавства. Для закріплення знань запропоновано запитання й тестові завдання з ключем, а також тридцять варіантів завдань трьох рівнів складності для самостійної роботи. Матеріал сформовано так, щоб розкрити й описати методологію вирішення завдань мовознавства за допомогою відповідних математичних методів. Аналітичне вирішення такого завдання докладно описується, організувати його у вигляді інформаційної системи читачам пропонується самостійно.

Квантитативна лінґвістика (обчислювальна лінґвістика, лінґвометрія) вивчає та описує лінґвістичні явища за допомогою методів «кількісної» математики (використовуються комбінаторика, теорія ймовірностей, математична статистика, теорія інформації) [82, 29, 43, 46, 92, 123]. Перший розділ присвячено методам, які застосовують у квантитативній лінґвістиці для опрацювання текстів та дослідження мов.

У другому розділі, що стосується ймовірнісного моделювання тексту та його складових, досліджуються механізми породження тексту, у яких результати окремого лінґвістичного випробування (наприклад, вибір із тексту окремих його одиниць) не мають важливого значення, тому необхідно організувати багаторазове виконання серії експериментів, коли одна і та сама лінґвістична подія повторюється багато разів [29, 92]. Від того, як побудоване ймовірнісно-лінґвістичне випробування та організовано вибір із тексту окремих його одиниць, залежить вибір тієї чи іншої моделі опису тексту. Імовірнісне моделювання тексту та його складових являє собою вступний, підготовчий етап до опису функцій розподілу складів, словосполучень і граматичних класів у тексті. У лінґвістичних дослідженнях, і особливо під час реалізації алгоритмів машинного послівного перекладу й інформаційного пошуку, постійно виникають завдання, пов’язані з прогнозуванням появи в сегменті заданої довжини певної кількості словоформ чи словосполучень, що належать до певних класів. Імовірнісне моделювання тексту та складів, словосполучень, граматичних класів тощо дає змогу також визначати обсяг вибірки, необхідної для того, щоб забезпечити із заданою ймовірністю появу відповідної лінґвістичної одиниці хоча б один раз.

Вивчення функціонування мови й мовлення за допомогою ймовірнісного моделювання тексту спирається на моделі теорії ймовірностей та комбінаторику. Для ілюстрації процесу ймовірнісного моделювання тексту розв’язують типові задачі, коли для кількох стилів української мови знаходять відносну частоту появи лінґвістичної одиниці (наприклад, іменника). Використовуючи отримані дані, обчислюють ймовірність того, що серед навмання взятих кількох слів буде відповідна кількість (0, 1, 2, …) іменників.

Третій розділ подає формально-структурні характеристики інформації: об’єм даних, кількість інформації та коефіцієнт інформативності. Обсяг даних у повідомленні – це кількість символів у цьому повідомленні; у різних системах числення один розряд має різну вагу, що відповідно змінює й одиниці вимірювання даних. Поняття ентропії як міри невизначеності лінґвістичного досліду дає змогу вимірювати кількість інформації як зміну (зменшення) невизначеності стану системи, а також як приріст інформації. Для визначення кількості інформації застосовують комбінаторний та ймовірнісний підходи. Відношення кількості інформації до обсягу даних називають коефіцієнтом або ступенем інформативності повідомлення, ця величина є в межах від 0 до 1 [29, 92, 127].

Комбінаторні оцінки інформації застосовують для оцінювання «гнучкості мови», тобто дають змогу вимірювати розгалуженість продовження тексту для заданого словника та заданих правил побудови речень. Обчислення кількості інформації дозволяє приблизно оцінити виміри обмежень, що накладаються на використання лінґвістичних одиниць системою і нормою мови. Зі збільшенням коефіцієнта інформованості зменшуються обсяги роботи з перетворення інформації в системі, тому природним є прагнення підвищити інформативність, для чого розробляють спеціальні методи оптимального кодування інформації.

Зацікавленим студентам пропонується опрацювати додаткові розділи, що стосуються інформаційних вимірів кодування інформації щодо інформаційних втрат у каналах із шумом, розрахунку швидкості передавання інформації та пропускної здатності інформаційних каналів зв’язку. Обчислення формально-структурних характеристик інформації вимагає знань комбінаторики, засад теорії ймовірностей та основ теорії інформації. Процес обчислення формально-структурних характеристик інформації демонструється прикладами, у яких необхідно визначити триграму (Триграма), з котрої починається прізвище студента, транслітероване англійською мовою. За допомогою словника обчислюються відносні частоти появи голосних букв після ланцюжка ПропускТриграма в англійській мові. Необхідно обчислити кількість інформації для кожного з ланцюжків ПропускТриграмаГолосна та її середнє значення. Потрібно також обчислити кількість інформації, яку одержано від досліду з п’ятьма рівноймовірними результатами та порівняти отримане значення зі значенням середньої кількості інформації; проаналізувати результати та зробити висновок.

У четвертому розділі розглянуто завдання статистичної лінґвістики, які полягають у визначенні статистичної структури тексту для розв’язування задач, зокрема, лінґвометрії, стилеметрії та глотохронології [21, 73, 92, 107]. Ці задачі полягають, приміром, в автоматизації лексикографічних процесів, порівнянні словників, створенні систем стенографії, автоматичного визначення мови чи автентичності твору тощо. Окрім того, результати статистичної лінґвістики знаходять своє застосування у криптолінґвістиці.

Статистична лінґвістика спирається на методи математичної статистики та теорії ймовірностей. У Розділі 4 статистична лінґвістики розглядається в розрізі трьох підрозділів прикладної лінґвістики і суміжних із нею наук: лінґвометрії, стилеметрії та глоттохронології. Важливими завданнями мовознавства, вирішувати які дозволяє лінґвометрія, є створення і порівняння словників (у тому числі частотних та статистичних), створення автоматичних словників, тезаурусів, створення систем стенографії, автоматичне визначення мови, інформаційний пошук тощо. Для моделювання процесів інформаційного пошуку знаходяться статистичні і перехідні ймовірності морфем тексту. На основі побудованих таблиць моделюється перевірка досліджуваного слова на наявність помилки, пропонується кілька найбільш ймовірних варіантів.

Стилеметрія – підрозділ прикладної лінґвістики, що виявляє та аналізує кількісні характеристики певного функціонального стилю мови чи мовлення певних письменників. Метою стилеметрії є типологія, атрибуція (авторська, часова, стилева – для застосування, наприклад, у судовій і кримінальній лінґвістиці), діагностика, реконструкція і т. ін. текстів та їх частин. Як приклад вирішення мовознавчої проблеми ілюструється процес авторської атрибуції уривків певного тексту [21, 66, 75, 121]. Для цього необхідно обчислити частоти слововживань у запропонованих уривках; використовуючи словники (пропонується перелік частотних словників творчості письменників загалом чи окремих їх творів), визначити автора твору (або твір – якщо це дозволяє словник). Результати для підтвердження висновків подаються у табличному вигляді та графічно (наприклад, за допомогою діаграм у середовищі Microsoft Excel).

Глоттохронологія (грец. glotta — мова, chronos — час і logos — слово, вчення) — розділ порівняльно-історичного мовознавства, який досліджує швидкість мовних змін і визначає на цій основі час розділення споріднених мов і ступінь близькості між ними [21, 50, 108]. Метод датування, що його застосовують для визначення тривалості роздільного існування двох споріднених мов, ґрунтується на припущенні про те, що основна частина лексичного складу будь-якої мови (ядерна лексика) змінюється з однаковою швидкістю і вимагає підрахунку процентного співвідношення спільних елементів у їхньому основному словнику.

Криптолінґвістика як дослідження характеристик мов (частоти появи певних літер, комбінацій літер, загальні шаблони тощо) для застосування отриманих знань у криптології аналізується в п’ятому розділі [27, 124]. Криптолінґвістика бере участь у розв’язанні задач криптографії та криптоаналізу. Лінґвістичні схеми в розв’язуванні задач криптології передбачають використання методів математичної статистики, теорії ймовірності, комбінаторики. Скінченні автомати, що розглядатимуться в комбінаторній частині математичної лінґвістики, є дуже зручним наочним інструментом ілюстрації процесу кодування та декодування.

Для моделювання процесу дешифрування як приклад пропонується порівняти частоти букв в українській, англійській, російській мовах і в шифрованому тексті. Для цього необхідно ознайомитися із таблицями, що містять частотності морфем відповідних мов й обчислити частоти появи символів та їх сполучень у шифрованому тексті. Спираючись на отримані дані, визначаємо мову тексту та розшифровуємо його.

Кількість сторінок:

359

Видавництво:

Новий світ -2000

Посилання на видавництво:

http://www.novsv2000.com.ua/