Створення систем машинного перекладу

Лекція 10

 

  1. Архітектура програмної системи

Необхідно враховувати сучасний стан інформатизації суспільного життя, рівень інформаційних технологій обміну інформацією.

Зрозуміло, що мова має йти про автоматичний чи автоматизований перекладач як апаратно-програмну систему відповідного призначення, побудовану на основі методології створення інформаційних систем з дотриманням стандартів і застосуванням певного інструментарію проектування.

Зовнішні умови взаємодії людей-користувачів ІТ визначаються такими чинниками:

- широким поширенням ПК на робочих місцях (на службі і вдома), які використовуються і як інструмент професійної діяльності, і як засіб формування єдиного інформаційного середовища, елемент різноманітних професійних і соціальних мереж;

- глибоким впливом мережі Інтернет на формування інформаційного середовища на службі і вдома як елементу інформаційного обміну, реалізації інформаційних потреб засобу спілкування;

- наявністю потужних засобів накопичення і поширення інформації загального, державного, відомчого і корпоративного характеру, які поступово зосереджуються в центрах оброблення даних (ЦОД);

- поширенням ідеї сервісного обслуговування в мережах різноманітного призначення формуванням середовища, в якому доступний великий вибір сервісів ІТ інфраструктури, засобів розроблення програмного забезпечення (ПЗ), різноманітного ПЗ для реалізації широкого вибору функцій – управління підприємствами, організації конференцій, електронної пошти і т.п.;

- появою можливості зручної реалізації творчих задумів у галузі ІТ для будь-яких колективів, груп і індивідуальних розробників, які одержали інструментарій швидкого створення програмних продуктів і ефективного їх поширення.

З урахуванням наведеного, можна говорити про дві можливих архітектури програмної системи перекладу:

1. клієнт-серверну:

2. сервер-орієнтовану

 

Відмінності цих архітектур стосуються технологій взаємодії компонентів. У першому випадку чітко визначені усі користувачі і комп’ютери, з яких вони можуть здійснювати доступ до інформаційних, програмних та інших ресурсів, у тому числі до системи перекладу.

Якщо користувач має відповідні права, то з допомогою програми клієнта він може формувати запити до системи перекладу, які засобами обміну локальної обчислювальної мережі (ЛОМ) передаються серверу застосувань, який спрямовує їх відповідному застосуванню. Застосування формує відповідь. Якщо при цьому виникає потреба, воно через сервер застосувань звертається до сервера БД. Останній шукає і вибирає потрібну інформацію з БД (або зберігає чи модифікує інформацію в БД) і повертає її застосуванню.

Готова відповідь передається на програму-клієнт, яка відображає результат користувачеві.

Цей цикл може повторюватися багаторазово.

У другому випадку користувач використовує стандартний браузер і отримує доступ до ресурсу після підтвердження його прав Web-сервером. Оскільки обмін здійснюється на рівні Інтернет-протоколів, користувач може працювати на будь-якому комп’ютері (робоче місце на службі, вдома, ноутбук у дорозі і т.п.)

Перевіривши права доступу, Web-сервер переправляє інформацію серверу застосувань, який підключає відповідні застосування. При цьому, на комп’ютері користувача відкриваються сторінки з відповідним змістом. Змінюючи інформацію на цих сторінках (ту, на яку він має права) користувач визначає потрібні йому дії системи перекладу.

Як і у попередньому випадку застосування через сервер застосувань може звертатися для вибірки, збереження чи модифікації інформації до сервера БД.

Друге архітектурне рішення більш зручне для користувачів, більш доступне для реалізації, але менш захищене. Однак, якщо інформація не є конфіденційною, чи не вимагає захисту, то другий варіант – привабливіший.

 

  1. Реалізація системи пошуку текстів-відповідників.

При реалізації системи перекладу за схемою пошуку відповідників основними компонентами системи є:

    • База текстів (усіма мовами, з якими працює система);
    • Таблиця відповідності текстів;
    • Підсистема пошуку текстів-відповідників.

База текстів

 

Таблиця відповідності

 

 

Підсистема пошуку. Ця підсистема має три складових:

  • Пошук відповідників за ідентифікатором (назвою тексту);
  • Пошук відповідників за певною сукупністю ознак тексту (хто автор, хто видав, дата і т.п.)
  • Пошук відповідників за рефератом;
  • Повнотекстовий пошук.

 

Заправка знаходиться на двадцять першій.

 

Человек шел по улице и потерял сознание.

 

Він поцілував її ніжно в палкі і вже такі чужі вуста.

 

The man the girl the cat and one of the dogs belong to adopted recovered

 

The cheese the mouse the cat nas chasiny stole nas tasty.

 

Приклади речень, які мають дві глибинні структури:

 

Очікуваного запрошення письменника ще не було.

 

Школярі із Ржева поїхали в Торжок

 

Прийом депутата відбувся успішно

 

Спостереження за мовою маленьких дітей

 

Сильно засмаглий юнак кидає камінь

 

Приклади речень, у яких друга глибинна структура відкидається за рахунок семантичного аналізу:

 

Зробити їх на прикладі омонімів

 

Міцно збудований юнак читає книгу

Легко співучий соловей виводить руладу

 

Добре підготовлений студент зробив домашнє завдання

 

1) «добре» стосується студента

2) «добре» стосується завдання

3) «добре» стосується того, що було сказане, якщо мова іде про діалог