Matecat

Matecat
Ліцензія GNU Lesser General Public License[1]
Статус авторських прав захищено авторським правомd
Офіційний сайт

Matecat — це вебінструмент для автоматизованого перекладу (CAT), випущений як відкрите програмне забезпечення під ліцензією Lesser General Public License (LGPL). Matecat безкоштовний для бюро перекладів, перекладачів і корпоративних користувачів[2].

Огляд

Назва Matecat — це абревіатура від Machine Translation Enhanced Computer Assisted Translation («Автоматизований переклад із покращеним машинним перекладом»). Matecat — результат трирічного дослідного проєкту, який тривав з листопада 2011 року по жовтень 2014 року. Проєкт фінансувався Сьомою рамковою програмою Європейського Союзу з досліджень, технологічного розвитку та демонстрації за грантовою угодою № 287688[3][4]. На його реалізацію було виділено понад 2 500 000 євро європейських коштів[5].

Консорціум проєкту очолював FBK (Fondazione Bruno Kessler) — міжнародний дослідницький центр, який базується в Тренто, Італія. До нього входив Translated[6] — постачальник мовних рішень на основі штучного інтелекту, заснований Марко Тромбетті[en] та Ізабель Андріє (Isabelle Andrieu) з Університету Ле-Мана[fr] та Единбурзького університету[7].

Інструменти автоматизованого перекладу

Інструменти автоматизованого перекладу (CAT-інструменти) забезпечують доступ до пам'яті перекладів (англ. TM), термінологічних баз (англ. TB), конкордансу, а віднедавна й до механізмів або служб машинного перекладу (МП). Поєднання в одному інтерфейсі пропозицій із системи машинного перекладу як доповнення до збігів у пам'яті перекладу зумовлена нещодавніми дослідженнями[8][9][10], які показали, що постредагування пропозицій із системи машинного перекладу підвищує рівень точності перекладу і його швидкість.

Matecat полегшує редагування результатів машинного перекладу та керування процесом локалізації. Він покращує якість пропозицій щодо перекладу, використовуючи дані щодо тематики тексту (наприклад, юридичної термінології), а також використовує машинне навчання для автоматичного покращення пропозицій з часом[11]. Matecat розроблено як перекладацький робочий інструмент і як дослідницьку платформу для інтеграції нових функцій машинного перекладу, проведення експериментів із постредагуванням і вимірювання продуктивності користувачів.

Технологія перекладу

Машинний переклад

Matecat працює як вебсервер, який з'єднується з іншими сервісами через відкриті API: службою машинного перекладу MyMemory[12], комерційним сервісом Перекладач Google (GT), ModernMT[13], DeepL[14] та кількома службами на основі Moses[15], визначеними у конфігураційному файлі. MyMemory і Перекладач Google доступні завжди; сервери Moses потребують встановлення й налаштування. Moses дає змогу розширити API GT для підтримки самонастроюваних, адаптивних до користувача та інформативних функцій машинного перекладу.

Версія Matecat із відкритим вихідним кодом за замовчуванням підтримує формат XLIFF[16], але конвертери можна налаштувати й на підтримку інших форматів. Інструмент підтримує кодування Юнікоду (UTF-8), у тому числі нелатинські абетки та мови з писемністю справа наліво, а також обробляє тексти, які містять теги розмітки. Він підтримує узгодження, термінологічні бази і настроювані компоненти оцінювання якості, а також надає API для Moses Toolkit, який можна налаштувати відповідно до мов і доменів.

Matecat підтримує сервери на базі Moses, здатні забезпечити розширений зв'язок CAT зі службами машинного перекладу. Зокрема, API Перекладача Google доповнено інформацією про зворотний зв'язок, що надходить до служби машинного перекладу щоразу після редагування сегмента, а також розширеним виводом машинного перекладача, зокрема оцінкою достовірності, сітками слів[17] тощо. Розроблений МП-сервер підтримує багатопотоковість для роботи з кількома перекладачами одночасно, обробляє текстові сегменти з тегами та адаптується до постредагування, яке виконує кожен користувач[18].

Переклад з урахуванням контексту

Matecat надає пропозиції машинного перекладу, які відповідають не лише вже відредагованим сегментам, а й, теоретично, усьому документу. Ця контекстна інформація вбудовується в статистичні моделі і має, наприклад, уможливити краще розрізнення між лексичними альтернативами. У моделях з урахуванням контексту інформація про повторювані терміни й вирази, отримана під час аналізу документа, поєднується з відповідними вибраними та підтвердженими перекладами, щойно вони стають доступними. Зокрема, за допомогою спеціальних статистичних моделей враховуються обмеження перекладу, пов'язані з міжреченнєвими та внутрішньореченнєвими анафоричними (тобто з урахуванням уже виконаного перекладу) виразами, синтаксичними узгодженнями та лексичною зв'язністю.

Обробка в режимі реального часу

Основні компоненти традиційних систем машинного перекладу, тобто модуль перекладу і мовні моделі, як правило, статичні: вони не змінюються після початкового етапу навчання. З огляду на це вони не підходять для динамічного середовища, як-от такого, яке Matecat пропонує перекладачам. Для динамічного моделювання змін у Matecat передбачено інноваційні структури даних, які швидко й ефективно оновлюються, щойно користувач надсилає новий перекладений сегмент, а також інноваційні ефективні алгоритми для виконання цієї адаптації так, щоб увесь процес відбувався в режимі реального часу і був прозорим для перекладача. Крім того, ефективність підвищується завдяки використанню переваг багатопотоковості одного процесора, а також розподілених обчислень, які виконуються на приватних кластерах або комп'ютерних хмарах.

Журнал редагування

Під час постредагування Matecat збирає інформацію про час для кожного сегмента, яка оновлюється щоразу, коли сегмент відкривається і закривається. Крім того, для кожного сегмента збирається інформація про згенеровані пропозиції та ті, що були фактично відредаговані. Ця інформація доступна в будь-який час за посиланням на сторінці редагування, яке називається Журнал редагування (Edit log). На сторінці «Журнал редагування» відображається загальна інформація про редагування, виконане в рамках проєкту, зокрема середню швидкість перекладу та обсяг редакторської роботи, а також відсоток найкращих пропозицій, джерелом яких є пам'ять перекладів або машинний переклад. Крім того, для кожного сегмента, відсортованого за швидкістю перекладу від найповільнішого до найшвидшого, надається докладна статистика про виконані операції редагування. Цю інформацію із ще більшою деталізацією можна завантажити у вигляді CSV-файлу, щоб виконати детальніший аналіз після редагування. Хоча інформація, що відображається на сторінці журналу редагування, дуже корисна для відстеження виконання перекладацького проєкту в режимі реального часу, CSV-файл є основним джерелом інформації для детального аналізу продуктивності після завершення проєкту.

Застосування

Платформа Matecat використовується в проєкті MateCat для дослідження нових функцій машинного перекладу[19][20] та їх оцінки в реальному професійному середовищі, де перекладачі мають у своєму розпорядженні всі джерела інформації, з якими вони звикли працювати. Крім того, завдяки своїй гнучкості й простоті використання інструмент нещодавно почали застосовувати для збору даних і в освітніх цілях (курс із CAT-технологій для студентів-перекладачів). Початкова версія інструмента використовувалася також у проєкті CasmaCat[21] для створення робочого столу[22], придатного, зокрема, для дослідження сучасних способів взаємодії, як-от інтерактивний машинний переклад, відстеження руху очей і рукописне введення. Наразі цей інструмент використовується перекладацькою агенцією Translated для внутрішніх перекладацьких проєктів[23] і тестується кількома міжнародними компаніями — як постачальниками лінгвістичних послуг, так і ІТ-компаніями. Це дало змогу отримувати неперервний зворотний зв'язок від сотень перекладачів, який не лише допомагає покращувати надійність інструмента, а й впливає на те, як будуть інтегровані нові функції розпізнавання мови, щоб забезпечити найкращу допомогу кінцевому користувачеві.

Посилання

  • Офіційний сайт
  • Навчальні матеріали
  • Добірка матеріалів для тих, хто опановує або планує опанувати Matecat

Примітки

  1. https://site.matecat.com/terms/
  2. About Matecat. site.matecat.com. Процитовано 17 травня 2024.
  3. EU – DG Translation – a folha — Portuguese language magazine. ec.europa.eu. Процитовано 17 травня 2024.
  4. Machine Translation Enhanced Computer Assisted Translation | MateCat Project | Fact Sheet | FP7. CORDIS | European Commission (англ.). Процитовано 17 травня 2024.
  5. Wayback Machine (PDF). web.archive.org. Архів оригіналу за 2 липня 2018. Процитовано 17 травня 2024.{{cite web}}: Обслуговування CS1: bot: Сторінки з посиланнями на джерела, де статус оригінального URL невідомий (посилання)
  6. Professional language solutions for your business - Translated. translated.com (англ.). Процитовано 17 травня 2024.
  7. MateCat. FBK (амер.). Процитовано 27 травня 2024.
  8. https://web.archive.org/web/20141030154913/http://amta2012.amtaweb.org/AMTA2012Files/papers/123.pdf
  9. https://dl.acm.org/doi/10.1145/2470654.2470718
  10. Архівована копія (PDF). Архів оригіналу (PDF) за 23 квітня 2018. Процитовано 19 травня 2024.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)
  11. MateCat. FBK (амер.). Процитовано 19 травня 2024.
  12. MyMemory - CAT tool integration. mymemory.translated.net. Процитовано 21 травня 2024.
  13. ModernMT (MMT) Plugin. guides.matecat.com (англ.). Процитовано 21 травня 2024.
  14. Machine Translation Providers. guides.matecat.com (англ.). Процитовано 21 травня 2024.
  15. Moses - Main/HomePage. www2.statmt.org. Процитовано 21 травня 2024.
  16. XLIFF 1.2 Specification. docs.oasis-open.org. Процитовано 21 травня 2024.
  17. Moses - Moses/WordLattices. www2.statmt.org. Процитовано 22 травня 2024.
  18. Nicola Bertoldi, Mauro Cettolo, and Marcello Federico. 2013. Cache-based Online Adaptation for Machine Translation Enhanced Computer Assisted Translation. In Proceedings of the MT Summit XIV, pages 35–42, Nice, France, September.
  19. Nicola Bertoldi, Mauro Cettolo, and Marcello Federico. 2013.
  20. Turchi, Marco; Negri, Matteo; Federico, Marcello (2013-08). Bojar, Ondrej (ред.). Coping with the Subjectivity of Human Judgements in MT Quality Estimation. Proceedings of the Eighth Workshop on Statistical Machine Translation. Association for Computational Linguistics. с. 240—251. Процитовано 23 липня 2024.
  21. Main/Home Page. www.casmacat.eu. Процитовано 23 липня 2024.
  22. Vicent Alabau, Ragnar Bonk, Christian Buck, Michael Carl, Francisco Casacuberta, Mercedes Garca-Martiınez, Jesus Gonzalez, Philipp Koehn, Luis Leiva, Bartolomé Mesa-Lao, Daniel Oriz, Hervé Saint-Amand, German Sanchis, and Chara Tsiukala. 2013. Advanced computer-aided translation with a web-based workbench. In Proceedings of Workshop on Post-editing Technology and Practice, pages 55–62.
  23. Discover the Benefits of Adaptive MT in Matecat. translated.com (англ.). Процитовано 23 липня 2024.