Корпусні та ШІ-технології управління термінологією в локалізаційних проєктах

Анотація

(ua) Статтю присвячено особливостям управління термінологією в локалізаційних проєктах, зокрема, процесу видобування термінів із фахових текстів за допомогою корпусних технологій та технологій, що передбачають використання ШІ. Враховуючи складність і багатошаровість процесу локалізації, ефективність управління термінологією, починаючи з етапу її видобування, безпосередньо впливає на якість надання локалізаційної послуги. Розглянуто стратегії і тактики видобування термінів, які застосовуються на ринку лінгвістичних послуг. Уточнено термін «видобування термінів», з’ясовано принципи, які використовуються в сучасних інструментах. Проведено експериментальне дослідження видобування термінів інструментами SketchEngine, OpenAir (Plus) та Fodina TermCatch. Визначення ефективності видобування передбачало створення корпусу фахових текстів галузі автоматизованого програмного забезпечення загальним обсягом 29374 слів (36912 токенів). Результат видобування оцінювався за критеріями відповідності вимогам до термінів та терміносполук (стійкість, точність, нероздільність, дефінітивність). За допомогою інструмента SketchEngine було видобуто 400 пропозицій, з яких лише 25% можуть уважатися терміносполуками. Використання продукту OpenAir (Plus) на основі ШІ надало 81 пропозицію, з яких відповідними вимогам виявились 38%. Инструментом Fodina TermCatch tool було видобуто 1460 пропозицій, з яких лише 15.93% виявились відповідними. Виявлена варіативність видобутої термінології може бути корисною задля покращення якості вихідного фахового тексту. Результати статистичного видобування демонструють більшу точність, однак залишають поза увагою нечастотні терміни. Технології ШІ надають більшу кількість кандидатів у терміни, однак потребують фільтрування нерелевантних результатів. Дослідження доводить ефективність гібридного використання корпусних інструментів на основі статистичних принципів та тих, що використовують ШІ. Автоматизація процесу управління термніологією – важливий крок із оптимізації менеджменту локалізаційних проєктів. (en) The article explores terminology management for localization projects, with a special focus on extraction technologies, emphasizing corpus-based and AI-driven approaches. Given the complexity of localization, the automation of terminology management plays a crucial role in ensuring high-quality linguistic services. The study examines various terminology extraction strategies applied in Ukraine's language services market. The research objectives include defining the concept of «terminology extraction» systematizing principles of automated extraction tools, and conducting an experimental extraction process using SketchEngine, OpenAir (Plus), Fodina TermCatch. To assess the effectiveness of these tools, the authors built a specialized corpus, comprising 29,374 words and 36,912 tokens. The extracted terminology was analyzed based on key criteria: stability, precision, indivisibility, and definitional clarity. SketchEngine tool employs statistical keyword analysis, extracting 400 term candidates. However, only 25% (123) were deemed valid terminological units due to issues with phrase segmentation. Utilizing AI-driven models, OpenAir (Plus) tool extracted 81 term candidates, with 38% (31 terms) meeting the established criteria. However, it tended to overgenerate paraphrased variants. Fodina TermCatch tool extracted 1,460 candidates, but only 15.93% (233 terms) were valid. It identified redundant terms variations, which could be useful for refining source content. The study underscores the hybrid nature of terminology extraction today, combining statistical, AI-based, and hybrid approaches. While statistical methods provide greater precision, they may miss rare terms, whereas AI-driven tools offer high recall but require filtering. In conclusion, automated terminology extraction enhances efficiency in localization. However, manual validation remains essential for ensuring accuracy. The research confirms that combining multiple extraction tools yields the best results, making terminology extraction – an essential part of terminology management – a crucial step in localization project management.

Опис

Бондаренко О. С. Корпусні та ШІ-технології управління термінологією в локалізаційних проєктах / Олександр Сергійович Бондаренко, Катерина Леонідівна Бондаренко // Наукові записки ЦДУ ім. Володимира Винниченка. Серія : Філологічні науки : зб. наук. праць / ред. кол. : С. П. Михида [та ін.]. – Кропивницький : Видавничий дім «Гельветика», 2025. – Вип. 1(212). – С. 63-69. DOI https://doi.org/10.32782/2522-4077-2025-212-9

Ключові слова

управління термінологією, локалізаційний проєкт, корпусні технології, автоматизоване видобування термінів, термінна база, terminology management, localisation project, corpus technologies, automated term extraction, termbase

Бібліографічний опис

Endorsement

Review

Supplemented By

Referenced By