Трансформація лінгвістичної експертизи у добу LLM

06/04/2026

Класична лінгвістична експертиза спирається на відносно просту і водночас фундаментальну ідею: кожна людина залишає у тексті індивідуальний мовний слід. Саме ця ідея – ідіолекту – тривалий час дозволяла експертам, зіставляючи тексти, встановлювати авторство або принаймні звужувати коло можливих авторів.

Поява великих мовних моделей, таких як ChatGPT, GPT-4, Claude, радикально змінює ситуацію.

Віднедавна вже не можна беззастережно виходити з того, що текст відображає мовні звички конкретної особи. Він може бути повністю згенерований, частково переписаний або стилістично відредагований таким чином, що індивідуальні ознаки автора зникають. У результаті судовий експерт працює вже не з «чистим» мовним матеріалом, а з продуктом потенційно складного і багаторівневого процесу.

У цих умовах ключовим стає не саме існування мовного сліду, а питання його збереженості, ступеня трансформації та можливості відокремити первинні авторські ознаки від результатів зовнішнього впливу.

Руйнування ідіолекту як основи судової лінгвістичної експертизи

Сучасна практика лінгвістичної експертизи вимагає перегляду ролі ідіолекту як бази аналізу. Це безпосередньо стосується авторознавчої експертизи писемного мовлення, основним завданням якої є ідентифікація автора тексту.

Класичне авторознавство виходить з того, що автор стабільно використовує певні синтаксичні конструкції, має характерний словниковий запас і допускає типові помилки. Саме ці особливості формують індивідуальні мовні ознаки автора. Великі мовні моделі, навпаки, системно усувають такі маркери: вони вирівнюють граматику, нормалізують синтаксис і згладжують стилістичні відмінності.

У практичному вимірі це проявляється у типових для кримінальних проваджень ситуаціях. Наприклад, досліджується листування, що містить погрози або інші протиправні висловлювання. Раніше судовий експерт міг зіставити лексику, синтаксис, характерні помилки та інші індивідуальні мовні ознаки і зробити обґрунтований висновок щодо авторства.

Сьогодні ж така переписка може бути попередньо відредагована за допомогою ChatGPT або подібних інструментів – наприклад, шляхом перефразування, стилістичного «вирівнювання» або заміни мовних конструкцій. У результаті текст зберігає зміст, але втрачає індивідуальні мовні ознаки автора.

У такій ситуації сукупність індивідуальних мовних ознак автора нівелюється ще до того, як текст потрапляє до матеріалів справи, що істотно обмежує можливості його подальшої ідентифікації. Прямим наслідком цього є зниження надійності висновків, що ґрунтуються виключно на індивідуальних мовних характеристиках.

Імітація стилю: новий тип ризику

Окремим проявом проблеми є можливість імітації стилю. Раніше підробити мовний профіль було складно і вимагало значних зусиль. Зараз же це легко можна зробити за допомогою мовних моделей. Достатньо завантажити кілька текстів певної особи і сформулювати запит на створення нового тексту «у такому ж стилі». Результат часто виглядає переконливо навіть для досвідченого експерта=лінгвіста.

У судових спорах це формує новий тип потенційних експертних помилок: текст може відповідати стилю особи, але не бути створеним нею. Відтак сама по собі стилістична подібність більше не є надійним доказом авторства.

Більше того, поява мовних моделей відкриває можливість активного маніпулювання доказами: текст може бути не лише випадково спотворений, а й свідомо сконструйований під конкретну особу. У такій ситуації некритичне застосування традиційних методів авторознавчої експертизи створює ризик помилкового ототожнення і, відповідно, процесуальних рішень, що ґрунтуються на хибній ідентифікації.

Чому детекція AI-текстів не вирішує проблему

У відповідь на ці виклики на практиці почали активно використовувати інструменти для визначення того, чи створено текст штучним інтелектом. Найбільш відомими серед них є GPTZero, Turnitin та Originality.ai. Однак їх застосування у судовій експертизі має принципові обмеження.

Передусім, ці інструменти все ще демонструють високий рівень хибних результатів. Зокрема, тексти не-носіїв мови або тексти зі спрощеною структурою часто помилково визначаються як згенеровані штучним інтелектом. Крім того, такі системи є вразливими до елементарних маніпуляцій: достатньо змінити кілька слів, додати стилістичні нерівності або змішати фрагменти, щоб детекція втратила точність.

Додає проблем те, що сучасні тексти часто є гібридними – частково написаними людиною, а частково відредагованими моделлю. У таких випадках жоден детектор не дає стабільно надійного результату.

Таким чином, інструменти AI-детекції не усувають проблему, а лише створюють додатковий рівень невизначеності, який сам по собі потребує критичної оцінки.

Як змінюється робота судового експерта

Усе зазначене призводить до трансформації предмета дослідження лінгвістичної експертизи. Якщо раніше експерт відповідав на питання «чи належить текст конкретній особі», то сьогодні коректніше ставити питання інакше: яким чином був створений цей текст і хто впливав на його формування. Лінійна модель «автор – текст» більше не працює. Її замінює складна конструкція, у якій текст може бути результатом взаємодії людини і мовної моделі на кількох етапах.

Ця зміна трансформує і підхід до формулювання висновків. Категоричні твердження про авторство поступово втрачають обґрунтованість. Натомість експерт має описувати ступінь відповідності, вказувати на альтернативні пояснення і прямо фіксувати обмеження застосованих методів. Особливого значення набуває пояснюваність: суд має розуміти, яким чином отримано висновок, які фактори могли вплинути на результат і де проходять межі достовірності такого висновку.

Ключовий висновок для практики

Поява великих мовних моделей не зробила лінгвістичну експертизу менш потрібною, але суттєво ускладнила її. Ідіолект більше не є стабільною основою аналізу, стилістична подібність не гарантує авторства, а інструменти детекції штучного інтелекту не можуть виконувати роль самостійного доказу.

У нових умовах експерт фактично переходить від встановлення автора до реконструкції процесу створення тексту. Ігнорування цієї трансформації означає відмову від адекватного використання спеціальних знань. І навпаки — визнання цієї зміни є необхідною передумовою того, щоб лінгвістична експертиза зберегла доказове значення в сучасному процесі.

Ця публікація є адаптованим викладом ідей дослідження "Large Language Models and the Challenges of Forensic Linguistics", опублікованого на платформі arXiv (2025)

Трансформація лінгвістичної експертизи у добу LLM

Advanced settings