Хто написав текст? Людина? GPT? Вчимося відрізняти

Вступ

З моменту появи доступного штучного інтелекту (надалі ШІ) на базі GPT-3 (Generative Pre-trained Transformer) дедалі гостріше постає питання: а як відрізнити, чи текст написав ШІ, чи людина?

Для чого мені це вміти?

Розпізнання текстів, створених GPT, вбереже від плагіату, фейкових новин, окремих маніпуляцій та інших видів дезінформації. Тож виходить, що вдосконалювати навички розрізнення текстів доволі важливо.

Загальні міркування

Розрізнення тексту, створеного GPT та людиною, завдання непросте. Чи можна на всі сто відсотків бути певним, що вірно визначив, людина написала текст чи ШІ? Мабуть, ні. Тим не менше, текст, написаний чатом GPT-3, має певні ознаки. Врахувавши їх, Ви здувуєтесь, наскільки часто кидається в очі текст, написаний штучним інтелектом.

Насправді ознак куди більше, ніж тут описано. Однак в одному дописі їх описати малореально. Я наведу лиш три риси, котрі найбільше кидаються в очі.

Три характерні ознаки:

1) Характерні заголовки;
2) Точно вказана модальність висловлювань (тез);
3) Відсутність суб'єктивності (відсутність власної позиції).

Для роботи провів експеримент, поставивши ШІ серію питань та попросивши написати декілька текстів. Результати навів в дописі як приклади характерних ознак роботи ШІ.

Ключові слова та моменти виділив шрифтом bold, а приклади відповіде ШІ - курсивом.

Огляд трьох характерних ознак текстів чату GPT-3

Характерні заголовки

Чат GPT на прохання створити заголовок зазвичай видає результат з двох частин, розділених двокрапкою. Основні частини мови зазвичай вживаються з вел икої літери.
Наведу приклад. Для досліду я задав ШІ питання: 'Згенеруй 5 інтригуючих заголовків для статті на тему 'Як відрізнити текст, написаний чатом GPT, від тексту, написаного людиною''.

Відповідь ШІ:

Звісно, ось п'ять цікавих заголовків для статті на дану тему:
1. "Битва Розуміння: Відмінності між Текстом, Створеним Штучним Інтелектом та Людиною"
2. "Аналіз Текстів: Як Розпізнати GPT-Згенерований Контент у Світі Інтернету"
3. "Чатботи vs. Люди: Як Впізнати, Хто Завжди Говорить Правду"
4. "Мистецтво Розрізнення: Поради для Того, Хто Хоче Розуміти, Хто Пише Текст"
5. "Діалоги З Майбутнього: Як Впізнати Сучасні Завдання З Розрізнення Тексту від AI та Людини"

Точно вказана модальність висловлювань (тез)

Нагадую, теза - це висловлювання, котре щось стверджує чи заперечує. Наприклад, словосполучення 'цей автомобіль зелений' є тезою, а словосполучення 'зелений автомобіль' - ні; висловлювання 'каратист наніс удар' - теза, а словосполучення 'нанесення удару' - ні.

Детальніше про тези писав тут: buki.com.ua/blogs/teza-ta-yiyi-rol-abo-ci-tak-vse-zrozumilo/ , а про їх аналіз - тут: buki.com.ua/blogs/ngppr-metodika-analizu-materialu-iogo-povtorennya-ta-pidgotovki-do-ispitiv/ Кого цікавить, ласкаво прошу.

Модальність тези вказує на ставлення до неї автора. Критично важлива в академічному стилі, де точність висловлювань та вимоги до доказів грають важливу роль.
Визначити модальність тези - це визначити, наскільки автор вважає свою тезу достовірною, важливою, ймовірною, дуже ймовірною, можливою чи неможливою. Наприклад, до тези 'Дипломи українських ВНЗ не приймають за кордоном' слід додати модальну характеристику: 'ймовірно', 'згідно загальноприйнятої думки', 'як правило', 'точно', 'можливо' і т.п.

І тут ми натрапляємо на певну відмінність між текстом людини та текстом ШІ. Серед людей вкрай рідко виникає бажання вивчати вищевказану різницю між висловлюваннями (різницю ступенів модальності), особливо якщо річ йде про ступінь ймовірності чи достовірності думки. Більшість людей приймає думку, якщо вона здається правильною, або відкидає, якщо вона здається помилковою, не розглядаючи інших можливостей; вірніше, вони просто не задумуються над цими 'дрібницями'.
Як наслідок, в тексті, написаному людиною, модальна ступінь не вказується в переважній більшості речень.

І навпаки, чат GPT-3 дуже тонко проявляє ступені модальності. Зовнішній прояв - майже в кожному твердженні є слова або словосполучення на зразок 'часто', 'ймовірно', 'зазвичай', 'не завжди' 'можуть призвести', 'може бути', 'можуть спростити', 'можуть використовувати' та ін.

Звісно, модальні ступені зустрічаються і в людському тексті; проте текст ШІ ними перенисичений. Кількість словосполучень на кшалт вищевказаних кидається в очі. Вони зустрічаються куди частіше, ніж в мові людини.

Приклад. ШІ написав твердження: 'Розрізнення тексту, створеного GPT, від тексту, написаного людиною, може бути складним завданням'. Я б написав його так: 'Розрізнити тексти, написані GPT та людиною, - непросте завдання'.

Відсутність суб'єктивності (відсутність власної позиції)

Якщо пояснювати простими словами, то у всіх науках (крім граматики) суб'єкт - це хтось чи щось, що має власну волю. Інакше кажучи, фірма може укласти контракт, а може не укласти; дитина може заплакати, а може засміятись; чоловік може вирішити повірити в Бого, а може не вирішити. Цю здатність мати свою власну позицію та робити вибір згідньо нього в філософії називають суб'єктністю.

Звідси випливає, що текст, написаний людиною, майже завжди відображає її позицію. Ця риса тексту (здатність відображати позицію автора) зветься суб'єктивністю. Це не є чимсь поганим; суб'єктивність зовсім необов'язково призводить до помилковості.

Зовсім інша ситуація з чатом GPT-3. Він не має власної позиції. Його тексти не є суб'єктивними. Щоб переконатись в цьому, найпростіше задати яке-небуть неоднозначне філософське, релігійне або моральне питання (в них позиція автора відіграє найбільшу роль). Людина спробує виразити свою думку та відповісти на питання; ШІ замість цього напише, що на питання немає однозначної відповіді, проте їснують такі-то погляди.

Приклад такого питання - 'Чи аборт є гріхом?'. Максимально неоднозначне, полярні погляди в різних людей, майже кожна людина має власну позицію з цього приводу. Його й задав. Відповідь чату GPT (цитую з купюрами, позначеними трьома крапками):

'Питання ... залежить від переконань ... конкретної релігійної та етичної традиції. Різні релігії та етичні системи можуть мати різні точки зору на цю тему... '. Далі подається список релігій та їх поглядів, і висновок: 'Отже, відповідь на запитання, чи є аборт гріхом, залежить від конкретного релігійного чи етичного переконання. Люди різних віровчень можуть мати різні точки зору на цю складну моральну проблему'.

Висновки

На даний момент (вересень 2023 року) відрізнити текст, написаний чатом GPT-3, від тексту, написанього людиною, цілком можливо (хоча і непросто). Існує чимало рис, притаманних саме ШІ. В цьому дописі я розглянув три з них, а саме: Характерні заголовки, точно вказана модальність висловлювань (тез) відсутність суб'єктивності (відсутність власної позиції).

Якщо в тексті використовується заголовок на зразок 'Частина Один: Частина Два', всі твердження містять модальні ступені (слова на зразок 'ймовірно', 'згідно загальноприйнятої думки', 'як правило', 'точно', 'можливо' і т.п.), а замість позиції з спірного питання в тексті вказується, щось на кшалт того, що вона 'може залежати від багатьох факторів, в тому числі від конкретного релігійного чи етичного переконання', то виникає дуже сильна підозра, що автор тексту - ШІ.

Джерела:

1) GPT-3 Documentation. OpenAI, 2020
2) Искусство спора. О теории и практике спора' - С. И. Поварнин