Co je zpracování přirozeného jazyka a jak funguje?

Zpracování přirozeného jazyka umožňuje počítačům dekódovat to, co říkáme, a převést to na instrukce, které mohou vykonat. Objevte, jak funguje tento mechanismus a jak se uplatňuje ke zlepšení kvality našeho života.

Co je to zpracování přirozeného jazyka?

Ať už jde o Alexu, Siri, Google Assistenta, Bixby nebo Cortanu, téměř každý majitel chytrého telefonu nebo reproduktoru dnes využívá hlasového asistenta. Zdá se, že tito hlasoví asistenti se každý rok zlepšují v tom, jak rozumí našim požadavkům a jak je plní. Napadlo vás někdy, jak tito asistenti zpracovávají to, co jim sdělujeme? Děje se to díky zpracování přirozeného jazyka, neboli NLP.

V minulosti reagoval software jen na přesně dané sady příkazů. Soubor se otevřel po kliknutí na "Otevřít" nebo tabulka spočítala vzorec na základě specifických symbolů a názvů vzorců. Program komunikoval prostřednictvím programovacího jazyka, ve kterém byl vytvořen, a generoval výstup po obdržení rozpoznatelného vstupu. V tomto pojetí slova fungovala jako soubor mechanických pák, které vždy poskytovaly očekávaný výsledek.

To je však v kontrastu s lidskými jazyky, které jsou komplexní, neuspořádané a jejichž význam se odvíjí od struktury věty, tónu, akcentu, načasování, interpunkce a kontextu. Zpracování přirozeného jazyka je obor umělé inteligence, který se snaží překlenout propast mezi tím, co stroj rozpoznává jako vstup, a lidským jazykem. Jeho cílem je, aby stroj generoval výstup odpovídající tomu, co říkáme nebo píšeme přirozeným způsobem.

Tohoto je docíleno analýzou ohromného množství datových bodů, které pomáhají odvodit význam z různých elementů lidské řeči, nejen z významu samotných slov. Tento postup je úzce spjat s konceptem strojového učení, které umožňuje počítačům zdokonalovat se s každým dalším bodem dat. Proto se zdá, že většina nástrojů pro zpracování přirozeného jazyka, s nimiž běžně interagujeme, se s časem zlepšuje.

Pro lepší ilustraci si představme dvě klíčové techniky používané v NLP pro zpracování jazyka a informací.

Tokenizace

Tokenizace je proces rozdělování řeči na jednotlivá slova nebo věty. Každá část textu se nazývá token a tyto tokeny se analyzují během zpracování vašeho projevu. Zdá se to být jednoduché, ale ve skutečnosti je to komplexní proces.

Předpokládejme, že pro odeslání zprávy příteli používáte software pro převod řeči na text, jako je například klávesnice Google. Chcete poslat zprávu: „Setkáme se v parku.“ Když váš telefon nahrává a zpracovává tento vstup prostřednictvím algoritmu převodu řeči na text Google, musí Google rozdělit to, co jste právě řekli, na tokeny. Tyto tokeny by byly "setkat", "se", "v", "parku".

Lidé dělají různě dlouhé pauzy mezi slovy a v některých jazycích mohou být slyšitelné pauzy mezi slovy minimální. Proces tokenizace se v závislosti na jazyku a dialektu výrazně liší.

Stemming a lemmatizace

Stemming a lemmatizace se týkají procesu odstraňování přípon a variací z kořenového slova, které stroj dokáže rozpoznat. To se provádí za účelem zajištění konzistence interpretace řeči v různých slovech, která mají v podstatě stejný význam, což urychluje zpracování NLP.

Stemming je hrubý a rychlý proces, který zahrnuje odstraňování přípon z kořenového slova, tedy dodatků ke slovu připojených před nebo za kořenem. Tím se slovo převede do nejzákladnější formy prostým odstraněním písmen. Například:

„Chůze“ se změní na „chůz“
„Rychlejší“ se změní na „rychl“
„Závažnost“ se změní na „závažn“

Jak je vidět, stemming může negativně ovlivnit celkový význam slova. „Závažnost“ a „sever“ nemají stejný význam, ale přípona „ost“ byla v rámci stemmingu odstraněna.

Lemmatizace je naopak sofistikovanější proces, který redukuje slovo na jeho základní formu, známou jako lemma. Zohledňuje se kontext slova a jeho použití ve větě. Zahrnuje také vyhledání termínu v databázi slov a jeho příslušného lemmatu. Například:

„Jsou“ se změní na „být“
„Provozování“ se změní na „provozovat“
„Závažnost“ se změní na „závažný“

V tomto příkladu se lemmatizaci podařilo změnit výraz „závažnost“ na „závažný“, což je jeho lemmatická a kořenová forma.

Příklady použití NLP a budoucnost

Uvedené příklady jsou jen zlomkem toho, co obnáší zpracování přirozeného jazyka. Zahrnuje širokou škálu postupů a scénářů použití, z nichž mnohé používáme v našem každodenním životě. Zde je několik příkladů, kde se NLP v současnosti uplatňuje:

Prediktivní text: Když píšete zprávu na smartphonu, automaticky se navrhují slova, která zapadají do věty, nebo slova, která jste již použili.
Strojový překlad: Běžně dostupné překladatelské služby jako Google Translate využívají sofistikované NLP k analýze jazyka a jeho překladu.
Chatboti: NLP je základem inteligentních chatbotů, zejména v oblasti zákaznické podpory, kde mohou pomáhat zákazníkům a řešit jejich požadavky ještě před tím, než se dostanou ke skutečné osobě.

A to není vše. Využití NLP se aktuálně rozšiřuje a implementuje v odvětvích, jako jsou zpravodajská média, medicínské technologie, řízení pracovišť a finance. Je možné, že v budoucnosti budeme moci vést plnohodnotné sofistikované rozhovory s roboty.

Pokud se chcete o NLP dozvědět více, na internetu je k dispozici mnoho skvělých zdrojů, jako je blog Towards Data Science nebo Skupina zpracování přirozeného jazyka ze Stanfordu.