Új algoritmust vezetett be a Google – Jön a BERT

A Google folyamatosan finomhangolja algoritmusát, hogy minél relevánsabb találatokkal szolgálja ki a webet. Egy ilyen algoritmusfrissítés történt 2019. október 25.-én is, amikor bemutatták a BERT algoritmust.

Megjelent: 2019. december 5. csütörtök

A BERT a keresőóriás szerint az utóbbi 5 év legnagyobb előrelépése a Rankbrain óta. A frissítés Amerikában 10-ből 1 keresési találatot érint, és bár Magyarországon egyelőre még nem érhető el, fontos tisztában lenni vele.

Mi az a BERT, és miért van rá szükség?

A BERT nem más, mint a Google neurális hálózaton alapuló modellje, melynek célja a természetes nyelv feldolgozása. Az algoritmus az angol Bidirectional Encoder Representations from Transformers kifejezés rövidítése. Az új frissítés alapjaiban formálja át a Google-ben látott keresési találatokat, és jelentős hatása van a keresőoptimalizálással foglalkozó marketingesek munkájára is.

Nem más a keresőmotorok célja, minthogy a lehető legjobban tudják kiszolgálni a keresési szándékot. Ehhez elengedhetetlen, hogy felismerjék a felhasználó keresése mögötti információigényt, melyhez a legjobb eszköz a konkrét szavak értelmezése. Ez eddig ismerősen hangzik, hiszen a Google eddig is a szavak alapján adta vissza a találatokat. Akkor mi változott?

Míg korábban a szavakat egyesével elemezték a keresőrobotok, a BERT-nek köszönhetően ez már a kontextus vizsgálatával történik meg. Gondoljunk csak arra, milyen komplex például a magyar nyelv: rengeteg kötőszót és ragot használunk nap mint nap, melyek adott esetben teljesen módosíthatják a kifejezés jelentését. Nem mindegy, hogy valami felé vagy valamitől el szeretnénk utazni, ahogyan az sem lényegtelen, hogy valamiről vagy valakitől szeretnénk olvasni.

Míg az esetleges elgépeléseket az esetek túlnyomó részében már hosszú ideje helyesen ismeri fel a Google és felajánlja a megfelelő alakot, addig a szabad beszédhez hasonló szófordulatok értelmezésével még bőven vannak hiányosságok. Nem véletlen, hogy átszoktunk a kulcsszó-alapú keresésre, azaz egy kérdés feltétele helyett általában inkább néhány főnevet írunk egymás után.

Jellemző jelenség, hogy ahelyett, hogy “mikor indul a vonat Bécsbe” azt írjuk be a keresőmezőbe, hogy “bécs vonat menetrend”. Érezhetjük, hogy a második verzió nagyon távol áll a természetes beszédtől, mégis túlnyomórészt ezt választjuk remélve, hogy így pontosabb találatokat kaphatunk. Pontosan emiatt lett létrehozva a BERT algoritmusa.

Hogyan működik az algoritmus?

Ahogy azt már említettük, a BERT rövidítés tartalmazza a bidirectional, azaz kétoldalú szót. Ez a gyakolatban azt jelenti, hogy az algoritmus megvizsgálja a kifejezésben az előtte és utána található szavakat is, ezzel megértve a kontextust. A mesterséges intelligencia mindehhez a Wikipedia szócikkeinek elemzését használta fel az úgynevezett masking, azaz álcázás taktika alkalmazásának segítségével.

Az volt az algoritmus feladata, hogy egy szó kitakarásával, pusztán a kifejezés kontextusából jósolja meg a lefedett szót. Például abból, hogy “bevertem a [_] a plafonba” kitalálja a modell, hogy a kitakart szó a fejem.

Mindez azt eredményezi, hogy még pontosabb keresési eredményeket kapunk. Erre a Google hoz is egy látványos angol nyelvű példát: ha azt írjuk be a keresőbe, hogy “2019 brazil traveler to usa need a visa”, akkor a BERT algoritmusfrissítés előtt merőben eltérő találatokat láttunk volna, mint amikkel jelenleg találkozhatunk.

Tudjuk, hogy az angol nyelv megértésében rendkívül nagy jelentősége van az elöljárószavaknak, jelen esetben a “to”-nak. A fenti kifejezés arról szól, hogy brazilok utaznának Amerikába, nem pedig fordítva. 2019. október 25. előtt az algoritmus nem tulajdonított volna jelentőséget az elöljárószónak, ezért a keresési eredmények arról szóltak volna, hogy mit kell tudniuk a Brazíliába utazó amerikaiaknak a vízumról. Szerencsére a BERT óta a Google képes értelmezni a kifejezés teljes egészét, ezért megérti, hogy a “to”-nak kiemelt szerepe van a jelentés értelmezésében. Ennek következtében a konkrét keresési találatok is merőben más találatokat adnak vissza a frissítés óta.

Helpfile-minden ami informatika

Keresés ebben a blogban

DOTKOMÚj algoritmust vezetett be a Google – Jön a BERT

DOTKOM

Új algoritmust vezetett be a Google – Jön a BERT

Mi az a BERT, és miért van rá szükség?

Hogyan működik az algoritmus?

Címkék

Megjegyzések

Megjegyzés küldése

Népszerű bejegyzések ezen a blogon

Az IT és információbiztonsági szakma tetoválásainak jelentésmorfológiája

Mesterséges intelligencia startupot vett a Nike

Sziszifuszi robotok és túlontúl menő házak az IKEA központjában