fbpx

Mik azok a nagy nyelvi modelek (LLM)?


A nagy nyelvi modellek (Large Language Models, LLMs) a mesterséges intelligencia (AI) és a természetes nyelvfeldolgozás (NLP) legújabb fejlesztéseinek köszönhetően jöttek létre. Ezek a modellek hatalmas adathalmazokon edződnek, így képesek emberi nyelven érthető szövegeket generálni, összefoglalni, fordítani és még sok más feladatot ellátni.

Az LLM-ek alapja a transformer architektúra, ami egy technikai kifejezés az „agy” szerkezetére. Ez azért fontos, mert ez azt jelenti, hogy egyszerre minden szót olvasnak, és ez segít nekik megérteni a kontextust. Szerencsére ez azt is jelenti, hogy ezek a modern LLMs nagyon jól emlékeznek szinte minden információra, de a legjobban a bekezdések elején és végén emlékeznek, és néha elfelejtenek néhány információt a hosszabb szövegek közepén.

Ez a technológia igazán sokoldalú: egy modell képes lehet válaszolni a kérdéseidre, összefoglalni hosszú dokumentumokat, fordítani különböző nyelvekre, vagy akár mondatokat befejezni. Az LLM-ek forradalmasíthatják a tartalomgyártást és az emberek keresőmotorokkal vagy digitális asszisztensekkel való kapcsolatát.

Kisvállalkozóként ezek a modellek új utakat nyithatnak előtted az ügyfélkapcsolatok, a tartalomgyártás és az ügyfélszolgálat terén. Automatizálhatod az ismétlődő feladatokat, javíthatod a vevőszolgálatod minőségét, és gyorsabban alkalmazkodhatsz a piaci változásokhoz.

Viszont, amikor ezeket a modelleket használod, fontos figyelni az adatvédelemre és az etikai kérdésekre is, különösen, ha személyes vagy érzékeny adatokról van szó. Ügyelned kell arra, hogy a gépek által generált tartalom pontos és releváns legyen, és hogy az AI döntései átláthatóak és etikusak maradjanak.

Összességében, a nagy nyelvi modellek izgalmas lehetőségeket kínálnak a kisvállalkozásoknak a kommunikáció és ügyfélkapcsolatok területén. Ahogy ezek a technológiák fejlődnek, egyre nagyobb hatással lesznek a digitális világunkra, lehetővé téve a vállalkozások számára, hogy hatékonyabban kommunikáljanak ügyfeleikkel és javítsák a szolgáltatásaik minőségét.

Nagy Nyelvi Modellek története

A 2017-es NeurIPS konferencián a Google kutatói bemutatták a transzformer architektúrát „Attention Is All You Need” című mérföldkőnek számító tanulmányukban. A tanulmány célja az volt, hogy javítsák a 2014-es Seq2seq technológiát, és főként a Bahdanau et al. által 2014-ben kifejlesztett figyelem mechanizmusra épült. A következő évben, 2018-ban, bemutatták a BERT-et, amely gyorsan „ubiquitous” vált. Bár az eredeti transzformernek van kódoló és dekódoló blokkja is, a BERT egy kizárólag kódoló modellt használ.

Bár a kizárólag dekódoló GPT-1-et 2018-ban mutatták be, a 2019-es GPT-2 kapta meg a széles körű figyelmet, mert az OpenAI először túl erősnek ítélte ahhoz, hogy nyilvánosan megjelenjen, tartva a rosszindulatú felhasználástól. A 2020-as GPT-3 egy lépéssel tovább ment, és 2024-től csak API-n keresztül érhető el, anélkül, hogy a modellt letölthetnék és helyben futtathatnák. Azonban a 2022-es, fogyasztók számára elérhető böngészőalapú ChatGPT volt az, amely megragadta a nagyközönség képzeletét, és némi médiafelhajtást és online szenzációt keltett. A 2023-as GPT-4-et a megnövelt pontosságáért és multimodális képességei miatt „szent grálnak” nevezték. Az OpenAI nem árulta el a GPT-4 magas szintű architektúráját és a paraméterek számát.

A versengő nyelvi modellek többnyire arra törekedtek, hogy egyenrangúak legyenek a GPT sorozattal, legalábbis a paraméterek számát tekintve.

2022 óta a forrásnyitott modellek egyre népszerűbbé váltak, különösen eleinte a BLOOM és a LLaMA révén, bár mindkettő korlátozásokkal rendelkezik a felhasználási területeken. A Mistral AI modelljei, a Mistral 7B és a Mixtral 8x7b, megengedőbb Apache License alatt állnak. 2024 januárjától a Mixtral 8x7b a legnagyobb teljesítményű nyílt LLM a LMSYS Chatbot Arena Leaderboard szerint, amely erősebb, mint a GPT-3.5, de nem olyan erős, mint a GPT-4.

 

  • Ajánlat

    Ajánlat

AI Gyorstalpaló

Alapoktól -> a haladó szintig.

Most 50% kedvezménnyel!

Lista:

Név Kiadás dátuma Fejlesztő Paraméterek száma (milliárd) Korpusz mérete Tréning költség (petaFLOP-nap) Licenc Megjegyzések
GPT-1 2018. június OpenAI 0.117   1 MIT Az első GPT modell, csak dekóderes transzformer. 30 napig edzették 8 P600 GPU-n.
BERT 2018. október Google 0.340 3.3 milliárd szó 9 Apache 2.0 Korai és befolyásos nyelvi modell, de csak kódoló és nem promptolható vagy generatív.
T5 2019. október Google 11 34 milliárd token   Apache 2.0 Alapmodell számos Google projekthez, mint például az Imagen.
XLNet 2019. június Google ~0.340 33 milliárd szó   Apache 2.0 Alternatíva a BERT-hez; csak kódolóként lett tervezve.
GPT-2 2019. február OpenAI 1.5 40GB (~10 milliárd token)   MIT Általános célú modell, transzformer architektúrára építve.
GPT-3 2020. május OpenAI 175 300 milliárd token 3640 Szabadalmazott A GPT-3 finomhangolt változata, GPT-3.5 néven 2022-ben vált elérhetővé a nagyközönség számára egy webes felületen, a ChatGPT-n keresztül.
GPT-Neo 2021. március EleutherAI 2.7 825 GiB   MIT Az első ingyenes GPT-3 alternatíva az EleutherAI-tól. A GPT-Neo néhány benchmarkon felülmúlta az ekvivalens méretű GPT-3 modellt, de jelentősen rosszabb volt, mint a legnagyobb GPT-3.
GPT-J 2021. június EleutherAI 6 825 GiB 200 Apache 2.0 GPT-3 stílusú nyelvi modell.
Megatron-Turing NLG 2021. október Microsoft és Nvidia 530 338.6 milliárd token   Korlátozott webes hozzáférés Standard architektúra, de szuperszámítógépes klaszteren edzve.
Ernie 3.0 Titan 2021. december Baidu 260 4 TB   Szabadalmazott Kínai nyelvű LLM. Az Ernie Bot erre a modellre épül.
Claude 2021. december Anthropic 52 400 milliárd token   béta Finomhangolt a kívánt viselkedéshez a beszélgetésekben.
GLaM (Generalist Language Model) 2021. december Google 1200 1.6 billió token 5600 Szabadalmazott Ritkás szakértői keverék modell, amely drágább az edzéshez, de olcsóbb a futtatáskor a GPT-3-hoz képest.
Gopher 2021. december DeepMind 280 300 milliárd token 5833 Szabadalmazott Továbbfejlesztették a Chinchilla modellé.
LaMDA (Language Models for Dialog Applications) 2022. január Google 137 1.56T szó, 168 milliárd token 4110 Szabadalmazott Specializálódott a válasz generálására beszélgetésekben.
GPT-NeoX 2022. február EleutherAI 20 825 GiB 740 Apache 2.0 A Megatron architektúrán alapul.
Chinchilla 2022. március DeepMind 70 1.4 billió token 6805 Szabadalmazott Csökkentett paraméterű modell, több adatra edzve. A Sparrow botban használják. Gyakran idézik az idegi skálázási törvény miatt.
PaLM (Pathways Language Model) 2022. április Google 540 768 milliárd token 29250 Szabadalmazott ~60 napig edzették ~6000 TPU v4 chipeken.
OPT (Open Pretrained Transformer) 2022. május Meta AI 175 180B 147 MIT A GPT-3 ekvivalens nyílt forráskódú replikációja.
BLOOM 2022. július BigScience 176 1.6T token 1667 RAIL Multinyelvű modell, közösségi adatforrásokból edzve, sokkal alacsonyabb ökológiai lábnyommal.
GLM-130B 2022. október Tsinghua University és Zhipu.AI 130 400B 309 Apache 2.0 Alkalmazható kínai és angol nyelven is.
Claude 1 2022. március Anthropic 52 450B   Szabadalmazott Antropikus szabályok betartásával készült.
ChatGPT-3.5 2022. november OpenAI 175 570B 9900 Szabadalmazott A GPT-3-ra épül, különösen a ChatGPT chatbotra finomhangolt.
Galactica 2022. november Meta AI 120 106B 1945 CC BY-NC 4.0 Az LLM-ek tudományos alkalmazására koncentrál.
Gemini 1 2023. január Google 540 570B   Szabadalmazott Multimodális, többnyelvű modell, több funkcióval.
Gemini 1.5 2024. február Google Ismeretlen Ismeretlen Ismeretlen Szabadalmazott Multimodális modell, a Szakértői Keverék (MoE) architektúrán alapul. A kontextusablak 1 millió tokenre nőtt, bár csak 128k lesz elérhető a fejlesztők számára.
Gemma 2024. február Google DeepMind 7 6T token Ismeretlen Apache 2.0  
Claude 3 2024. március Anthropic Ismeretlen Ismeretlen Ismeretlen Szabadalmazott Három modell, Haiku, Sonnet és Opus.
DBRX 2024. március Databricks és Mosaic ML 136 12T token Ismeretlen Databricks Open Model License Az edzés költsége 10 millió USD.
Fugaku-LLM 2024. május Fujitsu, Tokyo Institute of Technology, stb. 13 380B token Ismeretlen   A legnagyobb modell, amelyet csak CPU-kon edzettek, a Fugakun.
Llama 3 2024. április Meta AI 70 15T token Ismeretlen Llama 3 licenc  

A tréning költség oszlophoz: 1 petaFLOP-nap = 1 petaFLOP/mp × 1 nap = 8.64E19 FLOP.

Ajánlott olvasmányok a témához:

“Regenerate” funkció mire jó?

Hogyan írj jó promptot?

Milyen módszerekkel lehet javítani a válaszok minőségét?

Források:

en.wikipedia.org

Téged is érdekel a mesterséges intelligencia?

Csatlakozz exkluzív AI közösségünkhöz!

  • Kérdezz bátran: Tedd fel kérdéseidet közvetlenül AI szakértőinknek, és kapj személyre szabott válaszokat.
  • Legyél az elsők között: Elsőként értesülhetsz a legfrissebb AI trendekről és fejlesztésekről.
  • Osztd meg tapasztalataidat: Beszélgess más érdeklődőkkel, és tanuljatok egymástól.

Regisztálok most ingyen>>

Bejelentkezés

Nem vagy még tag? Kattints ide a regisztrációhoz!