A nagy nyelvi modellek (Large Language Models, LLMs) a mesterséges intelligencia (AI) és a természetes nyelvfeldolgozás (NLP) legújabb fejlesztéseinek köszönhetően jöttek létre. Ezek a modellek hatalmas adathalmazokon edződnek, így képesek emberi nyelven érthető szövegeket generálni, összefoglalni, fordítani és még sok más feladatot ellátni.
Az LLM-ek alapja a transformer architektúra, ami egy technikai kifejezés az „agy” szerkezetére. Ez azért fontos, mert ez azt jelenti, hogy egyszerre minden szót olvasnak, és ez segít nekik megérteni a kontextust. Szerencsére ez azt is jelenti, hogy ezek a modern LLMs nagyon jól emlékeznek szinte minden információra, de a legjobban a bekezdések elején és végén emlékeznek, és néha elfelejtenek néhány információt a hosszabb szövegek közepén.
Ez a technológia igazán sokoldalú: egy modell képes lehet válaszolni a kérdéseidre, összefoglalni hosszú dokumentumokat, fordítani különböző nyelvekre, vagy akár mondatokat befejezni. Az LLM-ek forradalmasíthatják a tartalomgyártást és az emberek keresőmotorokkal vagy digitális asszisztensekkel való kapcsolatát.
Kisvállalkozóként ezek a modellek új utakat nyithatnak előtted az ügyfélkapcsolatok, a tartalomgyártás és az ügyfélszolgálat terén. Automatizálhatod az ismétlődő feladatokat, javíthatod a vevőszolgálatod minőségét, és gyorsabban alkalmazkodhatsz a piaci változásokhoz.
Viszont, amikor ezeket a modelleket használod, fontos figyelni az adatvédelemre és az etikai kérdésekre is, különösen, ha személyes vagy érzékeny adatokról van szó. Ügyelned kell arra, hogy a gépek által generált tartalom pontos és releváns legyen, és hogy az AI döntései átláthatóak és etikusak maradjanak.
Összességében, a nagy nyelvi modellek izgalmas lehetőségeket kínálnak a kisvállalkozásoknak a kommunikáció és ügyfélkapcsolatok területén. Ahogy ezek a technológiák fejlődnek, egyre nagyobb hatással lesznek a digitális világunkra, lehetővé téve a vállalkozások számára, hogy hatékonyabban kommunikáljanak ügyfeleikkel és javítsák a szolgáltatásaik minőségét.
Nagy Nyelvi Modellek története
A 2017-es NeurIPS konferencián a Google kutatói bemutatták a transzformer architektúrát „Attention Is All You Need” című mérföldkőnek számító tanulmányukban. A tanulmány célja az volt, hogy javítsák a 2014-es Seq2seq technológiát, és főként a Bahdanau et al. által 2014-ben kifejlesztett figyelem mechanizmusra épült. A következő évben, 2018-ban, bemutatták a BERT-et, amely gyorsan „ubiquitous” vált. Bár az eredeti transzformernek van kódoló és dekódoló blokkja is, a BERT egy kizárólag kódoló modellt használ.
Bár a kizárólag dekódoló GPT-1-et 2018-ban mutatták be, a 2019-es GPT-2 kapta meg a széles körű figyelmet, mert az OpenAI először túl erősnek ítélte ahhoz, hogy nyilvánosan megjelenjen, tartva a rosszindulatú felhasználástól. A 2020-as GPT-3 egy lépéssel tovább ment, és 2024-től csak API-n keresztül érhető el, anélkül, hogy a modellt letölthetnék és helyben futtathatnák. Azonban a 2022-es, fogyasztók számára elérhető böngészőalapú ChatGPT volt az, amely megragadta a nagyközönség képzeletét, és némi médiafelhajtást és online szenzációt keltett. A 2023-as GPT-4-et a megnövelt pontosságáért és multimodális képességei miatt „szent grálnak” nevezték. Az OpenAI nem árulta el a GPT-4 magas szintű architektúráját és a paraméterek számát.
A versengő nyelvi modellek többnyire arra törekedtek, hogy egyenrangúak legyenek a GPT sorozattal, legalábbis a paraméterek számát tekintve.
2022 óta a forrásnyitott modellek egyre népszerűbbé váltak, különösen eleinte a BLOOM és a LLaMA révén, bár mindkettő korlátozásokkal rendelkezik a felhasználási területeken. A Mistral AI modelljei, a Mistral 7B és a Mixtral 8x7b, megengedőbb Apache License alatt állnak. 2024 januárjától a Mixtral 8x7b a legnagyobb teljesítményű nyílt LLM a LMSYS Chatbot Arena Leaderboard szerint, amely erősebb, mint a GPT-3.5, de nem olyan erős, mint a GPT-4.
-
Ajánlat
Lista:
Név | Kiadás dátuma | Fejlesztő | Paraméterek száma (milliárd) | Korpusz mérete | Tréning költség (petaFLOP-nap) | Licenc | Megjegyzések |
---|---|---|---|---|---|---|---|
GPT-1 | 2018. június | OpenAI | 0.117 | 1 | MIT | Az első GPT modell, csak dekóderes transzformer. 30 napig edzették 8 P600 GPU-n. | |
BERT | 2018. október | 0.340 | 3.3 milliárd szó | 9 | Apache 2.0 | Korai és befolyásos nyelvi modell, de csak kódoló és nem promptolható vagy generatív. | |
T5 | 2019. október | 11 | 34 milliárd token | Apache 2.0 | Alapmodell számos Google projekthez, mint például az Imagen. | ||
XLNet | 2019. június | ~0.340 | 33 milliárd szó | Apache 2.0 | Alternatíva a BERT-hez; csak kódolóként lett tervezve. | ||
GPT-2 | 2019. február | OpenAI | 1.5 | 40GB (~10 milliárd token) | MIT | Általános célú modell, transzformer architektúrára építve. | |
GPT-3 | 2020. május | OpenAI | 175 | 300 milliárd token | 3640 | Szabadalmazott | A GPT-3 finomhangolt változata, GPT-3.5 néven 2022-ben vált elérhetővé a nagyközönség számára egy webes felületen, a ChatGPT-n keresztül. |
GPT-Neo | 2021. március | EleutherAI | 2.7 | 825 GiB | MIT | Az első ingyenes GPT-3 alternatíva az EleutherAI-tól. A GPT-Neo néhány benchmarkon felülmúlta az ekvivalens méretű GPT-3 modellt, de jelentősen rosszabb volt, mint a legnagyobb GPT-3. | |
GPT-J | 2021. június | EleutherAI | 6 | 825 GiB | 200 | Apache 2.0 | GPT-3 stílusú nyelvi modell. |
Megatron-Turing NLG | 2021. október | Microsoft és Nvidia | 530 | 338.6 milliárd token | Korlátozott webes hozzáférés | Standard architektúra, de szuperszámítógépes klaszteren edzve. | |
Ernie 3.0 Titan | 2021. december | Baidu | 260 | 4 TB | Szabadalmazott | Kínai nyelvű LLM. Az Ernie Bot erre a modellre épül. | |
Claude | 2021. december | Anthropic | 52 | 400 milliárd token | béta | Finomhangolt a kívánt viselkedéshez a beszélgetésekben. | |
GLaM (Generalist Language Model) | 2021. december | 1200 | 1.6 billió token | 5600 | Szabadalmazott | Ritkás szakértői keverék modell, amely drágább az edzéshez, de olcsóbb a futtatáskor a GPT-3-hoz képest. | |
Gopher | 2021. december | DeepMind | 280 | 300 milliárd token | 5833 | Szabadalmazott | Továbbfejlesztették a Chinchilla modellé. |
LaMDA (Language Models for Dialog Applications) | 2022. január | 137 | 1.56T szó, 168 milliárd token | 4110 | Szabadalmazott | Specializálódott a válasz generálására beszélgetésekben. | |
GPT-NeoX | 2022. február | EleutherAI | 20 | 825 GiB | 740 | Apache 2.0 | A Megatron architektúrán alapul. |
Chinchilla | 2022. március | DeepMind | 70 | 1.4 billió token | 6805 | Szabadalmazott | Csökkentett paraméterű modell, több adatra edzve. A Sparrow botban használják. Gyakran idézik az idegi skálázási törvény miatt. |
PaLM (Pathways Language Model) | 2022. április | 540 | 768 milliárd token | 29250 | Szabadalmazott | ~60 napig edzették ~6000 TPU v4 chipeken. | |
OPT (Open Pretrained Transformer) | 2022. május | Meta AI | 175 | 180B | 147 | MIT | A GPT-3 ekvivalens nyílt forráskódú replikációja. |
BLOOM | 2022. július | BigScience | 176 | 1.6T token | 1667 | RAIL | Multinyelvű modell, közösségi adatforrásokból edzve, sokkal alacsonyabb ökológiai lábnyommal. |
GLM-130B | 2022. október | Tsinghua University és Zhipu.AI | 130 | 400B | 309 | Apache 2.0 | Alkalmazható kínai és angol nyelven is. |
Claude 1 | 2022. március | Anthropic | 52 | 450B | Szabadalmazott | Antropikus szabályok betartásával készült. | |
ChatGPT-3.5 | 2022. november | OpenAI | 175 | 570B | 9900 | Szabadalmazott | A GPT-3-ra épül, különösen a ChatGPT chatbotra finomhangolt. |
Galactica | 2022. november | Meta AI | 120 | 106B | 1945 | CC BY-NC 4.0 | Az LLM-ek tudományos alkalmazására koncentrál. |
Gemini 1 | 2023. január | 540 | 570B | Szabadalmazott | Multimodális, többnyelvű modell, több funkcióval. | ||
Gemini 1.5 | 2024. február | Ismeretlen | Ismeretlen | Ismeretlen | Szabadalmazott | Multimodális modell, a Szakértői Keverék (MoE) architektúrán alapul. A kontextusablak 1 millió tokenre nőtt, bár csak 128k lesz elérhető a fejlesztők számára. | |
Gemma | 2024. február | Google DeepMind | 7 | 6T token | Ismeretlen | Apache 2.0 | |
Claude 3 | 2024. március | Anthropic | Ismeretlen | Ismeretlen | Ismeretlen | Szabadalmazott | Három modell, Haiku, Sonnet és Opus. |
DBRX | 2024. március | Databricks és Mosaic ML | 136 | 12T token | Ismeretlen | Databricks Open Model License | Az edzés költsége 10 millió USD. |
Fugaku-LLM | 2024. május | Fujitsu, Tokyo Institute of Technology, stb. | 13 | 380B token | Ismeretlen | A legnagyobb modell, amelyet csak CPU-kon edzettek, a Fugakun. | |
Llama 3 | 2024. április | Meta AI | 70 | 15T token | Ismeretlen | Llama 3 licenc |
A tréning költség oszlophoz: 1 petaFLOP-nap = 1 petaFLOP/mp × 1 nap = 8.64E19 FLOP.
Ajánlott olvasmányok a témához:
Milyen módszerekkel lehet javítani a válaszok minőségét?
Források:
Téged is érdekel a mesterséges intelligencia?
Csatlakozz exkluzív AI közösségünkhöz!
- Kérdezz bátran: Tedd fel kérdéseidet közvetlenül AI szakértőinknek, és kapj személyre szabott válaszokat.
- Legyél az elsők között: Elsőként értesülhetsz a legfrissebb AI trendekről és fejlesztésekről.
- Osztd meg tapasztalataidat: Beszélgess más érdeklődőkkel, és tanuljatok egymástól.