Labor nteratif - Generazion de n test

Generé n test cun la NA

Mpera var per var coche la nteligënza artifiziela funzionea - scumencian cun pustomes a cajo nchin a na generazion de frases che semea fates da persones.

Model
1
Unigram
2
Bigram
3
Trigram
4
Paroles
5
Silbes
6
Temperatura
MODEL Cëria n model bele alenà o scrì nstës n test per l alené!
Cie suzed pa tlo? Uni model de na NA à de bujën de dac de alenamënt. Tesć cun chëi che la NA possa mparé strutures de rujeneda. Chier ora na verscion bele aleneda tlameda "pre-trained" o scrì nstës ite n test. Plu lonch che l test ie y miëur che l model deventa.
Pre-trained
Model alenà cun tesć ladins coche basa.
✍️
NA persunela
Jonta n ti test persunel.
Test de alenamënt persunel 0 Pustomes
Nfurmazion: Cun tesć scialdi lonc (>200.000 pustomes) possel duré nchin a 5 menuc.
L model vën alenà…
La lunghëza dl test vën analiseda, prëibel mpue de pazienza.
📄 L test vën analisà & l ven laurà ora n indesc per pustomes
🔤 L vën laurà ora l indesc di bigrams (cuntest de n pustom)
🔠 L vën laurà ora l indesc di trigrams (cuntest de doi pustomes)
📝 L vën laurà ora l indesc dla paroles (bigrams de paroles)
🔬 L vën laurà ora l indesc de token (silbes)
💾 Archivazion di indesc &
cëria…
🔒
Prëibel dant finé l capitul 0
Capitul 1Model Unigram — paroles a cajo
Model de Unigram: Chësc model cunësc mé la frecuënza di pustomes dl test de alenamënt. L à analisà tan suvënz che uni pustom vën dant n mesaria y nsci stimel, ciun che sarà l proscimo pustom, zënza ne avëi degun cuntest.
Limitazions: L model ne à deguna memoria de cie che l à scrit y nsci ie uni pustom ndependënt da chël da dant. La frases ne n à degun senificat.

Matematicamënter: P(xt) = Frecuënza(x) / Sënies de ndut

Lungëza 200
pronto...
Ciuldì ie pa chësc test tan rie da liejer?
L test de alenamënt fova massa curt
L model ne tën nia cont dl cuntest
I pustomes vën metui a cajo y nia aldò dla probabltà
L model à trueps parametri
🔒
Fina dant l capitul 1
Capitul 2Model Bigram — cuntest de n pustom
Model de Bigram: Śën ti cëla l model al ultimo pustom y se damanda: „Ciun doi pustomes univa pa dant l plu suvënz deberieda tl test de alenamënt?" L à na memoria de avisa n pustom.
Limitazion: Paroles ne se forma mo for nia sciche l se toca. De pitla paroles semea bën de se furmé, ma paroles longes cun n senificat ne resultea mo nia.

Matematicamënter: P(xt | xt-1) — probabltà de transizion (probabltà che l sëni B vënie do l sëni A)

Lungëza 200
pronto...
Cie uel pa dì „probabltà de transizion" tl model de Bigram?
La probabltà che l model feje n fal
Tan suvënz che na parola vën dant tl test
La probabltà che l sëni B vënie do l sëni A
L numer mascimo puscibl de pustomes per l prompt
🔒
Fina dant l capitul 2
Capitul 3Model Trigram — cuntest de doi pustomes
Model de Trigram: Doi pustomes de cuntest — l model se damanda: „Ciun pustom univa pa dant l plu suvënz do i ultimi doi pustomes tl test de alenamënt?" L à nsci na memoria de avisa doi pustomes.
Prugres: Vel paroles se lascia bele liejer! L test semea però mo dalonc dala rujeneda de alenamënt.

Matematicamënter: N=2 -> N=Paroles de ndut che l model à coche cuntest.

Lungëza 200
pronto...
Percie devënta pa l test miëur cun n valor de N-Gram plu aut, ma ënghe plu repetitif?
L computer lëura plu debota
Plu cuntest uel dì che l model ti vën plu daujin ala rujeneda de alenamënt
I trigrams crieia plu sënies di bigrams
🔒
Fina dant l capitul 3
Capitul 4Model Bigram de paroles — paroles reéles
Bigram de paroles: L ne vën śën nia plu laurà cun pustomes coche "TOKEN", ma cun paroles ntieres. L resta la medema dumanda: „Ciuna parola univa pa dant l plu suvënz do chësta parola tl test de alenamënt?"
Gran saut: Ti cialan ala frases, pudëssen miné che l se trata bele de na rujeneda reéla — nce sce la ne n à degun cuntenut logich.
Paroles 60
pronto...
Ciuna ie pa la desfrënza prinzipiela danter n Trigram de pustomes y n Bigram de paroles?
L bigram de paroles ie for miëur
L token muda da pustomes a paroles ntieres
I bigrams de paroles lëura nce cun n test plu curt de alenamënt
🔒
Fina dant l capitul 4
Capitul 5Model a silbes — Identich al model che ChatGPT adrova
"TOKEN" a silbes/"subwords": I LLMs ("Large language model" = Gran model de rujeneda) che n cunësc, coche p.ej. ChatGPT, tol "token" mescedei danter pustomes y paroles - i cunscidrea silbes frecuëntes o pertes de paroles n'unità unica.
Ejëmpl: La parola „destudafuech" pudëssa unì "tokeniseda" coche [„destu", „da" „fuech"]. Nscila possa l model nce capì paroles che l ne n à dant mo mei udù.

Nosc model de silbes tol n cuntest de Trigram: l à coche cuntest doi silbes. ChatGPT 4o à n cunfront n cuntest de 128.000 Token, GPT5 bele na milion.

Tokens 50
pronto...

cunfruntea diretamënter:

Capitul 1: Unigram
Capitul 2: Bigram
Capitul 3: Trigram
Capitul 4: Model a paroles
Ciuldì tol pa LLMs moderns "token" de silbes y nia de paroles ntieres?
I computer ne ie nia boni de memorisé paroles ntieres
La silbes smendra l vocabuler y capësc paroles nueves
La silbes ie for plu curtes dla paroles
Per schivé problems de dërt dl autëur
🔒
Fina dant l capitul 5
Bonus Temperatura — Criatività vs. Prezijion
La temperatura ie un di parametri plu mpurtanc prai LLMs reéi. Cun temperatura de basa (0.1) scrij l model for l'opzion probabilmënter plu adateda → plu da pudëi udëi danora y repetitif. Cun temperatura auta (2.0) vën ënghe opzions plu reres scrites plu suvënz → resultat plu criatif ma plu caotich.
❄️ Frëit (T=0.1) - prevedibl
🔥 Ciaut (T=2.0) - creatif
🎉 🎉 Japé! Tu ies ruvà ala fin de POWER ON!
🔓 Nuef capitul daviert!