POWER ON — Laborateur per la generazion de test

MODEL Cëria n model bele alenà o scrì nstës n test per l alené!

Cie suzed pa tlo? Uni model de na NA à de bujën de dac de alenamënt. Tesć cun chëi che la NA possa mparé strutures de rujeneda. Chier ora na verscion bele aleneda tlameda "pre-trained" o scrì nstës ite n test. Plu lonch che l test ie y miëur che l model deventa.

⚡

Pre-trained

Model alenà cun tesć ladins coche basa.

✍️

NA persunela

Jonta n ti test persunel.

Test de alenamënt persunel 0 Pustomes

Nfurmazion: Cun tesć scialdi lonc (>200.000 pustomes) possel duré nchin a 5 menuc.

L model vën alenà…

La lunghëza dl test vën analiseda, prëibel mpue de pazienza.

📄 L test vën analisà & l ven laurà ora n indesc per pustomes —

🔤 L vën laurà ora l indesc di bigrams (cuntest de n pustom) —

🔠 L vën laurà ora l indesc di trigrams (cuntest de doi pustomes) —

📝 L vën laurà ora l indesc dla paroles (bigrams de paroles) —

🔬 L vën laurà ora l indesc de token (silbes) —

💾 Archivazion di indesc & —

cëria…

🔒

Prëibel dant finé l capitul 0

Capitul 1Model Unigram — paroles a cajo

Model de Unigram: Chësc model cunësc mé la frecuënza di pustomes dl test de alenamënt. L à analisà tan suvënz che uni pustom vën dant n mesaria y nsci stimel, ciun che sarà l proscimo pustom, zënza ne avëi degun cuntest.

Limitazions: L model ne à deguna memoria de cie che l à scrit y nsci ie uni pustom ndependënt da chël da dant. La frases ne n à degun senificat.

Matematicamënter: P(x_t) = Frecuënza(x) / Sënies de ndut

Lungëza 200

pronto...

Ciuldì ie pa chësc test tan rie da liejer?

L test de alenamënt fova massa curt

L model ne tën nia cont dl cuntest

I pustomes vën metui a cajo y nia aldò dla probabltà

L model à trueps parametri

🔒

Fina dant l capitul 1

Capitul 2Model Bigram — cuntest de n pustom

Model de Bigram: Śën ti cëla l model al ultimo pustom y se damanda: „Ciun doi pustomes univa pa dant l plu suvënz deberieda tl test de alenamënt?" L à na memoria de avisa n pustom.

Limitazion: Paroles ne se forma mo for nia sciche l se toca. De pitla paroles semea bën de se furmé, ma paroles longes cun n senificat ne resultea mo nia.

Matematicamënter: P(x_t | x_t-1) — probabltà de transizion (probabltà che l sëni B vënie do l sëni A)

Lungëza 200

pronto...

Cie uel pa dì „probabltà de transizion" tl model de Bigram?

La probabltà che l model feje n fal

Tan suvënz che na parola vën dant tl test

La probabltà che l sëni B vënie do l sëni A

L numer mascimo puscibl de pustomes per l prompt

🔒

Fina dant l capitul 2

Capitul 3Model Trigram — cuntest de doi pustomes

Model de Trigram: Doi pustomes de cuntest — l model se damanda: „Ciun pustom univa pa dant l plu suvënz do i ultimi doi pustomes tl test de alenamënt?" L à nsci na memoria de avisa doi pustomes.

Prugres: Vel paroles se lascia bele liejer! L test semea però mo dalonc dala rujeneda de alenamënt.

Matematicamënter: N=2 -> N=Paroles de ndut che l model à coche cuntest.

Lungëza 200

pronto...

Percie devënta pa l test miëur cun n valor de N-Gram plu aut, ma ënghe plu repetitif?

L computer lëura plu debota

Plu cuntest uel dì che l model ti vën plu daujin ala rujeneda de alenamënt

I trigrams crieia plu sënies di bigrams

🔒

Fina dant l capitul 3

Capitul 4Model Bigram de paroles — paroles reéles

Bigram de paroles: L ne vën śën nia plu laurà cun pustomes coche "TOKEN", ma cun paroles ntieres. L resta la medema dumanda: „Ciuna parola univa pa dant l plu suvënz do chësta parola tl test de alenamënt?"

Gran saut: Ti cialan ala frases, pudëssen miné che l se trata bele de na rujeneda reéla — nce sce la ne n à degun cuntenut logich.

Paroles 60

pronto...

Ciuna ie pa la desfrënza prinzipiela danter n Trigram de pustomes y n Bigram de paroles?

L bigram de paroles ie for miëur

L token muda da pustomes a paroles ntieres

I bigrams de paroles lëura nce cun n test plu curt de alenamënt

🔒

Fina dant l capitul 4

Capitul 5Model a silbes — Identich al model che ChatGPT adrova

"TOKEN" a silbes/"subwords": I LLMs ("Large language model" = Gran model de rujeneda) che n cunësc, coche p.ej. ChatGPT, tol "token" mescedei danter pustomes y paroles - i cunscidrea silbes frecuëntes o pertes de paroles n'unità unica.

Ejëmpl: La parola „destudafuech" pudëssa unì "tokeniseda" coche [„destu", „da" „fuech"]. Nscila possa l model nce capì paroles che l ne n à dant mo mei udù.

Nosc model de silbes tol n cuntest de Trigram: l à coche cuntest doi silbes. ChatGPT 4o à n cunfront n cuntest de 128.000 Token, GPT5 bele na milion.

Tokens 50

pronto...

cunfruntea diretamënter:

Capitul 1: Unigram

—

Capitul 2: Bigram

—

Capitul 3: Trigram

—

Capitul 4: Model a paroles

—

Ciuldì tol pa LLMs moderns "token" de silbes y nia de paroles ntieres?

I computer ne ie nia boni de memorisé paroles ntieres

La silbes smendra l vocabuler y capësc paroles nueves

La silbes ie for plu curtes dla paroles

Per schivé problems de dërt dl autëur

🔒

Fina dant l capitul 5

Bonus Temperatura — Criatività vs. Prezijion

La temperatura ie un di parametri plu mpurtanc prai LLMs reéi. Cun temperatura de basa (0.1) scrij l model for l'opzion probabilmënter plu adateda → plu da pudëi udëi danora y repetitif. Cun temperatura auta (2.0) vën ënghe opzions plu reres scrites plu suvënz → resultat plu criatif ma plu caotich.

❄️ Frëit (T=0.1) - prevedibl

—

🔥 Ciaut (T=2.0) - creatif

—

🎉 🎉 Japé! Tu ies ruvà ala fin de POWER ON!