Oblasť strojového učenia zahŕňa množstvo metodík a paradigiem, z ktorých každá je vhodná pre rôzne typy údajov a problémov. Spomedzi týchto paradigiem sú učenie pod dohľadom a učenie bez dozoru dve z najzákladnejších.
Učenie pod dohľadom zahŕňa trénovanie modelu na označenom súbore údajov, kde sú vstupné údaje spárované so správnym výstupom. Model sa učí mapovať vstupy na výstupy minimalizovaním chyby medzi jeho predikciami a skutočnými výstupmi. Učenie bez dozoru sa na druhej strane zaoberá neoznačenými údajmi, kde cieľom je odvodiť prirodzenú štruktúru prítomnú v súbore údajových bodov.
Existuje typ učenia, ktorý integruje techniky učenia pod dohľadom aj bez dozoru, často označované ako učenie pod dohľadom. Tento prístup využíva počas tréningového procesu označené aj neoznačené údaje. Dôvodom učenia sa čiastočne pod dohľadom je, že neoznačené údaje, ak sa použijú v spojení s malým množstvom označených údajov, môžu priniesť značné zlepšenie presnosti učenia. To je užitočné najmä v situáciách, keď je získanie označených údajov vzácne alebo drahé, ale neoznačených údajov je množstvo a ľahko sa zbierajú.
Učenie sa čiastočne pod dohľadom je založené na predpoklade, že základná štruktúra neoznačených údajov môže poskytnúť cenné informácie, ktoré dopĺňajú označené údaje. Tento predpoklad môže mať niekoľko podôb, ako je klastrový predpoklad, mnohopočetný predpoklad alebo predpoklad separácie s nízkou hustotou. Predpoklad klastra predpokladá, že dátové body v rovnakom klastri budú mať pravdepodobne rovnaké označenie. Predpoklad rozmanitosti naznačuje, že vysokorozmerné údaje ležia na rozmanitosti oveľa nižšej dimenzie a úlohou je naučiť sa túto rozmanitosť. Predpoklad separácie s nízkou hustotou je založený na myšlienke, že rozhodovacia hranica by mala ležať v oblasti s nízkou hustotou dát.
Jednou z bežných techník využívaných v čiastočne riadenom učení je samotréning. Pri samotréningu sa model najprv trénuje na označených údajoch. Potom používa svoje vlastné predpovede na neoznačených údajoch ako pseudoznačky. Model je ďalej trénovaný na tomto rozšírenom súbore údajov a opakovane spresňuje svoje predpovede. Ďalšou technikou je spoločné školenie, kde sa dva alebo viac modelov trénuje súčasne na rôznych pohľadoch na údaje. Každý model je zodpovedný za označenie časti neoznačených údajov, ktoré sa potom použijú na trénovanie ostatných modelov. Táto metóda využíva redundanciu vo viacerých zobrazeniach údajov na zlepšenie výkonu učenia.
Metódy založené na grafoch prevládajú aj v učení s poloriadeným dohľadom. Tieto metódy vytvárajú graf, kde uzly predstavujú dátové body a hrany predstavujú podobnosti medzi nimi. Učebná úloha je potom preformulovaná ako optimalizačný problém založený na grafe, kde cieľom je šíriť označenia z označených uzlov na neoznačené pri zachovaní štruktúry grafu. Tieto techniky sú obzvlášť účinné v doménach, kde dáta prirodzene tvoria sieť, ako sú sociálne siete alebo biologické siete.
Ďalším prístupom ku kombinovaniu učenia pod dohľadom a bez dozoru je učenie s viacerými úlohami. Pri viacúlohovom učení sa súčasne rieši viacero učebných úloh, pričom sa využívajú spoločné znaky a rozdiely medzi úlohami. Možno to považovať za formu induktívneho prenosu, kde poznatky získané z jednej úlohy pomáhajú zlepšiť učenie sa inej. Viacúlohové učenie môže byť obzvlášť prospešné, ak medzi úlohami existuje zdieľaná reprezentácia alebo priestor funkcií, čo umožňuje prenos informácií.
Praktický príklad učenia sa pod dohľadom je v oblasti spracovania prirodzeného jazyka (NLP). Zvážte úlohu analýzy sentimentu, ktorej cieľom je klasifikovať daný text ako pozitívny alebo negatívny. Označené údaje, ako napríklad recenzie s menovkami sentimentu, môžu byť obmedzené. K dispozícii je však obrovské množstvo neoznačeného textu. Prístup učenia s čiastočným dohľadom by mohol zahŕňať tréning klasifikátora sentimentu na označených údajoch a jeho použitie na predpovedanie sentimentu neoznačených údajov. Tieto predpovede sa potom môžu použiť ako ďalšie tréningové údaje, čím sa zlepší výkon klasifikátora.
Ďalší príklad možno nájsť v klasifikácii obrázkov. V mnohých prípadoch je získanie označených obrázkov prácne a nákladné, zatiaľ čo neoznačených obrázkov je veľa. Čiastočne kontrolovaný prístup môže zahŕňať použitie malého súboru označených obrázkov na trénovanie počiatočného modelu. Tento model by sa potom mohol použiť na neoznačené obrázky na vytvorenie pseudoznačiek, ktoré sa následne použijú na preškolenie modelu.
Integrácia učenia pod dohľadom a bez dozoru prostredníctvom učenia sa čiastočne pod dohľadom a súvisiacich metodík predstavuje účinný prístup v oblasti strojového učenia. Využitím silných stránok oboch paradigiem je možné dosiahnuť významné zlepšenie výkonnosti modelu, najmä v doménach, kde sú označené údaje obmedzené, ale neoznačených údajov je veľa. Tento prístup nielen zvyšuje schopnosť modelov zovšeobecňovať z obmedzených údajov, ale poskytuje aj robustnejší rámec na pochopenie základnej štruktúry komplexných súborov údajov.
Ďalšie nedávne otázky a odpovede týkajúce sa EITC/AI/GCML Google Cloud Machine Learning:
- Google Cloud Machine Learning sa teraz nazýva Vertex AI. Aký je teraz rozdiel?
- Aké sú metriky hodnotenia výkonnosti modelu?
- Čo je lineárna regresia?
- Je možné kombinovať rôzne modely ML a zostaviť majstrovskú AI?
- Aké sú niektoré z najbežnejších algoritmov používaných v strojovom učení?
- Ako vytvoriť verziu modelu?
- Ako aplikovať 7 krokov ML v príkladnom kontexte?
- Ako možno strojové učenie aplikovať na údaje o stavebných povoleniach?
- Prečo boli tabuľky AutoML prerušené a čo ich nasleduje?
- Aká je úloha interpretácie sviatočných log nakreslených hráčmi v kontexte AI?
Ďalšie otázky a odpovede nájdete v EITC/AI/GCML Google Cloud Machine Learning