TensorFlow Extended (TFX) je výkonná open-source platforma navrhnutá tak, aby uľahčila vývoj a nasadenie modelov strojového učenia (ML) v produkčných prostrediach. Poskytuje komplexnú sadu nástrojov a knižníc, ktoré umožňujú výstavbu end-to-end ML potrubí. Tieto kanály pozostávajú z niekoľkých odlišných fáz, z ktorých každá slúži špecifickému účelu a prispieva k celkovému úspechu pracovného toku ML. V tejto odpovedi preskúmame rôzne fázy potrubia ML v TFX.
1. Príjem údajov:
Prvá fáza procesu ML zahŕňa prijímanie údajov z rôznych zdrojov a ich transformáciu do formátu vhodného pre úlohy ML. TFX poskytuje komponenty, ako napríklad ExampleGen, ktorý číta údaje z rôznych zdrojov, ako sú súbory CSV alebo databázy, a konvertuje ich do formátu Príklad v TensorFlow. Táto fáza umožňuje extrakciu, validáciu a predbežné spracovanie údajov potrebných pre nasledujúce fázy.
2. Overenie údajov:
Po prijatí údajov ďalšia fáza zahŕňa validáciu údajov, aby sa zabezpečila ich kvalita a konzistentnosť. TFX poskytuje komponent StatisticsGen, ktorý počíta súhrnnú štatistiku údajov, a komponent SchemaGen, ktorý odvodzuje schému na základe štatistík. Tieto komponenty pomáhajú pri identifikácii anomálií, chýbajúcich hodnôt a nezrovnalostí v údajoch, čo umožňuje dátovým inžinierom a odborníkom na ML podniknúť príslušné kroky.
3. Transformácia údajov:
Po overení údajov sa kanál ML presunie do fázy transformácie údajov. TFX ponúka komponent Transform, ktorý na dáta aplikuje techniky inžinierstva funkcií, ako je normalizácia, jednorazové kódovanie a kríženie funkcií. Táto fáza zohráva kľúčovú úlohu pri príprave údajov na trénovanie modelu, pretože pomáha zlepšovať výkonnosť modelu a možnosti zovšeobecnenia.
4. Modelový tréning:
Fáza trénovania modelu zahŕňa trénovanie modelov ML pomocou transformovaných údajov. TFX poskytuje komponent Trainer, ktorý využíva výkonné tréningové schopnosti TensorFlow na trénovanie modelov na distribuovaných systémoch alebo GPU. Tento komponent umožňuje prispôsobenie tréningových parametrov, architektúr modelov a optimalizačných algoritmov, čo umožňuje odborníkom v oblasti ML efektívne experimentovať a opakovať svoje modely.
5. Hodnotenie modelu:
Keď sú modely natrénované, ďalšou fázou je hodnotenie modelu. TFX poskytuje komponent Evaluator, ktorý hodnotí výkonnosť trénovaných modelov pomocou hodnotiacich metrík, ako je presnosť, presnosť, zapamätanie a skóre F1. Táto fáza pomáha pri identifikácii potenciálnych problémov s modelmi a poskytuje prehľad o ich správaní na neviditeľných údajoch.
6. Overenie modelu:
Po vyhodnotení modelu sa ML pipeline presunie na overenie modelu. TFX ponúka komponent ModelValidator, ktorý overuje natrénované modely oproti predtým odvodenej schéme. Táto fáza zabezpečuje, že modely dodržiavajú očakávaný formát údajov a pomáha pri zisťovaní problémov, ako je posun údajov alebo vývoj schémy.
7. Nasadenie modelu:
Záverečná fáza procesu ML zahŕňa nasadenie vyškolených modelov do produkčných prostredí. TFX poskytuje komponent Pusher, ktorý exportuje trénované modely a súvisiace artefakty do obslužného systému, ako je TensorFlow Serving alebo TensorFlow Lite. Táto fáza umožňuje integráciu modelov ML do aplikácií, čo im umožňuje predpovedať nové údaje.
ML pipeline v TFX pozostáva z niekoľkých fáz, vrátane prijímania údajov, overovania údajov, transformácie údajov, trénovania modelu, hodnotenia modelu, overovania modelu a nasadzovania modelu. Každá fáza prispieva k celkovému úspechu pracovného toku ML tým, že zabezpečuje kvalitu údajov, umožňuje inžinierstvo funkcií, trénovanie presných modelov, vyhodnocovanie ich výkonu a ich nasadenie do produkčných prostredí.
Ďalšie nedávne otázky a odpovede týkajúce sa Základy TensorFlow EITC/AI/TFF:
- Ako možno použiť vrstvu vkladania na automatické priradenie správnych osí pre graf reprezentácie slov ako vektorov?
- Aký je účel maximálneho združovania v CNN?
- Ako sa proces extrakcie prvkov v konvolučnej neurónovej sieti (CNN) aplikuje na rozpoznávanie obrázkov?
- Je potrebné použiť funkciu asynchrónneho učenia pre modely strojového učenia spustené v TensorFlow.js?
- Aký je parameter maximálneho počtu slov rozhrania TensorFlow Keras Tokenizer API?
- Dá sa TensorFlow Keras Tokenizer API použiť na nájdenie najfrekventovanejších slov?
- čo je TOCO?
- Aký je vzťah medzi množstvom epoch v modeli strojového učenia a presnosťou predpovedí zo spustenia modelu?
- Vytvára API susediace s balíkom v Neural Structured Learning of TensorFlow rozšírený tréningový súbor údajov založený na údajoch z prirodzených grafov?
- Čo je rozhranie API susedov s balíkom v Neural Structured Learning of TensorFlow?
Pozrite si ďalšie otázky a odpovede v EITC/AI/TFF TensorFlow Fundamentals