Ang TensorFlow Extended (TFX) ay isang malakas na open-source platform na idinisenyo para mapadali ang pagbuo at pag-deploy ng mga modelo ng machine learning (ML) sa mga production environment. Nagbibigay ito ng komprehensibong hanay ng mga tool at library na nagbibigay-daan sa pagbuo ng mga end-to-end na ML pipeline. Ang mga pipeline na ito ay binubuo ng ilang natatanging mga yugto, bawat isa ay nagsisilbi sa isang partikular na layunin at nag-aambag sa pangkalahatang tagumpay ng ML workflow. Sa sagot na ito, tutuklasin natin ang iba't ibang yugto ng ML pipeline sa TFX.
1. Pag-ingest ng Data:
Ang unang yugto ng pipeline ng ML ay nagsasangkot ng pag-ingest ng data mula sa iba't ibang mapagkukunan at pagbabago nito sa isang format na angkop para sa mga gawain sa ML. Ang TFX ay nagbibigay ng mga bahagi gaya ng ExampleGen, na nagbabasa ng data mula sa iba't ibang pinagmumulan tulad ng mga CSV file o database, at kino-convert ito sa Halimbawang format ng TensorFlow. Ang bahaging ito ay nagbibigay-daan para sa pagkuha, pagpapatunay, at preprocessing ng data na kinakailangan para sa mga susunod na yugto.
2. Pagpapatunay ng Data:
Kapag ang data ay na-ingested, ang susunod na yugto ay nagsasangkot ng data validation upang matiyak ang kalidad at pagkakapare-pareho nito. Ibinibigay ng TFX ang bahagi ng StatisticsGen, na kumukwenta ng mga buod na istatistika ng data, at ang bahagi ng SchemaGen, na naghihinuha ng schema batay sa mga istatistika. Nakakatulong ang mga bahaging ito sa pagtukoy ng mga anomalya, nawawalang halaga, at hindi pagkakapare-pareho sa data, na nagbibigay-daan sa mga data engineer at ML practitioner na magsagawa ng mga naaangkop na aksyon.
3. Pagbabago ng Data:
Pagkatapos ng pagpapatunay ng data, ang ML pipeline ay nagpapatuloy sa yugto ng pagbabagong-anyo ng data. Ang TFX ay nag-aalok ng bahagi ng Transform, na nag-aaplay ng mga tampok na diskarte sa engineering, tulad ng normalisasyon, one-hot encoding, at feature crossing, sa data. Ang bahaging ito ay gumaganap ng isang mahalagang papel sa paghahanda ng data para sa pagsasanay ng modelo, dahil nakakatulong ito sa pagpapabuti ng pagganap ng modelo at mga kakayahan sa paglalahat.
4. Pagsasanay sa Modelo:
Ang yugto ng pagsasanay sa modelo ay nagsasangkot ng pagsasanay sa mga modelo ng ML gamit ang binagong data. Ibinibigay ng TFX ang bahagi ng Trainer, na gumagamit ng makapangyarihang kakayahan sa pagsasanay ng TensorFlow upang sanayin ang mga modelo sa mga distributed system o GPU. Ang bahaging ito ay nagbibigay-daan para sa pag-customize ng mga parameter ng pagsasanay, mga arkitektura ng modelo, at mga algorithm ng pag-optimize, na nagbibigay-daan sa mga ML practitioner na mag-eksperimento at umulit sa kanilang mga modelo nang epektibo.
5. Pagsusuri ng Modelo:
Kapag nasanay na ang mga modelo, ang susunod na yugto ay pagsusuri ng modelo. Ibinibigay ng TFX ang bahagi ng Evaluator, na tinatasa ang pagganap ng mga sinanay na modelo gamit ang mga sukatan ng pagsusuri gaya ng katumpakan, katumpakan, recall, at marka ng F1. Nakakatulong ang bahaging ito sa pagtukoy ng mga potensyal na isyu sa mga modelo at nagbibigay ng mga insight sa kanilang gawi sa hindi nakikitang data.
6. Pagpapatunay ng Modelo:
Pagkatapos ng pagsusuri ng modelo, ang pipeline ng ML ay nagpapatuloy sa pagpapatunay ng modelo. Nag-aalok ang TFX ng bahagi ng ModelValidator, na nagpapatunay sa mga sinanay na modelo laban sa naunang hinuha na schema. Tinitiyak ng yugtong ito na sumusunod ang mga modelo sa inaasahang format ng data at tumutulong sa pagtukoy ng mga isyu gaya ng data drift o schema evolution.
7. Pag-deploy ng Modelo:
Kasama sa huling yugto ng pipeline ng ML ang pag-deploy ng mga sinanay na modelo sa mga kapaligiran ng produksyon. Nagbibigay ang TFX ng bahagi ng Pusher, na nag-e-export ng mga sinanay na modelo at nauugnay na artifact sa isang sistema ng paghahatid, gaya ng TensorFlow Serving o TensorFlow Lite. Ang yugtong ito ay nagbibigay-daan sa pagsasama ng mga modelo ng ML sa mga application, na nagpapahintulot sa kanila na gumawa ng mga hula sa bagong data.
Ang ML pipeline sa TFX ay binubuo ng ilang yugto, kabilang ang data ingestion, data validation, data transformation, model training, model evaluation, model validation, at model deployment. Ang bawat yugto ay nag-aambag sa pangkalahatang tagumpay ng ML workflow sa pamamagitan ng pagtiyak sa kalidad ng data, pagpapagana ng feature engineering, pagsasanay ng mga tumpak na modelo, pagsusuri ng kanilang performance, at pag-deploy ng mga ito sa mga kapaligiran ng produksyon.
Iba pang kamakailang mga tanong at sagot tungkol sa EITC/AI/TFF TensorFlow Fundamentals:
- Paano magagamit ng isang tao ang isang layer ng pag-embed upang awtomatikong magtalaga ng mga wastong axes para sa isang plot ng representasyon ng mga salita bilang mga vector?
- Ano ang layunin ng max pooling sa isang CNN?
- Paano inilalapat ang proseso ng pagkuha ng tampok sa isang convolutional neural network (CNN) sa pagkilala ng imahe?
- Kailangan bang gumamit ng asynchronous learning function para sa mga machine learning model na tumatakbo sa TensorFlow.js?
- Ano ang maximum na bilang ng mga salita ng parameter ng TensorFlow Keras Tokenizer API?
- Maaari bang magamit ang TensorFlow Keras Tokenizer API upang mahanap ang pinakamadalas na salita?
- Ano ang TOCO?
- Ano ang kaugnayan sa pagitan ng ilang panahon sa isang machine learning model at ang katumpakan ng hula mula sa pagpapatakbo ng modelo?
- Gumagawa ba ang pack neighbors API sa Neural Structured Learning ng TensorFlow ng augmented training dataset batay sa natural na data ng graph?
- Ano ang pack neighbors API sa Neural Structured Learning ng TensorFlow ?
Tingnan ang higit pang mga tanong at sagot sa EITC/AI/TFF TensorFlow Fundamentals