Talend Open Studio - Poznaj korzyści, zastosowania i komponenty

Spisie treści:

Anonim

Wprowadzenie do Talend Open Studio

Talend oferuje Open Studio, które jest otwartym oprogramowaniem do integracji danych. Ma ponad 800 komponentów do różnych celów integracyjnych. Pobierz Talend Open Studio z https://www.talend.com/download/

Integracja danych oznacza łączenie danych z różnych źródeł i łączenie ich w jednym widoku, aby uzyskać pewne znaczące dane z tych, które mogą pomóc firmie lub organizacji w ulepszeniu ich działalności poprzez analizę tych danych. Integracja pomaga w uzyskiwaniu danych, czyszczeniu danych, przeprowadzaniu niezbędnych transformacji itp., A następnie ładowaniu ich do hurtowni danych.

Co to jest Talend?

Talend to narzędzie ETL służące do integracji danych. Talend zapewnia rozwiązanie do przygotowania danych, jakości danych, integracji danych i dużych zbiorów danych. Tutaj będziemy omawiać niektóre elementy. Aby ułatwić zapoznanie się z poniższym przykładem Operator karty SIM ma ogromne dane o planach, klientach, szczegółach karty SIM itp. Dane te są ogromne, więc duże dane są również wykorzystywane podczas integracji.

Klient Zakup karty SIM za pomocą identyfikatora rządowego

Nadając swoje imię jako AB C.

adres jako Chennai, Chennai

numer telefonu jako 1234567890

Po integracji danych

Imię: AB

Nazwisko: C

Adres: Chennai, Indie

Numer telefonu: +911234567890

Tutaj dane są oczyszczane i przekształcane w coś bardziej znaczącego.

Korzyści

  • Analiza trendów biznesowych za pomocą integracji danych
  • Łączenie danych w jeden system
  • Oszczędność czasu, większa wydajność i mniej przeróbek
  • Łatwe generowanie raportów - wykorzystywane przez narzędzia BI
  • Utrzymanie i wstawianie danych do hurtowni danych i centrów danych

Podanie

Oto następujące aplikacje wymienione poniżej

1. Praca z Talendem

  • Upewnij się, że masz zainstalowaną Javę i ustawione zmienne środowiskowe.
  • Pobierz oprogramowanie typu open source ze strony internetowej Talend i zainstaluj oprogramowanie.
  • Utwórz nowy projekt i zakończ konfigurację
  • Talend otworzy się z zakładką projektanta.
  • Talend to narzędzie oparte na zaćmieniach, a komponenty można przeciągać z palety lub kliknąć i wpisać nazwę komponentów.

2. Pierwsze zadanie Czytanie pliku

  • Wyszukaj składnik tFileinputdelimited. Ten komponent służy do odczytu plików rozdzielanych.
  • Umieść komponent tfileinputdelimited. Wyszukaj tlogrow i umieść go w projektancie pracy.
  • Kliknij prawym przyciskiem myszy tfileinputdelimited i wybierz row-> main i narysuj linię do tlogrow.
  • W komponencie karta wybiera ścieżkę pliku, który chcesz odczytać, i podaje separator wierszy jako \ n. Jeśli plik ma separator, możesz wspomnieć o separatorze.
  • Kliknij schemat i podaj szczegóły typu kolumny lub możesz odczytać cały wiersz jako ciąg z jedną kolumną, a wartość separatora powinna być pusta.
  • Możesz również pominąć nagłówek i stopkę.
  • W komponencie tlogrow wybierz sposób, w jaki chcesz widzieć dane. Format tabeli lub format jednowierszowy.
  • tlogrow wyświetla dane wyjściowe w konsoli uruchamiania.
  • Po podłączeniu zarówno tfileinputdelimited, jak i tlogrow uruchom zadanie z zakładki uruchamiania.
  • Możesz zobaczyć zawartość pliku w konsoli wydrukowaną.

3. Drugie zadanie z wykorzystaniem Tmap

  • Przeczytaj plik i przefiltruj go do różnych plików wyjściowych.
  • Odczytaj plik ze składnika tfileinputdelimited ze schematem jednej kolumny jako rekordem.
  • Komponent Tmap - ten komponent pomaga w transformacji danych za pomocą niektórych wbudowanych funkcji, takich jak wyszukiwanie, sprzężenia itp.
  • W tmap utwórz dwa wyjścia out1 i out2.
  • W filtrze out1 dodaj row3.record.contains („talend”) i narysuj rekord na out1.
  • Narysuj linię rekordu do innego wyjścia2.

  • Z tmapy weź główne rzędy i połącz się z dwoma tfileoutputdelimited.
  • link out1 do jednego pliku tfileoutputdelimited1 jako plik1.txt i out2 do innego pliku tfileoutputdelimited2 jako plik2.txt.
  • txt będzie zawierał rekordy zawierające talend.
  • txt będzie zawierał rekordy o innych nazwach.

4. Wbudowane i repozytorium

  • Wbudowany oznacza, że ​​należy ustawić schemat lub szczegóły dotyczące łączenia się z bazą danych za każdym razem.
  • Repozytorium przydaje się do zapisywania szczegółów w metadanych, dzięki czemu można ponownie użyć tych samych danych za każdym razem bez ręcznego wprowadzania szczegółów za każdym razem. W metadanych można zapisać schemat plików, połączenia z bazą danych, połączenie Hadoop, połączenie gałęzi, połączenie s3 i wiele innych.

Komponenty Talend Open Studio

Oto poniższe elementy Komponenty Talend Open Studio

1. tFileList

  • Ten składnik wyświetla listę plików w katalogu lub folderze z danym wzorem maski pliku.

2. tMysqlConnection

  • Ten komponent służy do łączenia się z bazą danych mysql.
  • Komponenty Mysql mogą korzystać z tego połączenia w celu łatwej konfiguracji połączenia z bazą danych.

3. tMysqlinput

  • Ten komponent pomaga uruchomić zapytanie do bazy danych mysql i uzyskać tabelę lub kolumny. Ten komponent służy do wybierania zapytań i uzyskiwania szczegółowych informacji.

4. tMysqlOutput

  • Ten komponent służy do wstawiania lub aktualizowania danych w bazie danych Mysql.

5. tprejob

  • Ten komponent jest uruchamiany jako pierwszy w zadaniu i można go łączyć z innymi komponentami z funkcją subjob w porządku.

6. tpostjob

  • Ten komponent jest wykonywany jako ostatni w zadaniu. Możesz to połączyć za pomocą komponentów zamykających połączenie.

7. tlogcatcher

  • Ten komponent przechwytuje ostrzeżenia i błędy w zadaniu.
  • Najważniejszy element stosowany w technice obsługi błędów.
  • Dzienniki błędów mogą być zapisywane przy użyciu tego komponentu wraz z tfileoutputdelimited.
  • Istnieje ponad 800 elementów.

Zmienna kontekstowa

  • Zmienne kontekstowe to zmienne, których można użyć w zadaniu w dowolnym miejscu.
  • Przechowuje wartości i może być przekazany do innego zadania również przy użyciu komponentu trun.
  • Zastosowanie zmiennych kontekstowych polega na tym, że możemy zmienić wartość do różnych celów.
  • Na przykład możemy mieć zestaw wartości dla grupy kontekstów programistycznych i inny zestaw wartości kontekstu dla produkcji.
  • W ten sposób nie musimy zmieniać zadania, wystarczy zmienić parametry kontekstu.

Budowanie pracy

  • Aby zbudować pracę, kliknij ją prawym przyciskiem myszy i wybierz kompilację pracy.
  • Możesz zaimportować zadanie kompilacji do TAC.
  • W konsoli administracyjnej Talend planujesz zadanie tak, aby wyzwalało także zależność zestawu zadań.
  • Możesz także zaimportować zadanie z repozytorium Nexus przy użyciu zadania artefaktu.

Utwórz zadanie w TAC

  • Otwarty przewodnik pracy w TAC
  • Kliknij nowe zadania i wybierz zadania normalne lub artefaktowe.
  • Zaimportuj skompilowane zadanie lub wybierz z nexus.
  • Wybierz serwer zadań, na którym będzie działać talend.
  • Zapisz zadanie.
  • Teraz możesz wdrożyć i uruchomić zadanie.

Wniosek - Talend Open Studio

„Uprość ETL i ELT dzięki wiodącemu darmowemu narzędziu ETL typu open source dla dużych zbiorów danych”. Talend Bigdata ma wiele komponentów do obsługi ogromnych danych. Zadanie standardowe, zadanie Bigdata, zadania przesyłania strumieniowego Bigdata to różne rodzaje zadań dostępnych w Talend. Zadania Bigdata można tworzyć w środowisku Spark lub Mapreduce.

Polecane artykuły

To jest przewodnik po Talend Open Studio. Tutaj omawiamy korzyści, aplikacje i komponenty Talend Open Studio. Możesz także zapoznać się z następującymi artykułami, aby dowiedzieć się więcej -

  1. Przewodnik po integracji danych Talend
  2. Ważne pytania podczas rozmowy Talend
  3. Talend vs Mulesoft: Różnice
  4. Talend vs Pentaho: 8 przydatnych porównań do nauki