Wprowadzenie do integracji danych Talend

Integracja danych Talend oznacza łączenie danych z różnych źródeł i łączenie ich w jeden widok, aby uzyskać pewne znaczące dane z tego, które mogą pomóc firmie lub organizacji w ulepszeniu ich działalności poprzez analizę tych danych. Integracja pomaga w uzyskiwaniu danych, czyszczeniu danych, przeprowadzaniu niezbędnych transformacji itp., A następnie ładowaniu ich do hurtowni danych.

Co to jest integracja danych Talend?

  • Talend to narzędzie ETL służące do integracji danych. Talend zapewnia rozwiązanie do przygotowania danych, jakości danych, integracji danych i dużych zbiorów danych.
  • Talend oferuje Open Studio, które jest otwartym oprogramowaniem do integracji danych i dużych zbiorów danych.
  • Talend open studio pomaga w przetwarzaniu ogromnych danych za pomocą komponentów Big Data. Ma ponad 800 komponentów do różnych celów integracyjnych. Tutaj będziemy omawiać niektóre elementy. Aby to ułatwić, patrz poniższy przykład
  • Operator karty SIM ma ogromne dane o planach, klientach, szczegółach karty SIM itp. Dane te są ogromne, dlatego w integracji wykorzystywane są również duże dane.

Klient Zakup karty SIM za pomocą identyfikatora rządowego.
Nadając swoje imię i nazwisko: AB C
Adres jako: Chennai, Chennai
Numer telefonu: 1234567890

Po integracji danych

Imię: AB
Nazwisko: C
Adres: Chennai, Indie
Numer telefonu: +911234567890

Tutaj dane są oczyszczane i przekształcane w coś bardziej znaczącego.

Korzyści z integracji danych

Tutaj będziemy omawiać zalety integracji danych.

  1. Analiza trendów biznesowych za pomocą integracji danych
  2. Łączenie danych w jeden system
  3. Oszczędność czasu, większa wydajność i mniej przeróbek
  4. Łatwe generowanie raportów - wykorzystywane przez narzędzia BI
  5. Utrzymanie i wstawianie danych do hurtowni danych i centrów danych

Zastosowanie integracji danych Talend

Tutaj będziemy omawiać stosowanie integracji danych Talend.

1. Praca z Talendem

  • Upewnij się, że masz zainstalowaną Javę i ustawione zmienne środowiskowe.
  • Pobierz oprogramowanie typu open source ze strony internetowej Talend i zainstaluj oprogramowanie.
  • Utwórz nowy projekt i zakończ konfigurację
  • Talend otworzy się z zakładką projektanta.
  • Talend to narzędzie oparte na zaćmieniach, a komponenty można przeciągać z palety lub kliknąć i wpisać nazwę komponentów.

2. Pierwsze zadanie Czytanie pliku

  • Wyszukaj składnik tFileinputdelimited. Ten komponent służy do odczytu plików rozdzielanych.
  • Umieść komponent tFileinputdelimited. Wyszukaj tLogRow i umieść go w projektancie zadań.
  • Kliknij prawym przyciskiem myszy tFileinputdelimited i wybierz row-> main i narysuj linię do tLogRow.
  • W komponencie karta wybiera ścieżkę pliku, który chcesz odczytać, i podaje separator wierszy jako \ n. Jeśli plik ma separator, możesz wspomnieć o separatorze.
  • Kliknij schemat i podaj szczegóły typu kolumny lub możesz odczytać cały wiersz jako ciąg z jedną kolumną, a wartość separatora powinna być pusta.
  • Możesz również pominąć nagłówek i stopkę.
  • W komponencie tLogRow wybierz sposób, w jaki chcesz widzieć dane. Format tabeli lub format jednowierszowy.
  • tLogRow wyświetla dane wyjściowe w konsoli uruchamiania.
  • Po podłączeniu zarówno tFileinputdelimited, jak i tLogRow uruchom zadanie z zakładki uruchamiania.
  • Możesz zobaczyć zawartość pliku w konsoli wydrukowaną.

3. Druga praca za pomocą Tmap

  • Przeczytaj plik i przefiltruj go do różnych plików wyjściowych.
  • Odczytaj plik w komponencie tFileinputdelimited ze schematem jednej kolumny jako rekordem.
  • Komponent Tmap - ten komponent pomaga w transformacji danych za pomocą niektórych wbudowanych funkcji, takich jak wyszukiwanie, sprzężenia itp.
  • W tmap utwórz dwa wyjścia out1 i out2.
  • W filtrze out1 dodaj record.contains („talend”) i narysuj rekord na out1.
  • Narysuj linię rekordu do innego wyjścia2.
  • Z tmapy weź główne rzędy i połącz z dwoma tFileoutputdelimited.
  • link out1 do jednego pliku tfileoutputdelimited1 jako plik1.txt i out2 do innego pliku tfileoutputdelimited2 jako plik2.txt.
  • txt będzie zawierał rekordy zawierające talend.
  • txt będzie zawierał rekordy o innych nazwach.

4. Wbudowane i repozytorium

  • Wbudowany oznacza, że ​​należy ustawić schemat lub szczegóły dotyczące łączenia się z bazą danych za każdym razem.
  • Repozytorium przydaje się do zapisywania szczegółów w metadanych, dzięki czemu można ponownie użyć tych samych danych za każdym razem bez ręcznego wprowadzania szczegółów za każdym razem. W metadanych można zapisać schemat plików, połączenia z bazą danych, połączenie Hadoop, połączenie gałęzi, połączenie s3 i wiele innych.

Elementy integracji danych Talend

Tutaj będziemy omawiać składniki Talend Data Integration.

1. tFileList: ten składnik wyświetla listę plików w katalogu lub folderze z danym wzorem maski plików.

2. tMysqlConnection: Ten komponent służy do łączenia się z bazą danych MySQL. Komponenty Mysql mogą korzystać z tego połączenia w celu łatwej konfiguracji połączenia z bazą danych.

3. tMysqlInput: ten składnik pomaga uruchomić zapytanie bazy danych mysql i uzyskać tabelę lub kolumny. Ten komponent służy do wybierania zapytań i uzyskiwania szczegółowych informacji.

4. tMysqlOutput: Ten składnik służy do wstawiania lub aktualizowania danych w bazie danych Mysql.

5. tPrejob: Ten komponent jest uruchamiany jako pierwszy w zadaniu i można go łączyć z innymi komponentami przy pomocy Subjob ok.

6. tPostjob: Ten element jest ostatni do wykonania w zadaniu. Możesz to połączyć za pomocą komponentów zamykających połączenie.

7. tLogcatcher: Ten komponent przechwytuje ostrzeżenia i błędy w zadaniu. Jest to najważniejszy element stosowany w technice obsługi błędów. Dzienniki błędów mogą być zapisywane przy użyciu tego komponentu wraz z tfileoutputdelimited. Istnieje ponad 800 elementów.

8. Zmienna kontekstowa: Zmienne kontekstowe to zmienne, których można użyć w zadaniu w dowolnym miejscu. Przechowuje wartości i może być przekazany do innego zadania również przy użyciu komponentów tRun. Zastosowania zmiennych kontekstowych polegają na tym, że możemy zmienić wartość do różnych celów. Na przykład możemy mieć zestaw wartości dla grupy kontekstów programistycznych i inny zestaw wartości kontekstu dla produkcji. W ten sposób nie musimy zmieniać zadania, wystarczy zmienić parametry kontekstu.

9. Budowanie pracy: Aby zbudować pracę, kliknij ją prawym przyciskiem myszy i wybierz pracę. Możesz zaimportować zadanie kompilacji do TAC. W konsoli administracyjnej Talend planujesz zadanie tak, aby wyzwalało także zależność zestawu zadań. Możesz także zaimportować zadanie z repozytorium Nexus przy użyciu zadania artefaktu.

10. Utwórz zadanie w TAC: Otwórz dyrygenta pracy w TAC. Kliknij nowe zadania i wybierz zadania normalne lub artefaktowe. Zaimportuj zadanie kompilacji lub wybierz z nexusa. Wybierz serwer zadań, na którym będzie działać talend. Zapisz zadanie. Teraz możesz wdrożyć i uruchomić zadanie.

Wniosek

  • „Uprość ETL i ELT dzięki wiodącemu darmowemu narzędziu ETL typu open source dla dużych zbiorów danych”.
  • Talend Bigdata ma wiele komponentów do obsługi ogromnych danych.
  • Zadanie standardowe, zadanie Bigdata, zadania przesyłania strumieniowego Bigdata to różne rodzaje zadań dostępnych w Talend.
  • Zadania Bigdata można tworzyć w środowisku Spark lub MapReduce.

Polecany artykuł

To jest przewodnik po integracji danych Talend. Tutaj omawiamy wprowadzenie do Talend Data Integration i korzyści wraz z aplikacjami i komponentami. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej

  1. Narzędzie do integracji danych | Najlepsze 12 narzędzi
  2. Pytania i odpowiedzi do wywiadu Talend
  3. Najlepsze narzędzia do wizualizacji danych ze swoimi typami
  4. Talend vs Mulesoft - Różnice
  5. Co to jest Data Mart?

Kategoria: