Wywiad z 8 najlepszymi inżynierami Big Data (aktualizacja na 2019 r.)

Wprowadzenie do pytań i odpowiedzi podczas wywiadu Big Data

Wszelkiego rodzaju dane generowane w Internecie nazywane są Big Data, ponad setki GB danych są generowane przez Internet tylko w wyniku działań online. Aktywność online, taka jak aktywność internetowa, blogi, tekst, pliki wideo / audio, obrazy, e-mail, aktywność w sieci społecznościowej. Big data potrzebuje specjalistycznych systemów i narzędzi programowych do przetwarzania wszystkich nieustrukturyzowanych danych. Dane, które można wygenerować z tych działań, określane są jako Big Data. Big Data jest całkowicie szeroki i rozproszony przez Internet, dlatego przetwarzanie dużych zbiorów danych wymaga rozproszonych systemów i narzędzi do wydobywania z nich informacji.

Poniżej znajdują się pytania i odpowiedzi na ważne ważne rozmowy Big Data 2019:

Jeśli szukasz pracy związanej z Big Data, musisz przygotować się na pytania do rozmowy kwalifikacyjnej Big Data 2019. Chociaż każda rozmowa w Big Data jest inna, a zakres pracy jest inny, możemy pomóc Ci w odpowiedzi na najważniejsze pytania i odpowiedzi w rozmowie w Big Data, które pomogą Ci podjąć skok i osiągnąć sukces w rozmowie w Big Data.

Te pytania są podzielone na dwie części:

Część 1 - Pytania do Big Data Interview (Basic)

Ta pierwsza część obejmuje podstawowe pytania i odpowiedzi do wywiadu Big Data

1. Jakie jest znaczenie dużych zbiorów danych i czym się różnią?

Odpowiedź:
Big data to termin reprezentujący wszelkiego rodzaju dane generowane w Internecie. W Internecie ponad setki GB danych są generowane tylko przez aktywność online. Tutaj aktywność online oznacza aktywność w sieci, blogi, tekst, pliki wideo / audio, obrazy, e-mail, aktywność w sieci społecznościowej i tak dalej. Big data można nazwać danymi utworzonymi ze wszystkich tych działań. Dane generowane online są głównie w formie nieuporządkowanej. Duże dane będą również zawierać dane transakcji w bazie danych, pliki dziennika systemu, a także dane generowane z inteligentnych urządzeń, takich jak czujniki, Internet przedmiotów, znaczniki RFID i tak dalej, oprócz działań online.
Big data potrzebuje specjalistycznych systemów i narzędzi programowych do przetwarzania wszystkich nieustrukturyzowanych danych. W rzeczywistości, według niektórych szacunków branżowych prawie 85% danych generowanych w Internecie jest nieustrukturyzowanych. Zwykle relacyjne bazy danych mają ustrukturyzowany format, a baza danych jest scentralizowana. Dlatego przetwarzanie RDBMS można szybko wykonać przy użyciu języka zapytań, takiego jak SQL. Z drugiej strony, duże zbiory danych są bardzo duże i rozproszone w Internecie, dlatego przetwarzanie dużych zbiorów będzie wymagało rozproszonych systemów i narzędzi do wydobywania z nich informacji. Big data potrzebuje specjalistycznych narzędzi, takich jak Hadoop, Hive lub inne, wraz z wydajnym sprzętem i sieciami do ich przetwarzania.

2. Jakie są cechy dużych zbiorów danych?

Odpowiedź:
Big data ma trzy główne cechy: objętość, różnorodność i szybkość.
Charakterystyka objętościowa odnosi się do wielkości danych. Szacunki pokazują, że każdego dnia generowanych jest ponad 3 miliony GB danych. Przetwarzanie takiej ilości danych nie jest możliwe na zwykłym komputerze osobistym lub w sieci klient-serwer w środowisku biurowym o ograniczonej przepustowości obliczeniowej i pojemnościach pamięci. Usługi w chmurze zapewniają jednak rozwiązania do obsługi dużych ilości danych i ich skutecznego przetwarzania przy użyciu rozproszonych architektur obliczeniowych.
Charakterystyka różnorodności odnosi się do formatu dużych zbiorów danych - ustrukturyzowanego lub nieustrukturyzowanego. Tradycyjny RDBMS pasuje do formatu strukturalnego. Przykładem nieustrukturyzowanego formatu danych jest format pliku wideo, pliki obrazów, format zwykłego tekstu, z dokumentu internetowego lub standardowych dokumentów MS Word, wszystkie mają unikalne formaty i tak dalej. Należy również zauważyć, że RDBMS nie ma możliwości obsługi niestrukturalnych formatów danych. Ponadto wszystkie te nieustrukturyzowane dane muszą być pogrupowane i skonsolidowane, co stwarza zapotrzebowanie na specjalistyczne narzędzia i systemy. Ponadto nowe dane są dodawane każdego dnia lub każdej minuty, a dane stale rosną. Dlatego big data jest bardziej synonimem różnorodności.
Charakterystyka prędkości odnosi się do prędkości tworzenia danych i wydajności wymaganej do przetworzenia wszystkich danych. Na przykład z Facebooka korzysta ponad 1, 6 miliarda użytkowników w ciągu miesiąca. Podobnie istnieją inne witryny sieci społecznościowych, YouTube, usługi Google itp. Takie strumienie danych muszą być przetwarzane za pomocą zapytań w czasie rzeczywistym i muszą być przechowywane bez utraty danych. Zatem charakterystyka prędkości jest ważna w przetwarzaniu dużych zbiorów danych.
Ponadto inne cechy obejmują prawdziwość i wartość. Veracity określi niezawodność i wiarygodność danych, a wartość jest wartością uzyskaną przez organizacje z przetwarzania dużych zbiorów danych.

Przejdźmy do następnych pytań do Big Data Interview

3. Dlaczego duże zbiory danych są ważne dla organizacji?

Odpowiedź:
To jest podstawowe pytanie do wywiadu Big Data zadane podczas wywiadu. Duże zbiory danych są ważne, ponieważ przetwarzając duże zbiory, organizacje mogą uzyskiwać wgląd w informacje związane z:
• Redukcja kosztów
• Ulepszenia produktów lub usług
• Aby zrozumieć zachowania klientów i rynki
• Skuteczne podejmowanie decyzji
• Aby stać się bardziej konkurencyjnym

4. Wymień niektóre narzędzia lub systemy wykorzystywane w przetwarzaniu dużych zbiorów danych?

Odpowiedź:
Przetwarzanie i analiza dużych danych można przeprowadzić za pomocą,
• Hadoop
• Rój
• Świnia
• Mahout
• Flume

Część 2 - Pytania do dużych zbiorów danych (zaawansowane)

Rzućmy teraz okiem na zaawansowane pytania dotyczące wywiadu w zakresie dużych zbiorów danych.

5. W jaki sposób organizacje dużych zbiorów danych mogą wspierać organizacje?

Odpowiedź:
Duże zbiory danych mogą wspierać organizacje na wiele sposobów. Informacje pozyskane z dużych zbiorów danych mogą być wykorzystane,
• Lepsza koordynacja z klientami i interesariuszami oraz rozwiązywanie problemów
• Ulepsz raportowanie i analizy w celu ulepszenia produktu lub usługi
• Dostosuj produkty i usługi do wybranych rynków
• Zapewnij lepszą wymianę informacji
• Wsparcie w podejmowaniu decyzji zarządczych
• Zidentyfikuj nowe możliwości, pomysły na produkty i nowe rynki
• Zbierz dane z wielu źródeł i zarchiwizuj je do wykorzystania w przyszłości
• Utrzymanie baz danych, systemów
• Określ wskaźniki wydajności
• Zrozumieć współzależności między funkcjami biznesowymi
• Oceń wydajność organizacyjną

6. Wyjaśnij, w jaki sposób można wykorzystać duże zbiory danych do zwiększenia wartości biznesowej?

Odpowiedź:
Chociaż rozumie potrzebę analizowania dużych zbiorów danych, taka analiza pomoże firmom zidentyfikować swoją pozycję na rynkach i pomoże firmom wyróżnić się na tle konkurencji. Na przykład na podstawie wyników analizy dużych zbiorów danych organizacje mogą zrozumieć potrzebę niestandardowych produktów lub potencjalne rynki w kierunku zwiększenia przychodów i wartości. Analiza dużych zbiorów danych będzie polegać na grupowaniu danych z różnych źródeł w celu zrozumienia trendów i informacji związanych z biznesem. Gdy analiza dużych zbiorów danych jest przeprowadzana w sposób zaplanowany przez gromadzenie danych z odpowiednich źródeł, organizacje mogą z łatwością generować wartość biznesową i przychody o prawie 5% do 20%. Niektóre przykłady takich organizacji to Amazon, Linkedin, WalMart i wiele innych.

Przejdźmy do następnych pytań do Big Data Interview

7. Co to jest wdrożenie rozwiązania Big Data?

Odpowiedź:
Rozwiązania Big Data są najpierw wdrażane na małą skalę, w oparciu o koncepcję odpowiednią dla biznesu. Z wyniku, który jest prototypowym rozwiązaniem, rozwiązanie biznesowe jest dalej skalowane. Jest to najpopularniejsze pytanie podczas wywiadu Big Data zadane podczas wywiadu Big Data Niektóre z najlepszych praktyk stosowanych w branży to:
• Mieć jasne cele projektu i współpracować tam, gdzie to konieczne
• Zbieranie danych z właściwych źródeł
• Upewnij się, że wyniki nie są przekrzywione, ponieważ może to prowadzić do błędnych wniosków
• Przygotuj się na innowacje, biorąc pod uwagę podejścia hybrydowe w przetwarzaniu, włączając dane ze strukturalnych i nieustrukturyzowanych typów, włączając wewnętrzne i zewnętrzne źródła danych
• Zrozumienie wpływu dużych zbiorów danych na istniejące przepływy informacji w organizacji

8. Jakie są kroki w przypadku rozwiązań Big Data?

Odpowiedź:
Rozwiązania Big Data wykonują trzy standardowe kroki. Oni są:
Przyjmowanie danych: w tym kroku zdefiniowane zostanie podejście do wyodrębniania i konsolidacji danych z wielu źródeł. Na przykład źródłami danych mogą być kanały społecznościowe, CRM, RDBMS itp. Dane wyodrębnione z różnych źródeł są przechowywane w rozproszonym systemie plików Hadoop (HDFS).
Przechowywanie danych: Jest to drugi krok, wyodrębnione dane są przechowywane. Ta pamięć może być w HDFS lub HBase (baza danych NoSQL).
Przetwarzaj dane: to ostatni krok. Przechowywane dane muszą zostać przetworzone. Przetwarzanie odbywa się za pomocą narzędzi takich jak Spark, Pig, MapReduce i innych.

Polecany artykuł

Jest to obszerny przewodnik po pytaniach i odpowiedziach podczas wywiadu Big Data, dzięki czemu kandydat może łatwo zlikwidować te pytania podczas wywiadu Big Data. Możesz także przejrzeć następujące artykuły, aby dowiedzieć się więcej -