Wprowadzenie do analizy danych Wywiad Pytania i odpowiedzi
W końcu znalazłeś swoją wymarzoną pracę w Data Analytics, ale zastanawiasz się, jak złamać wywiad z Data Analytics w 2019 roku i jakie mogą być prawdopodobne pytania do wywiadu z Data Analytics. Każda rozmowa z Data Analytics jest inna, a zakres zadania jest inny. Mając to na uwadze, opracowaliśmy najczęstsze pytania i odpowiedzi do wywiadu z Data Analytics, które pomogą Ci odnieść sukces w wywiadzie z Data Analytics.
Poniżej znajdują się pytania dotyczące wywiadu z najlepszymi analitykami danych w 2019 r., Które są najczęściej zadawane podczas wywiadu
1. Jaka jest różnica między Data Mining a Data Analysis?
Odpowiedź:
|
2. Wspomnij o różnych etapach projektu analitycznego?
Odpowiedź:
Analiza danych zajmuje się zbieraniem, czyszczeniem, przekształcaniem i modelowaniem danych w celu uzyskania cennych informacji i lepszego podejmowania decyzji w organizacji. Kroki zaangażowane w proces analizy danych są następujące:
Eksploracja danych - po zbadaniu problemu biznesowego analityk danych musi przeanalizować pierwotną przyczynę problemu.
Przygotowanie danych - Na tym etapie procesu analizy danych wykrywamy anomalie danych, takie jak brakujące wartości w danych.
Modelowanie danych - etap modelowania rozpoczyna się po przygotowaniu danych. Modelowanie jest iteracyjnym procesem, w którym model jest uruchamiany wielokrotnie w celu ulepszeń. Modelowanie danych zapewnia najlepszy możliwy wynik problemu biznesowego.
Walidacja - na tym etapie model dostarczony przez klienta i model opracowany przez analityka danych są sprawdzane względem siebie, aby sprawdzić, czy opracowany model spełni wymagania biznesowe.
Wdrożenie modelu i śledzenie - Czy w ostatnim etapie analizy danych jest wdrażanie modelu, a następnie śledzenie w celu upewnienia się, że model został poprawnie wdrożony, czy nie?
3.Jaka jest odpowiedzialność analityka danych?
Odpowiedź:
• Rozwiązywanie problemów związanych z biznesem dla klientów i wykonywanie operacji audytu danych.
• Interpretować dane przy użyciu technik statystycznych.
• Zidentyfikuj obszary możliwości poprawy.
• Analizuj, identyfikuj i interpretuj trendy lub wzorce w złożonych zestawach danych.
• Pozyskaj dane z pierwotnych lub wtórnych źródeł danych.
• Utrzymanie baz danych / systemów danych.
• Znajdź i rozwiąż problemy z kodem za pomocą wskaźników wydajności.
• Zabezpieczanie bazy danych poprzez opracowanie systemu dostępu.
4. Jakie są kolizje tabeli mieszania? Jak tego uniknąć?
Odpowiedź:
Kolizja tabeli skrótów ma miejsce, gdy dwa różne klucze mają taką samą wartość. Istnieje wiele technik pozwalających uniknąć kolizji tabeli mieszającej, tutaj wymieniamy dwie:
Oddzielne tworzenie łańcuchów: wykorzystuje strukturę danych, która łączy się z tym samym gniazdem, aby przechowywać wiele elementów.
Otwarte adresowanie: wyszukuje inne gniazda za pomocą drugiej funkcji i zapisuje element w pierwszym pustym polu.
5. Lista najlepszych narzędzi, które mogą być przydatne do analizy danych?
Odpowiedź:
•Żywy obraz
• RapidMiner
• OpenRefine
• KNIME
• Operatorzy wyszukiwania Google
• Solver
• NodeXL
• io
• Wolfram Alpha
• Tabele Google Fusion
6. Jaka jest różnica między eksploracją danych a profilowaniem danych?
Odpowiedź:
Różnica między eksploracją danych a profilowaniem danych jest następująca -
• Profilowanie danych: jest ukierunkowane na natychmiastową analizę poszczególnych atrybutów, takich jak zróżnicowanie ceny, odrębna cena i ich częstotliwość, występowanie wartości zerowych, typ danych, długość itp.
• Eksploracja danych: koncentruje się na zależnościach, wykrywaniu sekwencji, utrzymywaniu relacji między kilkoma atrybutami, analizie skupień, wykrywaniu nietypowych rekordów itp.
7. Wyjaśnić algorytm K-średnich i hierarchiczny algorytm grupowania?
Odpowiedź:
Algorytm K-Mean - K mean to znana metoda partycjonowania. W algorytmie K-średnich klastry są sferyczne, tzn. Punkty danych w klastrze są wyśrodkowane na tym klastrze. Również wariancja klastrów jest podobna, tzn. Każdy punkt danych należy do najbliższego klastra
Hierarchiczny algorytm grupowania - Hierarchiczny algorytm grupowania łączy i dzieli istniejące grupy i tworzy dla nich hierarchiczną strukturę, aby pokazać kolejność podziału grup.
8. Co to jest czyszczenie danych? Wymień kilka najlepszych praktyk, których należy przestrzegać podczas czyszczenia danych?
Odpowiedź:
Z danego zestawu danych niezwykle ważne jest sortowanie informacji wymaganych do analizy danych. Czyszczenie danych jest kluczowym krokiem, w którym dane są sprawdzane w celu wykrycia jakichkolwiek anomalii, usunięcia powtarzających się i niepoprawnych informacji itp. Czyszczenie danych nie wymaga usunięcia żadnych istniejących informacji z bazy danych, a jedynie poprawia jakość danych, dzięki czemu można je wykorzystać do analizy .
Niektóre z najlepszych praktyk czyszczenia danych obejmują -
• Opracowanie planu jakości danych w celu określenia, gdzie występują błędy maksymalnej jakości danych, abyś mógł ocenić pierwotną przyczynę i zaplanować zgodnie z tym.
• Postępuj zgodnie ze zwykłą metodą uzasadnienia niezbędnych informacji, zanim zostaną one wprowadzone do informacji.
• Zidentyfikuj duplikaty danych i sprawdź poprawność danych, ponieważ pozwoli to zaoszczędzić dużo czasu podczas analizy.
• Śledzenie wszystkich operacji doskonalących przeprowadzonych na informacjach jest niezwykle niezbędne, aby w razie potrzeby powtórzyć lub usunąć wszelkie operacje.
9. Jakie są niektóre metody statystyczne przydatne dla analityka danych?
Odpowiedź:
Metody statystyczne przydatne dla naukowców zajmujących się danymi są
• metoda bayesowska
• Proces Markowa
• Procesy przestrzenne i klastrowe
• Statystyki rang, percentyl, wykrywanie wartości odstających
• Techniki imputacji itp.
• Algorytm simpleksowy
• Optymalizacja matematyczna
10. Wyjaśnij, co to jest przypisanie? Wymień różne rodzaje technik imputacji? Która metoda imputacji jest bardziej korzystna?
Odpowiedź:
Podczas imputacji mamy tendencję do zastępowania brakujących informacji podstawionymi wartościami. Rodzaje technik imputacji obejmują:
• Pojedyncza imputacja: Pojedyncza imputacja oznacza, że brakująca wartość jest zastępowana wartością. W tej metodzie pobierany jest rozmiar próbki.
• Imputacja „gorącej talii”: brakująca wartość jest przypisywana z losowo wybranego podobnego rekordu za pomocą karty dziurkowania
• Imputacja zimnej talii: Działa tak samo jak imputacja zimnej talii, ale jest nieco bardziej zaawansowana i wybiera dawców z innych zbiorów danych
• Średnia imputacja: polega na zastąpieniu brakującej wartości przewidywanymi wartościami innych zmiennych.
• Imputacja regresji: polega na zastąpieniu brakującej wartości przewidywanymi wartościami pewnej wartości w zależności od innych zmiennych.
• Regresja stochastyczna: jest taka sama jak imputacja regresji, jednak dodaje częstą wariancję regresji do imputacji regresji
• Wiele imputacji: W przeciwieństwie do pojedynczej imputacji, wiele imputacji szacuje wartości wiele razy
Chociaż powszechnie stosowana jest pojedyncza imputacja, nie odzwierciedla ona niepewności wynikającej z losowego braku danych. Zatem wielokrotne imputacje są bardziej korzystne niż pojedyncze imputacje w przypadku losowych brakujących danych.
Polecane artykuły
Jest to obszerny przewodnik po pytaniach i odpowiedziach na analitykę danych, dzięki czemu kandydat może łatwo przełamać te pytania podczas wywiadu. Możesz także przejrzeć następujące artykuły, aby dowiedzieć się więcej -
- 10 przydatnych pytań i odpowiedzi podczas wywiadu zwinnego
- 8 niesamowitych pytań do wywiadu algorytmicznego
- 25 najważniejszych pytań do wywiadu z zakresu informatyki
- 10 niesamowitych wywiadów z inżynierami danych - pytania i odpowiedzi