Różnica między nauką o danych a uczeniem maszynowym
Analiza danych jest ewolucyjnym rozszerzeniem statystyki, która jest w stanie poradzić sobie z ogromnymi ilościami za pomocą technologii informatycznych. Uczenie maszynowe to dziedzina nauki, która daje komputerom możliwość uczenia się bez wyraźnego programowania. Analiza danych obejmuje szeroki zakres technologii danych, w tym SQL, Python, R i Hadoop, Spark itp. Uczenie maszynowe jest postrzegane jako proces, można go zdefiniować jako proces, w którym komputer może pracować dokładniej, gdy się zbiera i uczy się na podstawie podanych danych.
Bezpośrednie porównanie nauki danych z uczeniem maszynowym (infografiki)
Poniżej znajduje się porównanie 5 najlepszych między Data Science a Machine Learning
Kluczowa różnica między Data Science a Machine Learning
Poniżej przedstawiono różnicę między Data Science a Machine Learning
- Komponenty - jak wspomniano wcześniej, systemy Data Science obejmują cały cykl życia danych i zazwyczaj mają komponenty do pokrycia w następujący sposób:
- Zbieranie i profilowanie danych - potoki i zadania profilowania ETL (Extract Transform Load)
- Przetwarzanie rozproszone - skalowalna w poziomie dystrybucja i przetwarzanie danych
- Automatyzacja inteligencji - zautomatyzowane modele ML do reakcji online (prognozy, rekomendacje) i wykrywania oszustw.
- Wizualizacja danych - wizualnie eksploruj dane, aby uzyskać lepszą intuicję danych. Integralna część modelowania ML.
- Pulpity nawigacyjne i BI - Predefiniowane pulpity nawigacyjne z możliwością wycinania i kostkowania dla interesariuszy wyższego poziomu.
- Inżynieria danych - Zadbanie o to, by dane ciepłe i zimne były zawsze dostępne. Obejmuje tworzenie kopii zapasowych danych, bezpieczeństwo, odzyskiwanie po awarii
- Wdrożenie w trybie produkcyjnym - migracja systemu do produkcji zgodnie ze standardowymi praktykami branżowymi.
- Zautomatyzowane decyzje - obejmuje to logikę biznesową nad danymi lub złożony model matematyczny przeszkolony przy użyciu dowolnego algorytmu ML.
Modelowanie maszynowe rozpoczyna się od danych, a typowe komponenty są następujące:
- Zrozum problem - upewnij się, że skutecznym sposobem rozwiązania problemu jest ML. Pamiętaj, że nie wszystkie problemy można rozwiązać za pomocą ML.
- Eksploruj dane - aby uzyskać intuicję funkcji używanych w modelu ML. Może to wymagać więcej niż jednej iteracji. Wizualizacja danych odgrywa tutaj kluczową rolę.
- Przygotuj dane - jest to ważny etap mający duży wpływ na dokładność modelu ML. Zajmuje się kwestią danych, np. Co zrobić z brakującymi danymi funkcji? Zamień na wartość fikcyjną, taką jak zero, średnią innych wartości lub usuń funkcję z modelu ?. Funkcje skalowania, które zapewniają, że wartości wszystkich funkcji znajdują się w tym samym zakresie, są krytyczne dla wielu modeli ML. Wiele innych technik, takich jak generowanie cech wielomianowych, jest również tutaj używanych do uzyskania nowych funkcji.
- Wybierz model i pociąg - Model jest wybierany na podstawie rodzaju problemu (Prognozowanie lub klasyfikacja itp.) I rodzaju zestawu funkcji (niektóre algorytmy działają z małą liczbą instancji z dużą liczbą funkcji, a inne w innych przypadkach) .
- Miara wydajności - w Data Science miary wydajności nie są ustandaryzowane, będą się zmieniać z każdym przypadkiem. Zazwyczaj będzie to wskaźnik aktualności danych, jakości danych, możliwości zapytania, limitów współbieżności w dostępie do danych, interaktywnej wizualizacji itp.
W modelach ML miary wydajności są krystalicznie czyste. Każdy algorytm będzie miał miarę wskazującą, jak dobrze lub źle model opisuje podane dane treningowe. Na przykład RME (błąd pierwiastkowy kwadratowy) jest stosowany w regresji liniowej jako wskaźnik błąd w modelu.
- Metodologia rozwoju - projekty Data Science są bardziej dostosowane do projektu inżynieryjnego z jasno określonymi kamieniami milowymi, ale projekty ML są bardziej podobne do badań, które zaczynają się od hipotezy i próby udowodnienia jej na podstawie dostępnych danych.
- Wizualizacja - Wizualizacja w ogóle Data Science reprezentuje dane bezpośrednio przy użyciu dowolnych popularnych wykresów, takich jak słupek, ciasto itp. Jednak w ML stosowane wizualizacje reprezentują również model matematyczny danych treningowych. Na przykład wizualizacja macierzy pomieszania klasyfikacji wieloklasowej pomaga szybko zidentyfikować fałsz pozytywne i negatywne.
- Języki - języki składniowe podobne do SQL i SQL (HiveQL, Spark SQL itp.) Są najczęściej używanym językiem w świecie Data Science. Popularne języki skryptowe przetwarzania danych, takie jak Perl, awk, sed, są również obsługiwane. kategoria używana szeroko (Java dla Hadoop, Scala dla Spark itp.).
Python i R są najczęściej używanym językiem w świecie uczenia maszynowego. Obecnie Python nabiera tempa, ponieważ nowi badacze zajmujący się głębokim uczeniem są głównie konwertowani na Python. SQL odgrywa również ważną rolę w fazie eksploracji danych ML
Analiza danych vs Tabela uczenia maszynowego
Podstawa porównania | Data Science | Nauczanie maszynowe |
Zakres | Twórz spostrzeżenia na podstawie danych dotyczących wszystkich rzeczywistych złożoności, w tym zadań takich jak zrozumienie wymagań, wyodrębnianie danych itp. | Dokładnie klasyfikuj lub przewiduj wynik dla nowego punktu danych, ucząc się wzorców na podstawie danych historycznych, używając modeli matematycznych. |
Dane wejściowe | Większość danych wejściowych jest generowana jako dane materiałów eksploatacyjnych dla ludzi, które mają być odczytywane lub analizowane przez ludzi, takie jak dane tabelaryczne lub obrazy. | Dane wejściowe dla ML zostaną przekształcone specjalnie dla używanych algorytmów. Skalowanie funkcji, osadzanie programu Word lub dodawanie funkcji wielomianowych to tylko niektóre przykłady |
Złożoność systemu | ● Nadchodzą komponenty do obsługi nieuporządkowanych surowych danych.
● Wiele ruchomych komponentów zwykle planowanych przez warstwę aranżacyjną w celu synchronizacji niezależnych zadań | ● Główna złożoność polega na algorytmach i pojęciach matematycznych
● Modele zespołowe będą miały więcej niż jeden model ML i każdy będzie miał ważony udział w końcowej wydajności |
Preferowany zestaw umiejętności | ● Specjalizacja domenowa
● ETL i profilowanie danych ● Silny SQL ● Systemy NoSQL ● Standardowe raportowanie / wizualizacja | ● Silne zrozumienie matematyki
● Programowanie w języku Python / R. ● Wranglowanie danych za pomocą SQL ● Wizualizacja specyficzna dla modelu |
Specyfikacja sprzętu | ● Skalowane poziomo systemy preferowały obsługę dużych danych
● Wysokie RAm i dyski SSD stosowane w celu przezwyciężenia wąskiego gardła we / wy | ● Procesory graficzne są preferowane do intensywnych operacji wektorowych
● Trwają prace nad bardziej zaawansowanymi wersjami, takimi jak TPU (link) |
Wniosek - analiza danych a uczenie maszynowe
Zarówno w dziedzinie nauki o danych, jak i uczenia maszynowego staramy się wydobywać informacje i spostrzeżenia z danych. Uczenie maszynowe, które pozwala na samodzielne uczenie się algorytmów. Obecnie w Data Science stosuje się zaawansowane modele ML do automatycznego wykrywania i profilowania danych. Najlepszym tego przykładem jest Google Cloud Dataprep.
Polecany artykuł:
Jest to przewodnik po nauce o danych a uczenie maszynowe, ich znaczeniu, bezpośrednim porównaniu, kluczowych różnicach, tabeli porównawczej i wnioskach. Możesz także przejrzeć następujące artykuły, aby dowiedzieć się więcej -
- Wywiad z twórcami platformy Hadoop Pytania
- Big Data vs Data Science - czym się różnią?
- Nauka o danych i jej rosnące znaczenie
- Statystyki a uczenie maszynowe - różnice między
- Jak złamać wywiad programisty Hadoop?