Wprowadzenie do Data Science Machine Learning

Dane to w zasadzie informacje, zwłaszcza fakty lub liczby, gromadzone w celu zbadania i rozpatrzenia oraz wykorzystywane w celu ułatwienia podejmowania decyzji lub informacje w formie elektronicznej, które mogą być przechowywane i wykorzystywane przez komputer. Teraz poznamy definicję nauki danych i uczenia maszynowego.

Data Science (DS) : Jest to bardzo szeroka dziedzina, w której różne techniki, takie jak metody statystyczne, podejścia naukowe, procesy architektoniczne, różnorodne algorytmy są wykorzystywane do wydobywania wnikliwych informacji z dostępnych danych, które mogą być danymi ustrukturyzowanymi lub danymi nieuporządkowanymi.

Uczenie maszynowe ( ML ): Jest to podzbiór nauki o danych. W uczeniu maszynowym w zasadzie za pomocą modeli statystycznych i różnych algorytmów maszyny są szkolone bez wyraźnych instrukcji, opiera się na wzorcach utworzonych na podstawie danych. ”

Znaczenie Data Science

  • Żyjemy w epoce technologii, w której każda osoba w jakiś sposób korzysta z technologii zapewniającej komfort / efektywność / łatwość, na przykład telefon komórkowy / laptopy / tablety do komunikacji, samochody / pociągi / autobusy / samoloty do transportu, usługi takie jak bankowość / prąd i wiele innych dla ułatwienia życia.
  • Przy każdej takiej okazji tworzymy dane świadomie lub nieświadomie, takie jak dzienniki połączeń / SMS-y / media społecznościowe - wszystkie zdjęcia / filmy / blogi są częścią danych, a transport naszej nawigacji do różnych lokalizacji za pomocą GPS / wydajność pojazdu zarejestrowanego przez ECU jest również część danych. Nasze transakcje w portfelach bankowych i mobilnych generują ogromną ilość danych, zużycie energii elektrycznej przez dowolny obszar lub sektor jest również częścią danych.
  • I powiedzieć, że dane rosną wykładniczo z dnia na dzień lub z minuty na minutę.
  • Teraz pojawia się pytanie, czy możemy coś zrobić z tymi danymi? Czy możemy wykorzystać te dane, aby dostarczyć użytecznych informacji? Czy możemy zwiększyć skuteczność? Czy możemy wykorzystać te dane do przewidywania przyszłych wyników?
  • Aby odpowiedzieć na wszystkie takie pytania, mamy dziedzinę zwaną nauką danych.
  • Nauki o danych można uznać za szerokie pole, które obejmuje eksplorację danych, inżynierię danych, wizualizację danych, metody statystyczne integracji danych, programowanie w języku R / python / SQL, uczenie maszynowe, Big Data i inne.

Teraz zrozumiemy ważne koncepcje nauki o danych.

1. Inżynieria danych

Inżynieria danych jest jednym z aspektów nauki o danych, który koncentruje się głównie na zastosowaniach danych, gromadzeniu danych i analizie danych. Wszystkie prace, które wykonują naukowcy zajmujący się danymi, takie jak udzielenie odpowiedzi na kilka pytań związanych z prognozami lub analizami, wykorzystują duży zestaw informacji.

Teraz potrzebują odpowiednich i przydatnych informacji, co stwarza potrzebę gromadzenia i sprawdzania dostępnych informacji. Wszystkie są częścią zadań inżynierskich. Niektóre z tych zadań sprawdzają wartości zerowe (brakujące dane), kategoryzują dane (dane kategoryczne), tworzą struktury danych (reguły asocjacyjne) itp.

2. Wizualizacja danych

Wizualizacja danych to graficzne podejście do reprezentowania danych. Tutaj używamy wbudowanej biblioteki Pythona do tworzenia elementów wizualnych, takich jak tabele, wykresy korelacji, wykresy słupkowe, wykresy par itp. Wizualizacja danych odgrywa bardzo ważną rolę w zapewnianiu bardzo łatwego sposobu analizy danych, zobaczenia i zrozumienia trendów, rysunek wartości odstające itp.

3. Zrozumienie statystyczne

Statystyki odgrywają bardzo ważną rolę w dziedzinie nauki o danych. Statystyka to bardzo potężne narzędzie do wykonywania zadań Data Science (DS). Statystyki wykorzystują matematykę do analizy technicznej dostępnych informacji. Dzięki wizualizacjom takim jak pasek lub wykres możemy uzyskać informacje o trendach, ale statystyki pomagają nam operować danymi w sposób matematyczny / ukierunkowany. Bez znajomości danych wizualizacja nauki jest tylko grą w zgadywanie.

Omówimy niektóre ważne metody statystyczne, z których codziennie korzystają naukowcy.

  • Średnia: Średnia jest w zasadzie średnią wszystkich danych, obliczoną przez dodanie wszystkich elementów danych, a następnie podzielenie ich przez pewną liczbę elementów. Służy do identyfikacji wartości środkowej wszystkich elementów.
  • Mediana: Mediana służy również do znalezienia wartości środkowej dostępnych elementów, ale tutaj wszystkie dane są ułożone w kolejności, a dokładna wartość środkowa jest uważana za medianę.

Jeśli liczba elementów jest nieparzysta, mediana to ((n + 1) / 2) termin. Jeśli liczba elementów jest parzysta, to mediana będzie ((n / 2) + 1).

  • Tryb: Tryb to parametr statystyczny wskazujący najczęstsze lub wartość, która pojawia się najczęściej, jest traktowany jako tryb.
  • Odchylenie standardowe: Odchylenie standardowe wskazuje, ile rozpiętości występuje w danych lub jest to miara określająca rozpiętość od wartości średnich lub wartości średniej lub wartości oczekiwanej.

W przypadku niskiego odchylenia standardowego oznacza to, że większość wartości danych jest zbliżona do wartości średniej. Jeśli mamy wysokie odchylenie standardowe, oznacza to, że nasze wartości danych są bardziej rozłożone od wartości średniej.

  • Wariancja: wariancja jest taka sama jak odchylenie standardowe z niewielką różnicą, jest kwadratem odchylenia standardowego. Odchylenie standardowe wynika z wariancji, ponieważ odchylenie standardowe pokazuje rozkład w kategoriach danych, podczas gdy wariancja pokazuje rozkład z kwadratem. Łatwo jest skorelować spread za pomocą wariancji.
  • Korelacja: Korelacja jest jedną z najważniejszych miar statystycznych, wskazuje, w jaki sposób powiązane są zmienne w zbiorze danych. Kiedy zmieniamy jeden parametr, jak wpływa on na drugi parametr.

Jeśli mamy dodatnią wartość korelacji, co oznacza, że ​​zmienne będą się zwiększać lub zmniejszać równolegle

Jeśli mamy ujemną wartość korelacji, co oznacza, że ​​zmienne będą zachowywać się odwrotnie, a przyrost jednej z nich zmniejszy się i odwrotnie.

W statystyce mamy rozkład prawdopodobieństwa, statystyki bayesowskie i testowanie hipotez, które są również bardzo ważnymi narzędziami dla naukowca danych.

Nauczanie maszynowe

Uczenie maszynowe w zasadzie oznacza sposób, w jaki maszyny mogą uczyć się i wytwarzać dane wyjściowe na podstawie funkcji wprowadzania.

Definicja: „Uczenie maszynowe to dziedzina nauki, w której komputer uczy się na podstawie dostępnych danych / danych historycznych bez wyraźnego programowania”

W uczeniu maszynowym nacisk kładziony jest na automatyzację i usprawnianie procesu uczenia się komputerów w oparciu o ich doświadczenia z danymi wejściowymi i nie będziemy programować kodu wprost dla każdego rodzaju problemu, tzn. Maszyna wymyśli sposób rozwiązania problemu. Tutaj wyniki mogą nie być dokładne, ale można dokonać dobrej prognozy.
Rozumiemy to w ten sposób:

Tradycyjnie komputery są wykorzystywane do ułatwienia obliczeń. więc jeśli mamy jakieś obliczenia arytmetyczne. Co będziemy robić? Przygotujemy jeden program komputerowy, który rozwiąże tę operację w łatwy i szybki sposób. na przykład, jeśli chcemy dodać dwa byty, stworzymy jeden kawałek kodu oprogramowania, który przyjmie dwa dane wejściowe, a na wyjściu wyświetli się sumowanie.

W podejściu uczenia maszynowego jest inne niż podawanie bezpośredniego algorytmu, specjalny kod jest umieszczany w kodzie oprogramowania, który spróbuje rozpoznać wzorzec i na podstawie tych wzorców spróbuje przewidzieć jak najlepsze wyniki. Tutaj nie kodujemy żadnego algorytmu wprost dla żadnej konkretnej operacji, zamiast tego podajemy dane do maszyny, aby dowiedzieć się, jaki jest wzorzec i co może być wynikiem.

Dlaczego więc musimy wybrać takie podejście, skoro możemy bezpośrednio uzyskać dokładne wyniki, po prostu kodując dokładny algorytm? Dokładne algorytmy są złożone i są ograniczone. Spójrzmy na to z innej perspektywy, jest to epoka, w której mamy mnóstwo danych i eksploduje każdego dnia, jak omówiliśmy w poprzedniej sekcji. W tym przypadku mamy do czynienia z nauczaniem nadzorowanym i bez nadzoru.

Uczenie maszynowe jest obecnie bardzo ważne, ponieważ mamy mnóstwo danych. Aby zrozumieć te dane, musimy uzyskać pewne znaczące wyniki lub pewne znaczące wzorce, które można przeanalizować i wprowadzić w życie.

Ale dlaczego jesteśmy zainteresowani uczeniem maszynowym i tymi danymi?

Wiemy, że ludzkość po prostu odtwarza historię, tak jak my jesteśmy tacy sami, jak nasze poprzednie pokolenia, a nasi potomkowie zmierzą się również z kilkoma takimi samymi sytuacjami, z jakimi mamy teraz do czynienia lub z którymi mieliśmy do czynienia. Na tym etapie musimy sobie wyobrazić, jak zareagować na przyszłość, korzystając z danych historycznych.
Teraz wiemy, że dane są bardzo cennym zasobem.

Wyzwanie polega na tym, jak najlepiej wykorzystać te dostępne dane?

To jest najciekawszy temat (jak?), W którym zamierzamy zrozumieć dostępne dane. Istnieją zasadniczo 3 podejścia do uczenia maszynowego:

  • Nadzorowana nauka
  • Uczenie się bez nadzoru
  • Nauka wzmocnienia

Te trzy podejścia są używane do tworzenia modelu uczenia maszynowego, takiego jak (regresja liniowa, regresja logistyczna, losowy las, drzewa decyzyjne itp.).

Istnieje wiele różnych zastosowań tego modelu uczenia maszynowego, na przykład:

  • Finanse: wykrywanie oszustw
  • Marketing / Sprzedaż: spersonalizuj rekomendację
  • Opieka zdrowotna: zidentyfikuj trend choroby.

Podsumowanie - uczenie maszynowe danych

  • Data Science to szeroka dziedzina, w której uczenie maszynowe jest podzbiorem. W tym analizujemy dostępne dane historyczne i staramy się przewidzieć najbardziej prawdopodobne przyszłe wyniki.
  • Aby przewidzieć, że musimy wyczyścić dane, uporządkuj dane (inżynieria danych). Dysponując danymi, wizualizujemy wzorzec / trendy, a następnie ze zrozumieniem statystycznym wnioskujemy wnikliwe informacje.
  • Dane te zostaną przesłane do maszyny za pomocą algorytmu uczenia maszynowego.
  • Algorytmy te trenują maszynę i tworzą jeden model uczenia maszynowego.
  • Model ten można następnie wykorzystać do przewidywania.

Polecane artykuły

Jest to przewodnik po uczeniu maszynowym Data Science. Tutaj omawiamy znaczenie nauki danych wraz z uczeniem maszynowym. Możesz także przejrzeć następujące artykuły, aby dowiedzieć się więcej -

  1. Najlepsze programy do nauki danych
  2. Umiejętności związane z nauką danych
  3. Języki nauki danych
  4. Techniki uczenia maszynowego
  5. Co to jest integracja danych?
  6. Jak używany jest wykres słupkowy w Matlabie (przykłady)
  7. Drzewo decyzyjne w uczeniu maszynowym
  8. Proste sposoby tworzenia drzewa decyzyjnego

Kategoria: