logo

Samouczek Apache Spark

Samouczek Apache Spark

Samouczek Apache Spark zawiera podstawowe i zaawansowane koncepcje platformy Spark. Nasz samouczek dotyczący platformy Spark jest przeznaczony dla początkujących i profesjonalistów.

Spark to ujednolicony silnik analityczny do przetwarzania danych na dużą skalę, obejmujący wbudowane moduły SQL, przesyłania strumieniowego, uczenia maszynowego i przetwarzania wykresów.

rj12 kontra rj11

Nasz samouczek dotyczący platformy Spark obejmuje wszystkie tematy dotyczące Apache Spark z wprowadzeniem do platformy Spark, instalacją platformy Spark, architekturą platformy Spark, komponentami platformy Spark, RDD, przykładami platformy Spark w czasie rzeczywistym i tak dalej.

Co to jest Iskra?

Apache Spark to platforma obliczeniowa klastra typu open source. Jego głównym celem jest obsługa danych generowanych w czasie rzeczywistym.

Spark został zbudowany na bazie Hadoop MapReduce. Został zoptymalizowany do działania w pamięci, podczas gdy alternatywne podejścia, takie jak MapReduce Hadoopa, zapisują dane na i z dysków twardych komputera. Dlatego Spark przetwarza dane znacznie szybciej niż inne alternatywy.

Historia Apache Sparka

Spark został zainicjowany przez Matei Zaharię w AMPLab na Uniwersytecie Kalifornijskim w Berkeley w 2009 roku. Został udostępniony na zasadach open source w 2010 roku na licencji BSD.

W 2013 roku projekt został przejęty przez Apache Software Foundation. W 2014 roku Spark wyłonił się jako projekt Apache najwyższego poziomu.

Funkcje Apache Spark

    Szybko- Zapewnia wysoką wydajność zarówno w przypadku danych wsadowych, jak i strumieniowych, wykorzystując najnowocześniejszy harmonogram DAG, optymalizator zapytań i silnik wykonywania fizycznego.Łatwy w użyciu- Ułatwia pisanie aplikacji w językach Java, Scala, Python, R i SQL. Zapewnia także ponad 80 operatorów wysokiego szczebla.Ogólność- Zapewnia zbiór bibliotek, w tym SQL i DataFrames, MLlib do uczenia maszynowego, GraphX ​​i Spark Streaming.Lekki- Jest to lekki, ujednolicony silnik analityczny używany do przetwarzania danych na dużą skalę.Działa wszędzie- Można go łatwo uruchomić na platformie Hadoop, Apache Mesos, Kubernetes, samodzielnie lub w chmurze.

Korzystanie ze Sparka

    Integracja danych:Dane generowane przez systemy nie są wystarczająco spójne, aby można je było połączyć w celu analizy. Aby pobrać spójne dane z systemów, możemy użyć procesów takich jak wyodrębnianie, przekształcanie i ładowanie (ETL). Spark służy do zmniejszenia kosztów i czasu wymaganego w procesie ETL.Przetwarzanie strumieniowe:Zawsze trudno jest poradzić sobie z danymi generowanymi w czasie rzeczywistym, takimi jak pliki dziennika. Spark ma wystarczające możliwości obsługi strumieni danych i odrzuca potencjalnie oszukańcze operacje.Nauczanie maszynowe:Podejścia do uczenia maszynowego stają się bardziej wykonalne i dokładniejsze dzięki zwiększeniu ilości danych. Ponieważ Spark może przechowywać dane w pamięci i szybko uruchamiać powtarzające się zapytania, ułatwia pracę nad algorytmami uczenia maszynowego.Interaktywne analizy:Spark jest w stanie szybko wygenerować odpowiedź. Zamiast więc uruchamiać predefiniowane zapytania, możemy obsługiwać dane interaktywnie.

Warunek wstępny

Zanim nauczysz się Sparka, musisz posiadać podstawową wiedzę na temat Hadoopa.

Publiczność

Nasz samouczek dotyczący platformy Spark został zaprojektowany, aby pomóc początkującym i profesjonalistom.

Problemy

Zapewniamy, że nie znajdziesz żadnego problemu z tym tutorialem Spark. Jeśli jednak pojawi się jakiś błąd, prosimy o zgłoszenie problemu w formularzu kontaktowym.

łyżeczka vs łyżka