Apache Hadoop to otwarte rozwiązanie do przetwarzania rozproszonego na dużych danych
Big data to termin marketingowy, który obejmuje całą ideę danych pozyskiwanych ze źródeł takich jak wyszukiwarki, wzorce zakupów w sklepie spożywczym śledzone przez karty punktów itp. We współczesnym świecie Internet ma tak wiele źródeł danych, że często Skala czyni go bezużytecznym bez przetwarzania i przetwarzania zajmie niesamowitą ilość czasu przez jeden serwer. Wejdź do Apache Hadoop
Mniej czasu na przetwarzanie danych
Wykorzystując architekturę Hadoop do dystrybucji zadań przetwarzania na wielu komputerach w sieci , czasy przetwarzania zmniejszają się astronomicznie, a odpowiedzi można ustalić w rozsądnym czasie. Apache Hadoop jest podzielony na dwa różne komponenty: komponent pamięci masowej i komponent przetwarzania. Mówiąc najprościej, Hapood tworzy jeden serwer wirtualny z wielu fizycznych maszyn . W rzeczywistości Hadoop zarządza komunikacją między wieloma maszynami, tak aby współpracowały ze sobą wystarczająco dokładnie, aby wyglądało na to, że tylko jedna maszyna pracuje na obliczeniach. Dane są rozmieszczane na wielu komputerach do przechowywania, a zadania przetwarzania są przydzielane i koordynowane przez architekturę Hadoop . Ten rodzaj systemu jest wymagany do konwersji surowych danych na użyteczne informacje w skali danych wejściowych Big Data. Rozważ ilość danych, które Google otrzymuje co sekundę od użytkowników wprowadzających żądania wyszukiwania. Jako całkowita bryła danych nie wiedziałbyś, od czego zacząć, ale Hadoop automatycznie zmniejszy zestaw danych na mniejsze, uporządkowane podzbiory danych i przypisze te zarządzalne podzestawy do konkretnych zasobów. Wszystkie wyniki są następnie raportowane i łączone w użyteczne informacje .
Serwer łatwy do ustawienia
Chociaż system brzmi skomplikowanie, większość ruchomych części jest zasłonięta abstrakcją. Konfigurowanie serwera Hadoop jest dość proste , wystarczy zainstalować komponenty serwera na sprzęcie spełniającym wymagania systemowe. Najtrudniejszą częścią jest planowanie sieci komputerów, które serwer Hadoop będzie wykorzystywał w celu dystrybucji ról przechowywania i przetwarzania. Może to obejmować utworzenie sieci lokalnej lub połączenie wielu sieci w Internecie . Możesz także wykorzystać istniejące usługi w chmurze i zapłacić za klaster Hadoop na popularnych platformach chmurowych, takich jak Microsoft Azure i Amazon EC2. Są one jeszcze łatwiejsze do skonfigurowania, ponieważ można je rozpakować ad hoc, a następnie zlikwidować klastry, gdy już ich nie potrzebujesz. Tego typu klastry są idealne do testowania, ponieważ płacisz tylko za czas, w którym aktywny jest klaster Hadoop.
Przetwarzaj swoje dane, aby uzyskać potrzebne informacje
Duże dane to niezwykle potężny zasób, ale dane są bezużyteczne, chyba że można je odpowiednio sklasyfikować i zamienić w informacje. Obecnie klastry Hadoop oferują niezwykle opłacalną metodę przetwarzania tych zbiorów danych w informacje.
Opinie użytkowników o Apache Hadoop
Czy próbowałeś Apache Hadoop? Bądź pierwszy zostawić swoją opinię!