4 modi per utilizzare R e Hadoop insieme

R e Hadoop si completano a vicenda abbastanza bene in termini di visualizzazione e analisi dei big data. Questo post del blog parla di 4 modi per usarli insieme.

Hadoop è un rivoluzionario framework di programmazione basato su Java che supporta l'elaborazione di grandi set di dati in un ambiente informatico distribuito, mentre R è un linguaggio di programmazione e un ambiente software per il calcolo statistico e la grafica. Il linguaggio R è ampiamente utilizzato dagli statistici e dai minatori di dati per lo sviluppo di software statistici e l'analisi dei dati. Nelle aree dell'analisi interattiva dei dati, delle statistiche di uso generale e dei modelli predittivi, R ha guadagnato enorme popolarità grazie alle sue capacità di classificazione, raggruppamento e classificazione.

KM





Hadoop e R si completano a vicenda abbastanza bene in termini di visualizzazione e analisi dei big data.

Utilizzando R e Hadoop

Esistono quattro modi diversi di utilizzare Hadoop e R insieme:



1. RHadoop

è laureato e master lo stesso

RHadoop è una raccolta di tre pacchetti R: rmr, rhdfs e rhbase. Il pacchetto rmr fornisce la funzionalità Hadoop MapReduce in R, rhdfs fornisce la gestione dei file HDFS in R e rhbase fornisce la gestione del database HBase dall'interno di R. Ciascuno di questi pacchetti primari può essere utilizzato per analizzare e gestire meglio i dati del framework Hadoop.

2. ORCH



ORCH sta per Oracle R Connector per Hadoop. È una raccolta di pacchetti R che forniscono le interfacce pertinenti per lavorare con le tabelle Hive, l'infrastruttura di elaborazione Apache Hadoop, l'ambiente R locale e le tabelle del database Oracle. Inoltre, ORCH fornisce anche tecniche di analisi predittiva che possono essere applicate ai dati nei file HDFS.

3. RHIPE

RHIPE è un pacchetto R che fornisce un'API per utilizzare Hadoop. RHIPE sta per R and Hadoop Integrated Programming Environment ed è essenzialmente RHadoop con un'API diversa.

diff tra la classe astratta e l'interfaccia

Quattro. Streaming Hadoop

Hadoop Streaming è un'utilità che consente agli utenti di creare ed eseguire lavori con qualsiasi eseguibile come mappatore e / o riduttore. Utilizzando il sistema di streaming, è possibile sviluppare lavori Hadoop funzionanti con una conoscenza di Java sufficiente per scrivere due script di shell che funzionano in tandem.

La combinazione di R e Hadoop sta emergendo come un toolkit indispensabile per le persone che lavorano con statistiche e grandi set di dati. Tuttavia, alcuni appassionati di Hadoop hanno sollevato una bandiera rossa mentre trattano frammenti di Big Data estremamente grandi. Affermano che il vantaggio di R non è la sua sintassi ma l'esaustiva libreria di primitive per la visualizzazione e la statistica. Queste librerie sono fondamentalmente non distribuite, rendendo il recupero dei dati un affare che richiede tempo. Questo è un difetto intrinseco con R, e se scegli di trascurarlo, R e Hadoop insieme possono ancora fare miracoli.

Ora vediamo una demo:

Hai domande per noi? Per favore menzionali nella sezione commenti e ti risponderemo.

differenza tra qtp e selenio

Post correlati: