Databricks est une plateforme d’analyse de données basée sur le cloud qui offre des outils puissants pour le traitement et l’analyse de gros volumes de données. L’une des tâches les plus courantes lors de l’analyse de données est de calculer une moyenne afin d’obtenir des informations sur la tendance centrale d’un ensemble de données. Dans cet article, nous allons explorer différentes façons d’obtenir une moyenne sur Databricks.

Comment calculer la moyenne d’une colonne dans un tableau Databricks ?

Pour calculer la moyenne d’une colonne dans un tableau Databricks, vous pouvez utiliser la fonction mean() du module pyspark.sql.functions. Cette fonction prend la colonne en argument et renvoie la moyenne calculée. Voici un exemple de code :

from pyspark.sql.functions import mean

# Chargement des données dans un dataframe
df = spark.read.csv(« donnees.csv », header=True, inferSchema=True)

# Calcul de la moyenne de la colonne « valeur »
moyenne = df.select(mean(« valeur »)).collect()[0][0]

print(« La moyenne est : », moyenne)

Comment calculer la moyenne d’une colonne dans un tableau en utilisant SQL ?

Si vous préférez utiliser des requêtes SQL pour manipuler vos données, vous pouvez également calculer la moyenne d’une colonne en utilisant la syntaxe SQL traditionnelle. Voici un exemple de requête :

# Création d’une vue temporaire pour le tableau
df.createOrReplaceTempView(« ma_table »)

# Calcul de la moyenne de la colonne « valeur » en utilisant SQL
requete = «  » »
SELECT AVG(valeur) as moyenne
FROM ma_table
«  » »

moyenne = spark.sql(requete).collect()[0][« moyenne »]

print(« La moyenne est : », moyenne)

Comment calculer la moyenne d’une colonne en groupe sur Databricks ?

Si vous souhaitez calculer la moyenne d’une colonne en groupe, vous pouvez utiliser la fonction groupBy() en combinaison avec la fonction mean(). Voici un exemple de code :

from pyspark.sql.functions import mean

# Chargement des données dans un dataframe
df = spark.read.csv(« donnees.csv », header=True, inferSchema=True)

# Calcul de la moyenne de la colonne « valeur » en groupe par la colonne « categorie »
moyenne_par_categorie = df.groupBy(« categorie »).agg(mean(« valeur »).alias(« moyenne »))

# Affichage du résultat
moyenne_par_categorie.show()

Comment filtrer les données avant de calculer la moyenne sur Databricks ?

Si vous souhaitez filtrer les données avant de calculer la moyenne, vous pouvez utiliser la fonction filter() pour sélectionner uniquement les lignes qui vous intéressent. Voici un exemple de code :

from pyspark.sql.functions import mean

# Chargement des données dans un dataframe
df = spark.read.csv(« donnees.csv », header=True, inferSchema=True)

# Filtrage des données pour ne conserver que les lignes avec une valeur supérieure à 10
df_filtre = df.filter(df.valeur > 10)

# Calcul de la moyenne de la colonne « valeur » sur les données filtrées
moyenne_filtree = df_filtre.select(mean(« valeur »)).collect()[0][0]

print(« La moyenne des données filtrées est : », moyenne_filtree)

En conclusion, Databricks offre plusieurs méthodes pour calculer une moyenne sur des colonnes de données. Vous pouvez utiliser des fonctions Python telles que mean() ou des requêtes SQL pour obtenir la moyenne. De plus, vous pouvez également calculer la moyenne en groupe ou filtrer les données avant de faire le calcul. Avec ces outils, vous pourrez effectuer des analyses de données avancées et obtenir des informations précieuses sur vos ensembles de données.

Quest'articolo è stato scritto a titolo esclusivamente informativo e di divulgazione. Per esso non è possibile garantire che sia esente da errori o inesattezze, per cui l’amministratore di questo Sito non assume alcuna responsabilità come indicato nelle note legali pubblicate in Termini e Condizioni
Quanto è stato utile questo articolo?
0
Vota per primo questo articolo!