Comment calculer la moyenne d’une colonne dans un tableau Databricks ?
Pour calculer la moyenne d’une colonne dans un tableau Databricks, vous pouvez utiliser la fonction mean() du module pyspark.sql.functions. Cette fonction prend la colonne en argument et renvoie la moyenne calculée. Voici un exemple de code :
from pyspark.sql.functions import mean
# Chargement des données dans un dataframe
df = spark.read.csv(« donnees.csv », header=True, inferSchema=True)
# Calcul de la moyenne de la colonne « valeur »
moyenne = df.select(mean(« valeur »)).collect()[0][0]
print(« La moyenne est : », moyenne)
Comment calculer la moyenne d’une colonne dans un tableau en utilisant SQL ?
Si vous préférez utiliser des requêtes SQL pour manipuler vos données, vous pouvez également calculer la moyenne d’une colonne en utilisant la syntaxe SQL traditionnelle. Voici un exemple de requête :
# Création d’une vue temporaire pour le tableau
df.createOrReplaceTempView(« ma_table »)
# Calcul de la moyenne de la colonne « valeur » en utilisant SQL
requete = « » »
SELECT AVG(valeur) as moyenne
FROM ma_table
« » »
moyenne = spark.sql(requete).collect()[0][« moyenne »]
print(« La moyenne est : », moyenne)
Comment calculer la moyenne d’une colonne en groupe sur Databricks ?
Si vous souhaitez calculer la moyenne d’une colonne en groupe, vous pouvez utiliser la fonction groupBy() en combinaison avec la fonction mean(). Voici un exemple de code :
from pyspark.sql.functions import mean
# Chargement des données dans un dataframe
df = spark.read.csv(« donnees.csv », header=True, inferSchema=True)
# Calcul de la moyenne de la colonne « valeur » en groupe par la colonne « categorie »
moyenne_par_categorie = df.groupBy(« categorie »).agg(mean(« valeur »).alias(« moyenne »))
# Affichage du résultat
moyenne_par_categorie.show()
Comment filtrer les données avant de calculer la moyenne sur Databricks ?
Si vous souhaitez filtrer les données avant de calculer la moyenne, vous pouvez utiliser la fonction filter() pour sélectionner uniquement les lignes qui vous intéressent. Voici un exemple de code :
from pyspark.sql.functions import mean
# Chargement des données dans un dataframe
df = spark.read.csv(« donnees.csv », header=True, inferSchema=True)
# Filtrage des données pour ne conserver que les lignes avec une valeur supérieure à 10
df_filtre = df.filter(df.valeur > 10)
# Calcul de la moyenne de la colonne « valeur » sur les données filtrées
moyenne_filtree = df_filtre.select(mean(« valeur »)).collect()[0][0]
print(« La moyenne des données filtrées est : », moyenne_filtree)
En conclusion, Databricks offre plusieurs méthodes pour calculer une moyenne sur des colonnes de données. Vous pouvez utiliser des fonctions Python telles que mean() ou des requêtes SQL pour obtenir la moyenne. De plus, vous pouvez également calculer la moyenne en groupe ou filtrer les données avant de faire le calcul. Avec ces outils, vous pourrez effectuer des analyses de données avancées et obtenir des informations précieuses sur vos ensembles de données.