Riješeno: dijagram raspršenja više varijabli

Dat ću vam detaljno objašnjenje o stvaranju dijagrama raspršenosti za više varijabli u Pythonu. Raspršeni dijagrami izvrstan su način za vizualizaciju odnosa između više podatkovnih točaka. Pomažu nam razumjeti u kakvoj su korelaciji varijable, kako su raspoređene i imaju li izvanredne točke.

U Pythonu višestruke biblioteke pružaju nam spremne funkcije za izradu dijagrama raspršenosti za više varijabli, kao što su Matplotlib i Seaborn. Usredotočit ćemo se na ove dvije biblioteke dok rješavamo naš problem dešifriranja odnosa između više podatkovnih točaka.

Uvod u matplotlib i seaborn

Matplotlib je jedna od najpopularnijih Python biblioteka za crtanje koja proizvodi kvalitetne brojke u različitim formatima. Omogućuje nam generiranje dijagrama, histograma, spektra snage, stupčastih dijagrama, grafikona grešaka, dijagrama raspršenosti itd., sa samo nekoliko redaka koda.

Seaborn se, s druge strane, temelji na Matplotlibu i usko je integriran s pandas podatkovnim strukturama. Omogućuje sučelje visoke razine za crtanje atraktivne i informativne statističke grafike.

# Required Libraries
import matplotlib.pyplot as plt
import seaborn as sns

Problem i rješenje

Za potrebe ovog članka, pretpostavimo da imate skup podataka s tri varijable, a, b i c. Želite stvoriti dijagrame raspršenosti koji mogu pokazati odnose između ovih varijabli.

Rješenje je jednostavno, možemo koristiti funkciju scatterplot() u seabornu ili funkciju scatter() u matplotlibu za izradu dijagrama raspršenja. Također ćemo morati dalje koristiti funkciju pairplot() da napravimo dijagram raspršenosti više varijabli.

Objašnjenje korak po korak

# Importing libraries
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Create a pandas DataFrame
df = pd.DataFrame({
'a': [1, 2, 3, 4, 5],
'b': [5, 4, 3, 2, 1],
'c': [1, 3, 5, 7, 9]
})

# Create a pair plot
sns.pairplot(df)
plt.show()

U gornjem kodu prvo uvozimo potrebne biblioteke. Zatim stvaramo DataFrame za čuvanje naših podataka. Konačno, pozivamo funkciju pairplot() iz knjižnice seaborn za izradu dijagrama raspršenosti.

Funkcija sns.pairplot() stvara mrežu osi tako da će se svaka varijabla u vašim podacima dijeliti na y-osi preko jednog retka i na x-osi preko jednog stupca. U biti, to nam stvara dijagrame raspršenosti za svaki par varijabli.

Dodatne biblioteke i funkcije

pande je još jedna biblioteka koja često ide ruku pod ruku s Matplotlibom i Seabornom. To je alat za analizu i manipulaciju podataka otvorenog koda, izgrađen na Pythonovoj temeljnoj biblioteci za manipulaciju i analizu podataka.

Pruža strukture podataka i funkcije potrebne za manipuliranje strukturiranim podacima, uključujući funkcije za čitanje i pisanje podataka, rukovanje podacima koji nedostaju, filtriranje podataka i preoblikovanje podataka.

# Import library
import pandas as pd

# Create a DataFrame
data = pd.read_csv('filename.csv')

Funkcija pd.read_csv() čita CSV datoteku i pretvara je u pandas DataFrame, kojim se zatim može manipulirati pomoću različitih pandas funkcija. Ovaj podatkovni okvir može se iscrtati upotrebom funkcije scatterplot() ili funkcije pairplot() kao što je prikazano ranije.

Povezani postovi:

Ostavite komentar