logo

Pythona | Pandy DataFrame.set_index()

W tym artykule omówimy Pandy DataFrame.set_index() w Pythonie. Pyton wyróżnia się jako doskonały język do analizy danych, głównie ze względu na wyjątkowy ekosystem pakietów zorientowanych na dane. Wśród tych pakietów Pandy odgrywa znaczącą rolę w uproszczeniu importowania i analizowania danych.

Pandy DataFrame.set_index() Składnia

Składnia: DataFrame.set_index(keys, drop=True, append=False, inplace=False, valid_integrity=False)

Parametry:



  • Klucze: Nazwa kolumny lub lista nazw kolumn.
  • upuszczać: Wartość logiczna, która w przypadku wartości True powoduje usunięcie kolumny używanej dla indeksu.
  • dodać: Jeśli True, dołącza określoną kolumnę do istniejącej kolumny indeksu.
  • w miejscu: Jeśli ma wartość True, zmiany są wprowadzane w samej ramce DataFrame.
  • zweryfikować_integralność: Jeśli ma wartość True, sprawdza nową kolumnę indeksu pod kątem duplikatów.

Co to jest Pandas DataFrame.set_index()?

Ramka danych Pandy. set_index() metoda służy do przypisania listy, serii lub innej ramki danych jako indeksu danej ramki danych. Jest to szczególnie przydatne przy łączeniu wielu ramek danych, umożliwiając łatwą modyfikację indeksu. Chociaż kolumnę indeksu można określić podczas tworzenia ramki danych, funkcja set_index() zapewnia elastyczny sposób późniejszej zmiany indeksu. Zasadniczo umożliwia ustawienie listy, serii lub ramki danych jako indeksu ramki danych. Czasami jednak ramka danych składa się z dwóch lub więcej ramek danych, dlatego przy użyciu tej metody można później zmienić indeks.

Aby pobrać użyty plik CSV, kliknij Tutaj.

drzewo avl

Pandy DataFrame.set_index() Przykłady

Poniżej znajdują się odpowiednie ilustracje przykładów Pandas DataFrame.set_index().

  • Pandy Ustaw indeks na kolumnę
  • Kolumna z wieloma indeksami
  • Ustawienie singla Kolumna pływająca jako Indeks
  • Ustawienie trzy kolumny Jak Multiindeks
  • Pandy ustawiają indeks określonej kolumny

Pandy Ustaw indeks na kolumnę

W tym przykładzie zmieniamy kolumnę indeksu, kolumna Imię stała się kolumną indeksu ramki danych.

Python3




# importing pandas package> import> pandas as pd> # making data frame from csv file> data>=> pd.read_csv(>'employees.csv'>)> # setting first name as index column> data.set_index(>'First Name'>, inplace>=> True>)> # display> data.head()>

>

>

Wyjście : Przed operacją –

Po operacji –

Jak pokazano na obrazach wyjściowych, wcześniej kolumna indeksu była serią liczb, ale później została zastąpiona imieniem.

Pandy Ustaw indeks na kolumnę z wieloma indeksami

W tym przykładzie dwie kolumny zostaną utworzone jako kolumna indeksowa. Parametr Drop służy do usuwania kolumny, a parametr append służy do dołączania przekazanych kolumn do już istniejącej kolumny indeksu.

Python3

sql wybierz z wielu tabel




# importing pandas package> import> pandas as pd> # making data frame from csv file> data>=> pd.read_csv(>'employees.csv'>)> # setting first name as index column> data.set_index([>'First Name'>,>'Gender'>], inplace>=> True>,> >append>=> True>, drop>=> False>)> # display> data.head()>

>

>

ciąg jest pusty

Wyjście:

Jak pokazano na obrazie wyjściowym, dane mają 3 kolumny indeksu.

Indeks ramki danych Pandy Ustawienie singla Kolumna pływająca jako Indeks

W tym przykładzie poniższy fragment kodu wykorzystuje bibliotekę Pandas do utworzenia ramki danych o nazwie „df” z zagnieżdżonej listy danych uczniów. Ustawia kolumnę „Agg_Marks” jako indeks i wyświetla wynikową ramkę danych z kolumnami „Nazwa”, „Wiek”, „Miasto” i „Kraj”.

Python3




# importing pandas library> import> pandas as pd> # creating and initializing a nested list> students>=> [[>'jack'>,>34>,>'Sydeny'>,>'Australia'>,>85.96>],> >[>'Riti'>,>30>,>'Delhi'>,>'India'>,>95.20>],> >[>'Vansh'>,>31>,>'Delhi'>,>'India'>,>85.25>],> >[>'Nanyu'>,>32>,>'Tokyo'>,>'Japan'>,>74.21>],> >[>'Maychan'>,>16>,>'New York'>,>'US'>,>99.63>],> >[>'Mike'>,>17>,>'las vegas'>,>'US'>,>47.28>]]> # Create a DataFrame object> df>=> pd.DataFrame(students,> >columns>=>[>'Name'>,>'Age'>,>'City'>,>'Country'>,>'Agg_Marks'>],> >index>=>[>'a'>,>'b'>,>'c'>,>'d'>,>'e'>,>'f'>])> # here we set Float column 'Agg_Marks' as index of data frame> # using dataframe.set_index() function> df>=> df.set_index(>'Agg_Marks'>)> # Displaying the Data frame> df>

>

>

Wyjście :

wiek Kylie Jenner
 Name Age City Country Agg_Marks 85.96 jack 34 Sydeny Australia 95.20 Riti 30 Delhi India 85.25 Vansh 31 Delhi India 74.21 Nanyu 32 Tokyo Japan 99.63 Maychan 16 New York US 47.28 Mike 17 las vegas US>

W powyższym przykładzie ustawiamy kolumnę „ Agg_Marks „jako indeks ramki danych.

Ustawienie indeksu ramki danych Pandy trzy kolumny Jak MultiIndeks

W tym przykładzie poniższy kod wykorzystuje Pandy do utworzenia ramki danych „df” z danych uczniów, z kolumnami „Imię”, „Wiek”, „Miasto”, „Kraj”, „Agg_Marks” i „ID”. Wykorzystuje funkcję „set_index()” do ustalenia wielopoziomowego indeksu przy użyciu „Nazwy”, „Miasta” i „ID”, a następnie wyświetla wynikową ramkę DataFrame.

Python3




# importing pandas library> import> pandas as pd> # creating and initializing a nested list> students>=> [[>'jack'>,>34>,>'Sydeny'>,>'Australia'>,>85.96>,>400>],> >[>'Riti'>,>30>,>'Delhi'>,>'India'>,>95.20>,>750>],> >[>'Vansh'>,>31>,>'Delhi'>,>'India'>,>85.25>,>101>],> >[>'Nanyu'>,>32>,>'Tokyo'>,>'Japan'>,>74.21>,>900>],> >[>'Maychan'>,>16>,>'New York'>,>'US'>,>99.63>,>420>],> >[>'Mike'>,>17>,>'las vegas'>,>'US'>,>47.28>,>555>]]> # Create a DataFrame object> df>=> pd.DataFrame(students,> >columns>=>[>'Name'>,>'Age'>,>'City'>,>'Country'>,>'Agg_Marks'>,>'ID'>],> >index>=>[>'a'>,>'b'>,>'c'>,>'d'>,>'e'>,>'f'>])> # Here we pass list of 3 columns i.e 'Name', 'City' and 'ID'> # to dataframe.set_index() function> # to set them as multiIndex of dataframe> df>=> df.set_index([>'Name'>,>'City'>,>'ID'>])> # Displaying the Data frame> df>

>

>

Wyjście :

 Age Country Agg_Marks Name City ID jack Sydeny 400 34 Australia 85.96 Riti Delhi 750 30 India 95.20 Vansh Delhi 101 31 India 85.25 Nanyu Tokyo 900 32 Japan 74.21 Maychan New York 420 16 US 99.63 Mike las vegas 555 17 US 47.28>

W powyższym przykładzie ustawiamy kolumny „ Nazwa ', ' Miasto ', I ' ID ' jako multiIndex ramki danych.

Pandy ustawiają indeks określonej kolumny

W tym przykładzie poniższy kod demonstruje, jak używać Pand do utworzenia ramki DataFrame, ustawić konkretną kolumnę (w tym przypadku „Nazwę”) jako indeks za pomocąset_index()>metodę, a następnie wyświetla zarówno oryginalne, jak i zmodyfikowane ramki DataFrame. Theinplace=True>Parametr zapewnia, że ​​zmiany zostaną zastosowane bezpośrednio do DataFrame bez konieczności ponownego przypisania.

Python3




import> pandas as pd> # Creating a sample DataFrame> data>=> {>'Name'>: [>'Geek1'>,>'Geek2'>,>'Geek3'>],> >'Age'>: [>25>,>30>,>35>],> >'City'>: [>'New York'>,>'San Francisco'>,>'Los Angeles'>]}> df>=> pd.DataFrame(data)> # Displaying the original DataFrame> print>(>'Original DataFrame:'>)> print>(df)> # Using set_index() to set 'Name' column as the index> df.set_index(>'Name'>, inplace>=>True>)> # Displaying the DataFrame after setting the index> print>(>' DataFrame after set_index:'>)> print>(df)>

>

oddzielny ciąg w Javie

>

Wyjście :

Original DataFrame: Name Age City 0 Geek1 25 New York 1 Geek2 30 San Francisco 2 Geek3 35 Los Angeles DataFrame after set_index: Age City Name Geek1 25 New York Geek2 30 San Francisco Geek3 35 Los Angeles>