"Christmas - the time to fix the computers of your loved ones" « Lord Wyrm

Python/Pandas Data Cleaning

Dune 05.08.2024 - 08:54 484 0
Posts

Dune

dark mode lover
Registered: Jan 2002
Location: Wien
Posts: 10171
Vielleicht weiß hier jemand weiter, ich habe gerade einen Datentypen-Fehler aufgerissen, den ich bis jetzt so noch nicht hatte.

Möchte objects zu int/string/datetime konvertieren/bool und das möglichst automatisiert. Ich habe mir überlegt hier mit Loops zu arbeiten. Und idealerweise gleich NaN's und Null zu behandeln.


Die Daten sind öffentlich erhältlich.

Spricht was dagegen folgenden Funktionen zu arbeiten?
df['SPALTE'].astype(str).replace('nan', '')
# df['firstflightdate'] = pd.to_datetime(df['SPALTE'], errors='coerce')

Ansonsten wäre auch cool gleich via read_csv die richtigen dtypes anzugeben, aber das funktioniert nicht, es bleibt trotzdem object :(

Code:
# Define data types for specific columns
dtype_dict = {
    'column1': 'str',
    'column2': 'str',
...
}

# Load CSV File with specified data types
df = pd.read_csv('aircraftDatabase-2024-04.csv', dtype=dtype_dict, sep=',')

df.head()
df.info()

Ich sag schon mal danke!

Sorry, habe den Startpost stark editiert weil ich einen schweren Fehler den mir GPT reingehaut hat gerade erst gesehen habe!
Bearbeitet von Dune am 05.08.2024, 09:40
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz