Четверг, 28 Декабря 2023
Прошел два курса: по пандас и по этике аи
Групировка в пандас
Групировка это как бы создание мелких датафреймов из одного большого
reviews.groupby('points').points.count() # сгрупировать по столбцу points и выдать уникальные значение и количество раз сколько они встречались
reviews.groupby('points').price.min() # минимальная в группе
reviews.groupby('winery').apply(lambda df: df.title.iloc[0]) # достать значение из каждой группы, в данном случае первый тайтл группы
reviews.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()]) # сгрупировать по нескольким колонкам и достать строку с максимальным значением
reviews.groupby(['country']).price.agg([len, min, max]) # сгрупировать и сделать статистику
Сортировка в пандас
countries_reviewed.sort_values(by='len')
countries_reviewed.sort_values(by='len', ascending=False) # В обратном порядке
countries_reviewed.sort_index() # отсортировать индексы
countries_reviewed.sort_values(by=['country', 'len']) # сортировать по нескольким колонкам
Типы данных в пандас
reviews.points.astype('float64') # поменять тип
reviews.dtypes # узнать типы всех колонок
reviews.price.dtype # узнать тип колонки
пропущенные значения
reviews[pd.isnull(reviews.country)] # узнать есть ли пропущенные
reviews.region_2.fillna("Unknown") # заполнить пропущенные (создает новый сериес)
reviews.taster_twitter_handle.replace("@kerinokeefe", "@kerino") # поменять одно значение на другое
ИИ Этика
Есть 6 основных баесов при создании ии модели. Они описаны тут
Модел карта - описание модели для всех кто хочет с ней ознакомится. Пример от опенаи
На этом на сегодня все, далее буду изучать визуализацию данных