代碼:
import?pandas?as?pd f?=?open('運動員信息表.csv') data=pd.read_csv(f,skiprows=0,header=0) print(data)
運行結(jié)果:
首先使用pd.read_csv(f,skiprows=0,header=0)進行數(shù)據(jù)的讀取,并且將數(shù)據(jù)轉(zhuǎn)換成為dataframe的格式給對象,做初始化,方便后面進行數(shù)據(jù)的分析。
2、統(tǒng)計男籃、女籃運動員的平均年齡、身高、體重代碼:
sex=data[["年齡(歲)","身高(cm)","體重(kg)"]].groupby(data["性別"]) print(sex.mean())
運行結(jié)果:
首先我們先把數(shù)據(jù)提取出來做個分組,先把"年齡(歲)",“身高(cm)”,"體重(kg)"這三行數(shù)據(jù)提取出來再根據(jù)性別進行分組。
sex=data[["年齡(歲)","身高(cm)","體重(kg)"]].groupby(data["性別"])
然后再調(diào)用mean()求平均值,求出男籃、女籃運動員的平均年齡、身高、體重。
3、統(tǒng)計男籃運動員年齡、身高、體重的極差值代碼:
sex=data[["年齡(歲)","身高(cm)","體重(kg)"]].groupby(data["性別"]) basketball_male=dict([x?for?x?in?sex])['男'] basketball_male #求極差 def?range_data_group(arr): ????return?arr.max()-arr.min() #進行每列不同的聚合 basketball_male.agg({ "年齡(歲)":range_data_group,"身高(cm)":range_data_group,"體重(kg)":range_data_group })
運行結(jié)果:
首先提取數(shù)據(jù):
單行循環(huán)提取數(shù)據(jù),dict([x for x in sex])在循環(huán)體內(nèi)的語句只有一行的情況的下,可以簡化for循環(huán)的書寫。定義一個函數(shù)def range_data_group(arr):求極差;
極差的求法:使用最大值減去最小值。就得到極差。
agg()函數(shù):DataFrame.agg(*func*,*axis = 0*,* args*,*** kwargs* )*
func : 函數(shù),函數(shù)名稱,函數(shù)列表,字典{‘行名/列名’,‘函數(shù)名’}
使用指定軸上的一個或多個操作進行聚合。
需要注意聚合函數(shù)操作始終是在軸(默認是列軸,也可設(shè)置行軸)上執(zhí)行,不同于 numpy聚合函數(shù)
最后我們可以得到三列數(shù)據(jù):分別對應"年齡(歲)",“身高(cm)”,“體重(kg)”。
4 、統(tǒng)計男籃運動員的體質(zhì)指數(shù)4.1添加體重指數(shù)代碼:
data["體質(zhì)指數(shù)"]=0 data
運行結(jié)果:
添加一行體重指數(shù):data[“體質(zhì)指數(shù)”]=0
4.2計算bmi值并添加數(shù)據(jù)代碼:
#?計算bmi數(shù)值 def?outer(num): ????def?bminum(sumbim): ????????weight=data["身高(cm)"] ????????height=data["體重(kg)"] ????????sumbim=weight/(height/100)**2 ????????return?num+sumbim ????return?bminum
將該行數(shù)據(jù)添加上去:
代碼:
#?調(diào)用函數(shù) bimdata=data["體質(zhì)指數(shù)"] data["體質(zhì)指數(shù)"]=data[["體質(zhì)指數(shù)"]].apply(outer(bimdata)) data
運行結(jié)果:
編寫函數(shù)計算bmi數(shù)值 outer(num);然后再使用apply的方法將自定義的函數(shù)應用到"體質(zhì)指數(shù)"這一列。然后計算出該列的值之后進行賦值。
data[“體質(zhì)指數(shù)”]=data[[“體質(zhì)指數(shù)”]].apply(outer(bimdata))97622)]
編寫函數(shù)計算bmi數(shù)值 outer(num) ;然后再使用apply的方法將自定義的函數(shù)應用到"體質(zhì)指數(shù)"這一列。然后計算出該列的值之后進行賦值。
data[“體質(zhì)指數(shù)”]=data[[“體質(zhì)指數(shù)”]].apply(outer(bimdata))
到此這篇關(guān)于Python數(shù)據(jù)分析處理,運動員信息的分組與聚合的文章就介紹到這了。更多相關(guān)Python數(shù)據(jù)分析處理內(nèi)容請搜索好二三四,希望大家以后多多支持好二三四!