欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

python集合去重函數(shù),python合并去重

python用drop_duplicates()函數(shù)保留數(shù)據(jù)集的重復(fù)行

前兩天處理數(shù)據(jù)的時(shí)候,需要得到兩個(gè)數(shù)據(jù)的交集數(shù)據(jù),所以要去除數(shù)據(jù)中非重復(fù)部分,只保留數(shù)據(jù)中的重復(fù)部分。

在雙城等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供網(wǎng)站制作、網(wǎng)站設(shè)計(jì) 網(wǎng)站設(shè)計(jì)制作按需求定制網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),成都品牌網(wǎng)站建設(shè),網(wǎng)絡(luò)營銷推廣,外貿(mào)網(wǎng)站建設(shè),雙城網(wǎng)站建設(shè)費(fèi)用合理。

?? 網(wǎng)上看了一下大家的教程,大部分都是教去除重復(fù)行,很少有說到僅保留重復(fù)行的。所以在這里用drop_duplicates這個(gè)去重函數(shù)來實(shí)現(xiàn)這個(gè)功能。

drop_duplicates函數(shù)介紹 :

data.drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)

#subset對(duì)應(yīng)的值是列名,表示只考慮這兩列,將這兩列對(duì)應(yīng)值相同的行進(jìn)行去重。

默認(rèn)值為subset=None表示考慮所有列。

keep='first’表示保留第一次出現(xiàn)的重復(fù)行,是默認(rèn)值。

keep另外兩個(gè)取值為"last"和False,分別表示保留最后一次出現(xiàn)的重復(fù)行和去除所有重復(fù)行。

inplace=True表示直接在原來的DataFrame上刪除重復(fù)項(xiàng),而默認(rèn)值False表示生成一個(gè)副本。

要用函數(shù)取得數(shù)據(jù)集data中的重復(fù)列,分三個(gè)步驟 :

(提前導(dǎo)入pandas模塊)

data0_1 = data.drop_duplicates() #保留第一個(gè)重復(fù)行

data0_2 = data.drop_duplicates(keep=False) #去除所有重復(fù)行

data0_3=pd.concat([data0_1,data0_2]).drop_duplicates(keep=False)

#合并起來再去重,只剩下真的重復(fù)行。

舉例:data中wangwu行和tony行重復(fù),需要把它們兩行取出。

第一步:#保留第一個(gè)重復(fù)行

第二步:#去除所有重復(fù)行

第三步:#合并起來再去重

通過以上步驟實(shí)現(xiàn)取出數(shù)據(jù)中的重復(fù)行。

Python常用的幾種去重方法

case1:用集合的特性set(),去重后順序會(huì)改變

case1.1:可以通過列表中索引(index)的方法保證去重后的順序不變

case2:使用循環(huán)查找的方式,不改變順序

case3:通過刪除索引

case4:itertools.groupby

case5:fromkeys

case6:reduce方法

Python實(shí)現(xiàn)對(duì)列表中重復(fù)元素進(jìn)行去重的方法小結(jié)

1、運(yùn)用新建字典的方式,去除重復(fù)的鍵

2、利用集合,直接將列表轉(zhuǎn)化為集合,自動(dòng)去重后轉(zhuǎn)回列表。有一個(gè)問題,轉(zhuǎn)換為集合的同時(shí),數(shù)據(jù)無序了。

3、用列表的推導(dǎo)式

Python 去重,統(tǒng)計(jì),lambda函數(shù)

df.drop_duplicates('item_name')

方法一:

df.drop_duplicates('item_name').count()

方法二:

df['item_name'].nunique()

結(jié)果:50

附:nunique()和unique()的區(qū)別:

unique()是以 數(shù)組形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)

nunique()即返回的是唯一值的個(gè)數(shù)

比如:df['item_name'].unique()

要求:將下表中經(jīng)驗(yàn)列將按周統(tǒng)計(jì)的轉(zhuǎn)換為經(jīng)驗(yàn)不限,保留學(xué)歷

df1['經(jīng)驗(yàn)'] = df1['經(jīng)驗(yàn)'].apply(lambda x: '經(jīng)驗(yàn)不限'+ x[-2:] if '周' in x else x)

#解釋:將‘5天/周6個(gè)月’變成‘經(jīng)驗(yàn)不限’,然后保留學(xué)歷‘本科’

方法二:定義函數(shù)

def dataInterval(ss):

if '周' in ss:

? ? return '經(jīng)驗(yàn)不限'+ ss[-2:]

return ss

df1['經(jīng)驗(yàn)'] = df1['經(jīng)驗(yàn)'].apply(dataInterval)

分享題目:python集合去重函數(shù),python合并去重
網(wǎng)站路徑:http://chinadenli.net/article32/heidsc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站制作、品牌網(wǎng)站建設(shè)、面包屑導(dǎo)航、定制開發(fā)企業(yè)網(wǎng)站制作、網(wǎng)站導(dǎo)航

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

綿陽服務(wù)器托管