欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

python3去重函數(shù) python去重方法

python刪除重復數(shù)據(jù)

利用集合的不重復屬性,可以先轉(zhuǎn)換至集合,再用list()函數(shù)轉(zhuǎn)換回來即可。

我們擁有10年網(wǎng)頁設計和網(wǎng)站建設經(jīng)驗,從網(wǎng)站策劃到網(wǎng)站制作,我們的網(wǎng)頁設計師為您提供的解決方案。為企業(yè)提供成都網(wǎng)站制作、成都做網(wǎng)站、外貿(mào)營銷網(wǎng)站建設、微信開發(fā)、成都小程序開發(fā)、成都做手機網(wǎng)站、H5開發(fā)、等業(yè)務。無論您有什么樣的網(wǎng)站設計或者設計方案要求,我們都將富于創(chuàng)造性的提供專業(yè)設計服務并滿足您的需求。

比如,a是一個列表,a=list(set(a)),即可完成列表去重。

Python常用的幾種去重方法

case1:用集合的特性set(),去重后順序會改變

case1.1:可以通過列表中索引(index)的方法保證去重后的順序不變

case2:使用循環(huán)查找的方式,不改變順序

case3:通過刪除索引

case4:itertools.groupby

case5:fromkeys

case6:reduce方法

Python 去重,統(tǒng)計,lambda函數(shù)

df.drop_duplicates('item_name')

方法一:

df.drop_duplicates('item_name').count()

方法二:

df['item_name'].nunique()

結果:50

附:nunique()和unique()的區(qū)別:

unique()是以 數(shù)組形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)

nunique()即返回的是唯一值的個數(shù)

比如:df['item_name'].unique()

要求:將下表中經(jīng)驗列將按周統(tǒng)計的轉(zhuǎn)換為經(jīng)驗不限,保留學歷

df1['經(jīng)驗'] = df1['經(jīng)驗'].apply(lambda x: '經(jīng)驗不限'+ x[-2:] if '周' in x else x)

#解釋:將‘5天/周6個月’變成‘經(jīng)驗不限’,然后保留學歷‘本科’

方法二:定義函數(shù)

def dataInterval(ss):

if '周' in ss:

? ? return '經(jīng)驗不限'+ ss[-2:]

return ss

df1['經(jīng)驗'] = df1['經(jīng)驗'].apply(dataInterval)

python去重(漢字一樣,里面的編碼不一樣)?

這是一個字符串的全角和半角的問題,可以導入?unicodedata?中的?normalize?函數(shù)先把全角轉(zhuǎn)換為半角,然后再用?set?對列表去重,參考代碼如下:

from?unicodedata?import?normalize

list3=['熱菜','凉菜','涼菜','硬菜']

set(map(lambda?s:?normalize('NFKC',?s),?list3))

輸出:

{'硬菜',?'熱菜',?'涼菜'}

擴展:

“?NFKC”代表“Normalization?Form?KC?[Compatibility?Decomposition,?followed?by?Canonical?Composition]”,并將全角字符替換為半角字符,這些半角字符與Unicode等價。

python用drop_duplicates()函數(shù)保留數(shù)據(jù)集的重復行

前兩天處理數(shù)據(jù)的時候,需要得到兩個數(shù)據(jù)的交集數(shù)據(jù),所以要去除數(shù)據(jù)中非重復部分,只保留數(shù)據(jù)中的重復部分。

?? 網(wǎng)上看了一下大家的教程,大部分都是教去除重復行,很少有說到僅保留重復行的。所以在這里用drop_duplicates這個去重函數(shù)來實現(xiàn)這個功能。

drop_duplicates函數(shù)介紹 :

data.drop_duplicates(subset=[‘A’,‘B’],keep=‘first’,inplace=True)

#subset對應的值是列名,表示只考慮這兩列,將這兩列對應值相同的行進行去重。

默認值為subset=None表示考慮所有列。

keep='first’表示保留第一次出現(xiàn)的重復行,是默認值。

keep另外兩個取值為"last"和False,分別表示保留最后一次出現(xiàn)的重復行和去除所有重復行。

inplace=True表示直接在原來的DataFrame上刪除重復項,而默認值False表示生成一個副本。

要用函數(shù)取得數(shù)據(jù)集data中的重復列,分三個步驟 :

(提前導入pandas模塊)

data0_1 = data.drop_duplicates() #保留第一個重復行

data0_2 = data.drop_duplicates(keep=False) #去除所有重復行

data0_3=pd.concat([data0_1,data0_2]).drop_duplicates(keep=False)

#合并起來再去重,只剩下真的重復行。

舉例:data中wangwu行和tony行重復,需要把它們兩行取出。

第一步:#保留第一個重復行

第二步:#去除所有重復行

第三步:#合并起來再去重

通過以上步驟實現(xiàn)取出數(shù)據(jù)中的重復行。

python列表怎么去掉相同的數(shù)

利用set()函數(shù),可以將列表去重,如:

s = [1, 3, 3, 5, 7, 7, 8, 9]

set(s) #輸出為{1, 3, 5, 7, 8, 9}

list(set(s)) #輸出 [1, 3, 5, 7, 8, 9]

標題名稱:python3去重函數(shù) python去重方法
本文地址:http://chinadenli.net/article44/hpishe.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設、網(wǎng)站維護、建站公司、關鍵詞優(yōu)化網(wǎng)頁設計公司、網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站網(wǎng)頁設計