平時學生交上機作業(yè)的時候經常有人相互復制,直接改文件名了事,為了能夠簡單的檢測這種作弊行為,想到了檢測文件的MD5值,雖然對于抄襲來說作用不大,但是聊勝于無,以后可以做一個復雜點的。

# coding: utf8
import hashlib
import os
from collections import Counter
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
def get_md5_01(file_path):
md5 = None
if os.path.isfile(file_path):
f = open(file_path,'rb')
md5_obj = hashlib.md5()
md5_obj.update(f.read())
hash_code = md5_obj.hexdigest()
f.close()
md5 = str(hash_code).lower()
return md5
def get_md5_02(file_path):
f = open(file_path,'rb')
md5_obj = hashlib.md5()
while True:
d = f.read(8096)
if not d:
break
md5_obj.update(d)
hash_code = md5_obj.hexdigest()
f.close()
md5 = str(hash_code).lower()
return md5
if __name__ == "__main__":
output_list=[]
#input_path=r"e:\xx\新建文件夾"
#output_path = unicode(input_path , "utf8")
output_path=os.getcwd()
g = os.walk(output_path)
for path,dir_list,file_list in g:
for file_name in file_list:
output_list.append(os.path.join(path, file_name) )
md5_list= [get_md5_01(i) for i in output_list]
Counter_list=Counter(md5_list)
for i in Counter_list.items():
if i[1] >1:
duplicate_list=[ a for a in range(len(md5_list)) if md5_list[a] == i[0]]
print '-'*50
print i[0]
for j in duplicate_list:
with open('duplicate.log', mode='a+') as f:
f.write(i[0]+'\t'+output_list[j]+'\n')
print output_list[j]
當前題目:Python實現檢測文件的MD5值來查找重復文件案例-創(chuàng)新互聯
網站鏈接:http://chinadenli.net/article26/cddjcg.html
成都網站建設公司_創(chuàng)新互聯,為您提供手機網站建設、響應式網站、服務器托管、網頁設計公司、定制網站、ChatGPT
聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯