这里是记录一下,有可能用到的处理表格的函数以及用法
import os
import pandas as pd
import torch
import tqdm
file = os.listdir('./dataset')
#pathname为文件存放位置及文件名称
pathname = './data_list/split_10001.csv'
#df数据类型为dataframe
df = pd.read_csv(pathname, encoding='gbk')
ddf = pd.read_csv(pathname, encoding='gbk')
a = file[0]
for i in file:
df = df[~df['ID'].isin([int(i)])]
# print(df)
for i in df['ID']:
ddf = ddf[~ddf['ID'].isin([i])]
print(ddf)
print(len(ddf))
ddf.to_csv('./data_list/split_10002.csv', index=False, sep=',',encoding = 'gbk')
files=[]
for file in os.listdir(path):
if file.endswith(".doc"): #排除文件夹内的其它干扰文件,只获取".doc"后缀的word文件
files.append(path+'/'+file)
from win32com import client as wc #导入模块
word = wc.Dispatch("Word.Application") # 打开word应用程序
for file in files:
print(file)
doc = word.Documents.Open(file) #打开word文件
doc.SaveAs("{}x".format(file), 12)#另存为后缀为".docx"的文件,其中参数12指docx文件
doc.Close() #关闭原来word文件
os.remove('./1班/'+ file) ## 删除原本的文件
word.Quit()
print(f"装换完成!--- {file}")
path = './1班' # word文档文件夹路径
word_list = os.listdir(path) # 获取文件夹下的文件列表
for i in word_list:
word = 0
doc = docx.Document(path + '/{}'.format(i)) # 打开每一个 Word 文档
for j in doc.paragraphs: # 遍历某一个 word 文档的所有段落
word += len(j.text) # j.text 为某段落的所有字符,len 即为段落字符数量
因篇幅问题不能全部显示,请点此查看更多更全内容