您的当前位置：首页正文

【表格处理】批处理处理Excel文档

来源：好走旅游网

这里是记录一下，有可能用到的处理表格的函数以及用法

已知某些参数，想把CVS表格中关于这些数值的这些行保留下来：

import os
import pandas as pd
import torch
import tqdm

file = os.listdir('./dataset')

#pathname为文件存放位置及文件名称
pathname = './data_list/split_10001.csv'
#df数据类型为dataframe
df = pd.read_csv(pathname, encoding='gbk')
ddf = pd.read_csv(pathname, encoding='gbk')

a = file[0]
for i in file:
    df = df[~df['ID'].isin([int(i)])]
# print(df)
for i in df['ID']:
    ddf = ddf[~ddf['ID'].isin([i])]

print(ddf)
print(len(ddf))

ddf.to_csv('./data_list/split_10002.csv', index=False, sep=',',encoding = 'gbk')

筛选list中含有某些字符的项：

files=[]
for file in os.listdir(path):
    if file.endswith(".doc"): #排除文件夹内的其它干扰文件，只获取".doc"后缀的word文件
        files.append(path+'/'+file)

doc格式转docx

from win32com import client as wc #导入模块

word = wc.Dispatch("Word.Application") # 打开word应用程序
for file in files:
    print(file)
    doc = word.Documents.Open(file) #打开word文件
    doc.SaveAs("{}x".format(file), 12)#另存为后缀为".docx"的文件，其中参数12指docx文件
    doc.Close() #关闭原来word文件
    os.remove('./1班/'+ file)         ## 删除原本的文件
word.Quit()
print(f"装换完成！--- {file}")

对Word文档里的内容计算字数

path = './1班'  # word文档文件夹路径
word_list = os.listdir(path)  # 获取文件夹下的文件列表
for i in word_list:
    word = 0
    doc = docx.Document(path + '/{}'.format(i))  # 打开每一个 Word 文档
    for j in doc.paragraphs:  # 遍历某一个 word 文档的所有段落
        word += len(j.text)  # j.text 为某段落的所有字符，len 即为段落字符数量

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文