搜索
您的当前位置:首页正文

微知-如何将pdf中的文字都提取出来?(pdftotext xxx.pdf ouput.txt、pdftotext -layout xxx.pdf output.txt)

来源:好走旅游网

背景

随着AI的发展,经常需要用RAG来提高模型的效率,但是对于一些简单的文本,直接使用RAG可能无法达到很好的效果,这时候就需要使用到pdftotext来将pdf中的文字提取出来,然后进行文本分析。本文简单记录命令使用方式

命令

pdftotext xxx.pdf ouput.txt
pdftotext -layout xxx.pdf output.txt

注意:这里参数-layout会保留pdf中的格式,如果不保留格式,则使用pdftotext xxx.pdf output.txt

实操

因篇幅问题不能全部显示,请点此查看更多更全内容

Top