基于Python爬虫技术的应用

来源：好走旅游网

基于Ｐｙｔｈｏｎ爬虫技术的应用　曹晓娟　（江苏安全技术职业学院信息工程系　徐州１　摘来进一步阐释Ｐｙｔｈｏｎ爬虫技术的简洁与先进性。　关键词Ｐｙｔｈｏｎ　爬虫技术　应用　中图分类号ＴＰ３１１　文献标识码Ａ　文章编号６５３５　２２１０１１）　要　对Ｐｙｔｈｏｎ爬虫技术进行阐述，基于ｐｙｔｈｏｎ的爬虫与其他语言相比有很多优势。通过爬去某个网站的所有新闻这个案例，　Ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　Ｃｒａｗｌｅｒ　Ｔｅｃｈｎｏｌｏｇｙ　Ｂａｓｅｄ　ｏｎ　Ｐｙｔｈｏｎ　ＺＥＮＧ　Ｘｉａｏｊｕａｎ　（Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｅｎｇｉｎｅｅｒｉｎｇ，　Ｊｉａｎｇｓｕ　Ｓａｆｅｔｙ　Ｔｅｃｈｎｏｌｏｇｙ　Ｃａｒｅｅｒ　Ａｃａｄｅｍｙ　Ｘｕｚｈｏｕ　２２１０１　１）　Ａｂｓｔｒａｃｔ　Ｔｈｅ　Ｐｙｔｈｏｎ　ｃｒａｗｌｅｒ　ｔｅｃｈｎｏｌｏｇｙ　ｉｓ　ｅｌａｂｏｒａｔｅｄ．　Ｉ、ｈｅ　ｒｅｐｔｉｌｅｓ　ｂａｓｅｄ　ｏｎ　ｈｏｎ　ｈａｖｅ　ｍａｎｙ　ａｄｖａｎｔａｇｅｓ　ｃｏｍｐａｒｅｄ　ｗｉｔｈ　ｏｔｈｅｒ　ｌａｎｇｕａｇｅｓ．Ｔｈｅ　ｓｉｍｐｌｉｃｉｔｙ　ａｎｄ　ａｄｖａｎｃｅｍｅｎｔ　ｏｆ　Ｐｙｔｈｏｎ　ｃｒａｗｌｉｎｇ　ｔｅｃｈｎｏｌｏｇｙ　ｉｓ　ｆｕｒｔｈｅｒ　ｉｌｌｕｓｔｒａｔｅｄ　ｂｙ　ｃｒａｗｌｉｎｇ　ｔｈｒｏｕｇｈ　ｔｈｅ　ｃａｓｅ　ｏｆ　ａｌｌ　ｔｈｅ　ｎｅｗｓ　ｏｎ　ａ　ｗｅｂｓｉｔｅ．　Ｋｅｙｗｏｒｄｓ　Ｐｙｔｈｏｎ　一Ｃｒａｗｌｅｒ　ｔｅｃｈｎｏｌｏｇｙ　Ａｐｐｌｉｃａｔｉｏｎ　．弓Ｉ言本文主要是对Ｐｙｔｈｏｎ爬虫技术进行阐述，基于ｐｙｔｈｏ　ｐｙｔｈｏｎ里都有非常优秀的第三方，如Ｒｅｑｕｅｓｔｓ，ｍｅｃｈａｎｉｚｅ，一　切变得很容易。　３．网页抓取后的处理　抓取的网页需要处理，比如过滤ｈｔｍｌ标签，提取文本　的爬虫与其他语言相比的有很多优势。通过爬去某个网站　的所有新闻这个案例，来进一步阐释Ｐｙｔｈ。　爬虫技术的简　洁与先进性。　等。ｐｙｔｈｏｎ的ｂｅａｕｔｉｆｕｌｓｏａｐ提供了简洁的文档处理功能，能　二、Ｐｙｔｈｏｎ爬虫的概念　放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网　络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，　获取资源后分析并提取有用数据的程序；　用极短的代码完成大部分文档的处理。　用户获取网络数据的方式：　方式１：浏览器提交请求一下载网页代码一解析成页面。　方式２：模拟浏览器发送请求（获取网页代码）一提取　如果我们把互联网比作一张大的蜘蛛网，数据便是存　四、爬虫的基本流程　从技术层面来说就是通过程序模拟浏览器请求站点的行　有用的数据一存放于数据库或文件中。　为，把站点返回的ＨＴＭＬ代码／ＪＳＯＮ数据，二进制数据（图片、　爬虫要做的就是方式２：　视频）爬到本地，进而提取自己需要的数据，存放起来使用。　１．发起请求　三、基于ｐｙｔｈｏｎ的爬虫与其他语言相比的优势　１．抓取网页本身的接口。　２．相比与其他静态编程语言　使用ｈｔｔｐ库向目标站点发起请求，即发送一个Ｒｅｑｕｅｓｔ　Ｒｅｑｕｅｓｔ包含：请求头、请求体等。　Ｒｅｑｕｅｓｔ模块缺陷：不能执行Ｊｓ和ＣＳＳ代码。　如ｊａｖａ，ｃ＃，ｃ＋＋，ｐｙｔｈｏｎ抓取网页文档的接口更简洁；相　比其他动态脚本语言，如ｐｅｒｌ，ｓｈｅｌｌ，ｐｙｔｈｏｎ的ｕｒｌｌｉｂ２包提供　了较为完整的访问网页文档的ＡＰＩ。抓取网页有时候需要　模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封　杀的。我们需要模拟ｕｓｅｒ　ａｇｅｎｔ的行为构造合适的请求，譬　２．获取响应内容　如果服务器能正常响应，则会得到一个Ｒｅｓｐｏｎｓｅ。　Ｒｅｓｐｏｎｓｅ包含：ｈｔｍｌ，　ｓｏｎ，图片，视频等。　３解析内容　．解析ｈｔｍｌ数据：正则表达式（ＲＥ模块），第三方解析库　如模拟用户登陆、模拟ｓｅｓｓｉｏｎ／ｃｏｏｋｉｅ的存储和设置。在　如Ｂｅａｕｔｉｆｕｌｓ叫ｐ，ｐｙｑｕｅｒｙ等。　·６２·办公自动化杂志　解析ｊｓｏｎ数据：ｊｓｏｎ模块。　解析二进制数据：以ｗｂ的方式写入文件。　ｓｅｌｆ．ｉｅｂａＮａｍｅ＝ｒａｗｔ＿ｉｎｐｕｔ（”请输入需要访问的新闻：”）　ｓｅｌｆ．ｂｅｇｉｎＰａｇｅ＝ｉｎｔ（ｒａｗ＿ｉｎｐｕｔ（”请输入起始页：”））　１．保存数据　数据库（ＭｙＳＱＬ，Ｍｏｎｇｄｂ、Ｒｅｄｉｓ）。　文件一保存。　ｓｅｌｆ．ｅｎｄＰａｇｅ＝ｉｎｔ（ｒａｗ＿ｉｎｐｕｔ（”请输入终止页：”））　ｓｅｌｆ．ｕｒｌ＝”ｈｔｔｐ：／／ｔｉｅｂａ．ｂａｉｄｕ．ｃｏｍ／ｆ’　ｓｅｌｆ．ｕａｈｅａｄｅｒ＝＿ｆ．．Ｕｓｅｒ－Ａｇｅｎｔ”：”ＭｏｚｉＵａ／５．０（ｃｏｍｐａｔｉｂｌｅ；　五、ｈｔｔｐ协议请求与响应　Ｒｅｑｕｅｓｔ：用户将自己的信息通过浏览器（ｓｏｃｋｅｔ　ｃｌｉｅｎｔ）　ＭＳＩＥ　９．０；Ｗｉｎｄｏｗｓ　ＮＴ　６．１　Ｔｆｉｄｅｎｆｆ５．０；”ｌ　＃图片编号　发送给服务器（ｓｏｃｋｅｔ　ｓｅｒｖｅｒ）　Ｒｅｓｐｏｎｓｅ：服务器接收请求，分析用户发来的请求信息，　然后返回数据（返回的数据中可能包含其他链接。如：图　片，ｊＳ，ＣＳＳ等）　ｐｓ：浏览器在接收Ｒｅｓｐｏｎｓｅ后，会解析其内容来显示给　用户，而爬虫程序在模拟浏览器发送请求，然后接收Ｒｅ—　ｓｐｏｎｓｅ后，是要提取其中的有用数据。　六、ｒｅｑｕｅｓｔ　１．请求方式　常见的请求方式：ＧＥＴ／ＰＯＳＴ。　２．请求的ＵＲＬ　ｕｄ全球统一资源定位符，用来定义互联网上一个唯一　的资源例如：一张图片、一个文件、一段视频都可以用ｕｄ　唯一确定。　ｕｒ１编码　ｈｔｔｐｓ：／／ｗｗｗ．ｂａｉｄｕ．ｃｏｍ／ｓ？ｗｄ＝图片。　图片会被编码（看示例代码），　网页的加载过程是：　加载一个网页，通常都是先加载ｄｏｃｕｍｅｎｔ文档。　在解析ｄｏｃｕｍｅｎｔ文档的时候，遇到链接，则针对超链接　发起下载图片的请求。　３．请求头　Ｕｓｅｒ－ａｇｅｎｔ：请求头中如果没有ｕｓｅｒ－ａｇｅｎｔ客户端配置，　服务端可能将你当做一个非法用户ｈｏｓｔ；　ｃｏｏｋｉｅｓ：ｃｏｏｋｉｅ用来保存登录信息。　七、案例：尝试爬去某个网站的所有新闻　ｉｍｐｏｒｔｏｓ　ｉｍｐｏａ　ｕｒｌｌｉｂ２　ｉｍｐｏｒｔｕｒＵｉｂ　ｆｒｏｍｌｘｍｌ　ｉｍｐｏｒｔ　ｅｔｒｅｅ　ｃｌａｓｓ　Ｓｐｉｄｅｒ：　ｄｅｆ　ｉｎｉｔ（ｓｅｌｆ）：　ｓｅｌｆ．ｕｓｅｒＮａｍｅ＝１　ｄｅｆｔｉｅｂａＳｐｉｄｅｒ（ｓｅｌｆ）：　ｆｏｒ　ｐａｇｅ　ｉｎ　ｒａｎｇｅ（ｓｅｆｌ．ｂｅｇｉｎＰａｇｅ，ｓｅｆｌ．ｅｎｄＰａｇｅ＋１）：　ｐｎ＝（ｐａｇｅ一１）　５０＃ｐａｇｅ　ｎｕｍｂｅｒ　ｗｏｒｄ＝｛’ｐｎ’：ｐｎ，’ｋｗ’：ｓｅｌｆ．ｔｉｅｂａＮａｍｅｌ　ｗｏｒｄ＝ｕｒｌｌｉｂ．ｕｒｌｅｎｃｏｄｅ（ｗｏｒｄ）＃转换成ｕｒｌ编码格式　（字符串）　ｍｙＵｒｌ＝ｓｅｌｆ．ｕｒｌ＋”？”＋ｗｏｒｄ　＃为　例：ｈｔｔｐ：／ｈｉｅｂａ．ｂａｉｄｕ．ｃｏｍ／ｆ？ｋｗ＝％Ｅ７％ＢＥ％８Ｅ％Ｅ５％　Ａ５％Ｂ３＆ｐｎ＝５０　＃调用页面处理函数ｌｏａｄ＿Ｐａｇｅ　＃并且获取页面所有新闻链接　ｌｉｎｋｓ＝ｓｅｌｆ．１ｏａｄＰａｇｅ（ｍｙＵｒ１）＃ｕｒｌｌｉｂ２　ｔｅｓｔ３．ＰＹ　＃获取页面内容　ｄｅｆｌａｏｄＰａｇｅ（ｓｅｌｆ，ｕｒ１）：　ｒｅｑ＝ｕｒｌｉｌｂ２．Ｒｅｑｕｅｓｔ（ｕｒｌ，ｈｅａｄｅｍ＝ｓｅｌｆ．ｕａ＿ｈｅａｄｅｒ）　ｈｔｍｌ＝ｕｒｌｌｉｂ２．ｕｄｏｐｅｎ（ｒｅｑ）．ｒｅａｄ（）　＃解析ｈｔｍｌ为ＨＴＭＬ　ＤＯＭ文档　ｓｅｌｅｃｔｏｒ＝ｅｔｒｅｅ．ＨｒＩ’ＭＬ（ｈｔｍ１）　＃抓取当前页面的所有新闻的ｕｒｌ的后半部分，也就是　新闻编号　＃ｈｔｔｐ：／／ｔｉｅｂａ．ｂａｉｄｕ．ｃｏｒｎ／ｐ／４８８４０６９８０７里的”ｐ／４８８４０６９８０７”　ｉｌｎｋｓ＝ｓｅｌｅｃｔｏｒ．ｘｐａｔｈ（’／／ｄｉｖ［＠ｃｌａｓｓ＝”ｔｈｒｅａｄｌｉｓｔ　ｌｚｃｌｅａｒｆｉｘ”】　／ｄｉｖ／ａ［＠ｒｅｌ＝”ｎｏｒｅｆｅｒｒｅｒ”］／＠ｈｍｆ）　＃ｌｉｎｋｓ类型为ｅｔｒｅｅＥｌｅｍｅｎｔＳｔｒｉｎｇ列表　＃遍历列表，并且合并为一个帖子地址，调用图片处理　函数ｌａｏｄｌｍａｇｅ　ｏｆｒ　ｌｉｎｋ　ｉｎ　ｌｉｎｋｓ：　ｌｉｎｋ＝”ｈｔｔｐ：／／ｔｉｅｂａ．ｂａｉｄｕ．ｃｏｍ”＋ｌｉｎｋ　ｓｅｌｆ．１ｏａｄｌｍａｇｅ（１ｉｎｋ）　＃获取图片　ｄｅｆｌａｏｄＩｍａｇｅ（ｓｅｌｆ。ｌｉｎｋ）：　ｒｅｑ＝ｕｒｌｌｉｂ２．Ｒｅｑｕｅｓｔ（１ｉｎｋ，ｈｅａｄｅｒｓ＝ｓｅｌｆ．ｕａ＿ｈｅａｄｅｒ）　办公自动化杂志·６３·　ｈｔｍｌ＝ｕｒｌｌｉｂ２．ｕｆｌｏｐｅｎ（ｒｅｑ）．ｒｅａｄ（）　ｓｅｌｅｃｔｏｒ：ｅｔｒｅｅ．ＨＴＭＬ（ｈｔｍｔ）　＃模拟一ｍａ　一函数：　ｉｆ　ｎａｍｅ　＝＝’ｍａｉｎ——’——：　＃获取这个新闻里面所有图片的ｓｒｃ路径　ｉｍａｇｅＬｉｎｋｓ＝ｓｅｌｅｃｔｏｒ．ｘｐａｔｈ（’／／ｉｍｇ【＠ｃｌａｓｓ＝”ＢＤＥ＿Ｉｍａｇｅ”】　／＠ｓｒｃ’）　＃首先创建爬虫对象　ｍｙＳｐｉｄｅｒ＝Ｓｐｉｄｅｒ（）　＃调用爬虫对象的方法，开始工作　ｍｙＳｐｉｄｅｒ．ｔｉｅｂａＳｐｉｄｅｒ（）　＃依次取出图片路径，下载保存　ｆｏｒｉｍａｇｅＬｉｎｋ　ｉｎ　ｉｍａｇｅＬｉｎｋｓ：　八、结束语　总的来说，Ｐｙｔｈｏｎ是一个高层次的结合解释性、编译　性、互动性和面向对象的脚本语言。Ｐｙｔｈｏｎ的设计具有很强　的可读性，相比其他语言经常使用英文关键字，其他语言　的一些标点符号，它具有比其他语言更有特色语法结构。　ｓｅｌｆ．ｗｒｉｔｅｌｍａｇｅｓ（ｉｍａｇｅＬｉｎｋ）　＃保存页面内容　ｄｅｆｗｒｉｔｅＩｍａｇｅｓ（ｓｅｌｆ，ｉｍａｇｅＬｉｎｋ）：　将ｉｍａｇｅｓ里的二进制内容存人到ｕｓｅｒＮａｍｅ文件中　ｐｒｉｎｔ（ｉｍａｇｅＬｉｎｋ）　在设计上更加简洁，运行效率高。使用起来更加方便，大众　更容易上手使用。　参考文献　ｐｒｉｎｔ”正在存储文件％ｄ…”％ｓｅｌｆ．ｕｓｅｒＮａｍｅ　＃１．打开一个文件，返回一个文件对象　ｉｆｌｅ＝ｏｐｅｎ（’．／ｉｍａｇｅｓ／’＋ｓｔｒ（ｓｅｌｆ．ｕｓｅｒＮａｍｅ）＋’．ｐｒｉｇ’，’ｗｂ’）　［１】浅析ｐｙｔｈＯｎ在地图处理中的运用ｆＪ］．王亚卿，方龙．　华东森林经理．２００８（０１）．　＃获取图片里内容　ｉｍａｇｅｓ＝ｕｒＨｉｂ２．ｕｒｌｏｐｅｎ（ｉｍａｇｅＬｉｎｋ）．ｒｅａｄ（）　［２】基于Ｐｙｔｈｏｎ的混合语言编程及其实现［Ｊ］．罗霄，任　＃调用文件对象ｗｒｉｔｅ（）方法，将ｐａｇｅ＿ｈｔｍｌ的内容写入　勇，山秀明．计算机应用与软件．２００４（１２）．　到文件里　ｉｆｌｅ．ｗｒｉｔｅ（ｉｍａｇｅｓ）　［３］ＴＰｙｔｈｏｎ：一种扩充的Ｐｙｔｈｏｎ语言　．余超，周天琳，　周晓宇，陈林，徐宝文．计算机与数字工程．２００９（０５）．　作者简介　曾晓娟，１９７７年８月９日出生，女，江苏安全技术职业　＃最后关闭文件　ｉｆｌｅ．ｃｌｏｓｅ（）　＃计数器自增１　ｓｅＩｆ．ＵｓｅｒＮａｍｅ＋＝１　学院，讲师，教育硕士，研究方向：计算机应用、动漫设计、　工业设计、软件设计。　（上接第４５页）　２．家校联合。共同帮助学生建立良好的人生观和价值观　家庭是学生健康成长的坚实后盾，学校应跟家长建立　４．加强网络管理。树立网络监督平台　学校要占领网络阵地，树立良好的网络舆论平台。学校　长期的网络沟通机制，让家长了解孩子在学校的发展情　可以利用学生喜欢上网的特点，利用他们经常使用的微　况，家长也可以及时反馈学生在家里的表现。可以通过家　信、ＱＱ、公众号平台等工具，发布学校各类活动，优秀学生　校通、ＱＱ群、微信群的方式，加强沟通，家庭教育和学校教　事迹等，树立学生管理的品牌形象。在热门的贴吧一般都　育双管齐下。　有学校的贴吧，应让学生干部、优秀的学生多进行正面的　３．开展丰富的第二课堂，提高学生在校幸福感　宣传，对于网络上的不良行为要坚决制止。　学生之所以爱上网，主要原因是无事可干。如果能够抓　参考文献　住学生的兴趣，发挥学生的特长，五年制的学生虽然在学　［１１何向阳，祁玉娟．对大学生网络行为失范的多视角分　习上比不上普通高中的孩子，但是他们中很多人的动手能　析ｆＪ１．中国医学教育技术，２００９，（３）：２０７．　力是非常强的，学校可以通过社团的方式，发掘学生的第　［２】孙也．大学生网络行为分析及德育网络阵地的建设　Ｊ】．中国现代教育装备，２０１１，（５）：１６０—１６１．　二特长，让他们重新找到自信。让学生在学校中找到自己　［的位置，肯定自己的能力，那么，网络就成为他在学习和工　作者简介　作中的有力助手，而不是他打发时间的工具了。　黄琏（１９７９一），讲师，工程硕士，从事数学课程教学工作。　·６４·办公自动化杂志　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文