基于Scrapy的网络爬虫设计与实现-Linux大棚

admin 管理员组

文章数量: 1086019

2024年2月27日发(作者：c中goto的用法)

Ｉ软件研发与应用Ｉ　．．一Ｓ０删＾ＲＥｎＥＶＥｌ０Ｐ啊ＥＨＴ＆ＡＰＰＬＩＣＡＴＩＯＮ　……　．　－…　……一－．…　……………．　，　…　ｒ…　…　一　基于Ｓｃｒａｐｙ的网络爬虫设计与实现　云洋　（…尔省青岛第　中学，Ｉ【Ｉ东青岛２６６ｌＯ１）　摘　要：互联网中包含大量有价值的数据，网络爬虫通过既定规则可以自动地抓取互联网的网页数据　并下裁至本地存储研究了网络爬虫的工作原理和Ｓｃｒａｐｙ框架模块，提出了基于Ｓｃｒａｐｙ框架构建工程　化网络爬虫爬取定向网页数据的４步流程法，基于此方法步骤构建网络爬虫实现２０１８年高校自主招生　简章数据的爬取和存储　实验结果证明，基于Ｓｅｒａｐｙ框架可有效快捷地构建３－程化网络爬虫　关键词：Ｐｙｔｈｏｎ语言；网络爬虫；Ｓｃｒａｐｙ框架；４步流程　ｌ概述　网络爬虫义被称为做网络蜘蛛、网络机器人…．它　垃一种能够根据给定ＵＲＩ　按照一定的规则，自动搜集　信息以及浏览器类　信息等　（２）获取页而响　：在服务器　常响　的情况下．　用户会收到所请求网页的ｒ　ｓＩ　ＩＩ１Ｓｅ，一般包　Ｉｒｒ川　、　Ｊｓｏｎ字符申或其他二进制格式数据（如｝见频．　片）等．　（３）页面内容解析：川相幢的解析器或转换　‘法处　理获取的网页内容，ｆｎ１　Ｊ｝｛网页解析器解析Ｈ　ＦＭＩ　代　．　互联网数据信息的程序　互联网中包含大量有价值的数　掂，网络爬虫通过既定规则可以自动地抓取网页数据　下载至本地　已有一些向向定向网站特定信息的网络爬　虫，如ＱＱ空问爬虫一天可抓取４００万条日志、说说、　个人信息等数据：知乎爬虫抓取各种话题下的优质答　将Ｊｓｏｎ形式数据转换成Ｊｓｏｎ对象后进行解折．ｆｎ１粜址　二进制数据，则保存列义件进一步待处理　（４）抽取并存储数据：清洗处　好的数批Ｉ，ｆ以持久　化存储在本地。可以用ＣＳＶ、Ｊｓｏｎ或ｔｅｘｔ等义什仃储．　也可以ＳＱＬｉｔｅ、ＭｙＳＱＩ　或者ＭｏｎｇｏＤＢ等数据Ｊ午存储Ｉ　Ｉ　２．２　Ｓｃｒａｐｙ框架　案；京东爬虫爬取商品、评论及销售数据。　Ｐｙｔｈｏｎ语言是一种面向对象、解释型、带有动态语　义的高级程序设计语言，其语法简洁清晰，并具有中富　喊大的类Ｊ车。Ｐｙｔｈｏｎ包含优秀的网络爬虫框架和解析技　术，Ｐｙｔｈｏｎ语言简单易川且提供＿ｒ网站处理的标准库．　Ｓｃｒａｐｙ框架足用Ｐｙｔｈｏｎ语青实现可爬取Ｉ圾Ｊ贝提取结　构化数据的应川框架、ｓ（１ｒａｐｙ框架包含Ｓ¨　ｌｖ　Ｅｎｇｉｎ　（Ｓｅｒａｐｙ引擎）、Ｓｃｈｅｄｕｌｅｒ（渊度器）、Ｄｏｗｎｌｏａｄｅｉ’（卜戴　器）、Ｓｐｉｄｅｒｓ（爬虫）、ｈｅｍ　Ｐｉｐｅｌｉｎｅ（管道）、Ｉ）ｏｗｎｈＫｉｄ（　ｒ　与爬虫相关的有ｕｒｌｌｉｈ、ｒｅｑｕｅｓｔｓ、ｂｓ４、ｓｃｒａｐｙ等Ｉ　Ｉ，其　『ｆ１　Ｓｃｒａｐｙ是一个功能懂大的爬虫框架。不仅能便捷地　构建ｒｅｑｕｅｓｔ、方便地解析ｒｅｓｐｏｎｓｅ，还可以将网络爬虫　Ｉ　程化、模块化，用户采用Ｓｃｒａｐｙ技术框架可快速地搭　建专业级网络爬虫程序实现定向网站网页数据的爬取。　Ｍｉｄｄｌｅｗａｒｅｓ（下载器巾间件）等组件ＨＩ。Ｓｅｌ·ａｐｙ　图１所示，其中带箭头线表示数据流向　如　２网络爬虫的原理与Ｓｃｒａｐｙ框架　网络爬虫是按照一定规则能自动地抓取万维网信息　的程序或者脚本。网络爬虫通过网络请求从Ｗｅｂ网站　甬。页或指定页面开始解析网贞获取所需内容，并通过网　贞『｛１的链接地址不断进入到下一个网页．直到遍历完这　个网站所有的网页或满足爬虫设定的停止条件为止　、　２．１　网络爬虫的工作原理　Ｓｃｒａｐｙ　Ｅｎｇｉｎｅ（引擎）是其余几个纰什的连接卞受　心，负责组件问的信号和数据传递　Ｓｐｉｄｅｒｓ（爬虫）发　Ｒｅｑｕｅｓｔｓ请求．经ｍ　Ｓｃｒａｐｙ　Ｅｎｇｉｎｅ（Ｓｃｒａｐｙ　ｒＪｌ　）交　给Ｓｃｈｅｄｕｌｅｒ（ｉＪ占ｌ度器）；Ｓｃｈｅｄｕｌｅｒ（训度器）接收ｆｊｌ擎　所发送的Ｒｅｑｕｅｓ！请求，　ｉ　按照特定的方式将』　州放入　队列，待到有需要时洱最新交还给ｒ）ｌ擎送７ｔ－１）ｏｗｎｌｏ　ｕｈ　Ｉ·　（下载器）；Ｄｏｗｎｌｏａｄｅｒ（下戡器）获得Ｒｅｑ１］ｅｓｌｓ　ｉｆＩｆ求，　网络爬虫爬取页面就足模拟使用浏览器获取贞面信　息的过程，其爬取流程一般包含如下４个步骤：　作者简介：云洋（２００１一），女，研究方阳：　竹机　序设计、Ｗｅｂ　川　、　收稿日期：２０１　８—０６—１９　（１）发起请求：通过目标ＵＲＬ向服务器发起ｒｅ—　ｑｕｅｓｔ请求，清求头ｈｅａｄｅｒ一般包含请求类型、ｃｏｏｋｉｅ　害　－＿ｉｉ２　０圬１８童．瓣０９　１９　

ｔ＿　‘　＿　、　Ｈ　ｔ　’－ｌ＿　’＿ｍ　‘　‘　－　－。　‘　ｒ　＿　’＿　＿　＿　’　实用第一　智慧密集　．。　，　．　。，　．．　．　。．　，。　．　，　。　然后根据Ｒｅｑｕｅｓｔｓ请求．从网络下载数据，获取相对应　的响应（Ｒｅｓｐｏｎｓｅｓ）交还给引擎，由引擎转交给Ｓｐｉ．　ｄｅｒｓ部分来处理：Ｓｐｉｄｅｒｓ分析处理获取的响应（ｒｅ　ｓｐｏｎｓｅ），提取出ｉｔｅｍ字段所需要的数据内容，交给　ｈｅｍ　Ｐｉｐｅｌｉｎｅ进行下载。Ｓｐｉｄｅｒｓ和Ｉｔｅｍ　Ｐｉｐｅｌｉｎｅ是需要　令．运行此文件启动爬虫。　基于以上Ｓｃｒａｐｙ框架构建网络爬虫的４步流程．开　发者只需针对定向网站网页爬取内容．将Ｓｃｒａｐｙ框架　相应模块编写具体代码，就可以快速完成一个专业级的　网络爬虫　用户根据响应的需求进行编写的。Ｄｏｗｎｌｏａｄｅｒｓ　Ｍｉｄｄｌｅ．　ｗａｒｅｓ这个中间件通过插入自定义代码扩展Ｓｃｒａｐｙ的功　３基于Ｓｃｒａｐｙ框架设计定向网站爬虫　高考网（ｗｗｗ．ｇａｏｋａｏ．ｃｏｍ）是发布关于高考资讯、　能。Ｓｐｉｄｅｒ　Ｍｉｄｄｌｅｗａｒｅｓ是用于Ｓｐｉｄｅｒ和引擎之间通信的　功能组件，负责完成Ｒｅｓｐｏｎｓｅ（响应）进入Ｓｐｉｄｅｒ模块　和从Ｓｐｉｄｅｒ发送Ｒｅｑｕｅｓｔ（请求）的过程。　高考备战、高考报考、高中信息、试题库和院校库等全　国高考信息的权威网站。全国高中考生可通过该网站查　询高考政策、高校招生简章、自主招生简章以及高考成　绩、分数线、志愿填报和录取等信息。在该网站查询全　国９０所高校的自主招生简章时需要依次访问９０个网页　链接。基于Ｓｃｒｐａｙ框架设计实现了定向网页爬虫抓取　＼Ｒｅｑｕｅｓｌｓ　套　ｈｅｍｓ　Ｒｅｓｐｏｎｄｓ　２０１８年高考网各高校自主招生简章，并存储到本地ＪＳＯＮ　文件格式，方便考生分析比较各高校自主招生简章信息。　选取ｇａｏｋａｏ高考网的２０１８全国各大高校自主招生　简章汇总列表网页作为网络爬虫爬取的起始地址．抓取　各个高校招生简章网址，然后进入网址爬取各高校自主　－　招生简章内容。基于Ｓｃｒａｐｙ框架技术构建高考自主招　生简章爬虫的过程主要包含如下４个步骤：　（１）创建Ｓｃｒａｐｙ　Ｔ程ＣｏｌｌｅｇｅＳｐｉｄｅｒ［ＣｏｌｌｅｇｅＢｒｉｑ　图１　Ｓｃｒａｐｙ框架　２．３基于Ｓｃｒａｐｙ框架搭建工程化网络爬虫　ＰｙＣｈａｒｎｌ带有一整套可以帮助用户在Ｐｙｔｈｏｎ发时提　使用ｓｃｒａｐｙ　ｓｔａｒｔｐｒｏｊｅｃｔ　ＣｏｌｌｅｇｅＳｐｉｄｅｒ命令，创建一　个新的ＣｏｌｌｅｇｅＳｐｉｄｅｒ目录如图２左框所示。在Ｃｏｌｌｅｇｅ．　高效率的Ｔ具，比如调试、语法高亮、Ｐｒｏｊｅｃｔ管理、代　码跳转、智能提示、自动完成、单元测试、版本控制　等。选取安装ＰｙＣｈａｒｍ作为Ｐｙｔｈｏｎ集成开发环境，可　有效提高网络爬虫的开发效率。基于Ｓｃｒａｐｙ框架提出　如下４步流程法可快速构建ｌＴ程网络爬虫：　（１）新建一个Ｓｅｒａｐｙ—Ｉ　程。在命令行里键人ｓｃｒａｐｙ　ｓｔａｒｔｐｒｏｊｅｃｔ　ｎａｍｅ命令，创建一个新的ｎａｍｅ目录存放完　整框架、各个模块以及一些默认的系统设置代码。　（２）分析定向网站网页爬取内容，编写Ｉｔｅｍ．ＰＹ定　义提取的Ｉｔｅｍ，编写抓取网站数据的ｓｐｉｄｅｒ并提取Ｉｔｅｍ　数据　Ｓｐｉｄｅｒ目录下创建Ｐｙｔｈｏｎ模块ＣｏｌｌｅｇｅＢｒｉｆ、启动文件　ｂｅｇｉｎ．ＰＹ和配置文件ｓｃｒａｐｙ．ｃｆｇ。ＣｏｌｌｅｇｅＢｒｉｆ文件夹下导　人用户创建的５个文件（一ｉｎｉｔ一．ＰＹ，ｉｔｅｍｓ．ＰＹ，ｍｉｄｄｌｅ—　ｗａｒｅｓ．ＰＹ，ｐｉｐｅｌｉｎｅｓ．ＰＹ，ｓｅｔｔｉｎｇｓ．ＰＹ）和一个ｓｐｉｄｅｒｓ文件　夹，在ｓｐｉｄｅｒｓ文件夹下会创建文件一ｉｎｉｔ＿．ＰＹ和ｓｐｉｄｅｒ　文件ｇａｏｋａｏ．ＰＹ。自动创建的配置文件ｓｃｒａｐｙ．ｅｆｇ的代码　如图２右框所示　、　ｉ　ｃ　．蔓Ｉ·ｓ－ｉｄ舯、叠ｓｃｒａｐｙ．ｃｆｇ、　（３）编写Ｉｔｅｍ　Ｐｉｐｅｌｉｎｅ存储Ｉｔｅｍ数据；接着设置　ｓｅｔｔｉｎｇ．ＰＹ，声明ｐｉｐｅｌｉｎｅ．ＰＹ和ｉｔｅｍ．ＰＹ，规定ｉｔｅｍ的处理　ｍｉｄｄｌｅｗａｒｅｓ．ＰＹ　类和Ｐｒｏｊｅｃｔ路径等信息。　（４）创建运行启动文件启动爬虫程序。在与爬虫Ｔ　程同级的文件夹下创建启动文件（如ｂｅｇｉｎ．ＰＹ），在此文　件中输入ｅｘｅｃｕｔｅ（【‘．ｓｃｒａｐｙ”，“ｃｒａｗｌ”，“ｎａｍｅ”］）命　Ｏ　＇￣，ｉｉ２０ｉｉ１８．０　９２谚ｐｉｐｅｌｉｎｅｓ．ＰＹ　茹ｓｅ￣ｉｎｇｓ．ｐｙ　１。　塌ｂｅｇｉｎ．ＰＹ　ｌ”　％ｊ＿Ｆｉ《ｌ《ｌＳ《ｉ　§￡　｝ｊ　■ｊ　１　１　２　图２新建Ｓｃｒａｐｙ工程ＣｏｌｌｅｇｅＳｐｉｄｅｒ框架　及配置文件代码　与簟　

Ｓ０Ｆｎ帆ＲＥｎＥＶＥＬＯＰＭＥＮＴ＆ＡＰＰＬＩＣ盯ＩＯＮ一　－一·…－　－Ｉｔｅｍ数据，创建Ｓｐｉｄｅｒ文件　（２）分析定义提取的　ｇａｏｋａｏ．１）ｙ提取ｈｅｍ数据　、　ｔ　ｒｔ一一，　一－·，　－　－ｇａｏｋａｏ—ｉｔｅｍ［＂ｔｉｍｅ”１＝ｒｅｓｐｏｎｓｅ．ＣＳＳ（”．ｄａｔａ　ｔｅｘｔ“）．ｅｘｔｒａｃｔＯ［２］．ｓｔｒｉｐ（）　ｇａｏｋａｏｉｔｅｍ【｜Ｉｃｏｎｔｅｎｔｓ“】＝ｒｅｓｐｏｎｓｅ．ｃｓｓ（“．ｃｏｎ—　＿分忻各高校自主招生简章网页内容，定义提取的　Ｉｔｅｍ数据（包含标题、名字、内容、表格、图片一ｕｒｌ　等）：创建Ｉｔｅｍ．ＰＹ文件，其中定义类ＣｏｌｌｅｇｅＢｒｉｌｆｔｅｍ的　ｔｅｎｔ　ｔｘｔ　ｐ：ｎｔｈ—ｌａｓｔ—ｏｆ—ｔｙｐｅ（ｎ＋４）：：ｔｅｘｔ“）．ｅｘｔｒａｃｔ（）　ｇａｏｋａｏｉｔｅｍ＿【“ｔａｂｌｅ“】＝ｒｅｓｐｏｎｓｅ．ＣＳＳ（“．ｃｏｎ—　代码如下所示，　ｃｌａｓｓ　Ｃｏｌｌｅｇｅｂｒｉｆｌｔｅｍ（ｓｃｒａｐｙ．Ｉｔｅｍ）：　ｔｉｔｌｅ＝ｓｃｒａｐｙ．Ｆｉｅｌｄ（）　ｔｉｍｅ＝ｓｃｒａｐｙ．Ｆｉｅｌｄ（）　ｃｏｎｔｅｎｔｓ＝ｓｃｒａｐｙ．Ｆｉｅｌｄ（）　ｔａｂｌｅ＝ｓｃｒａｐｙ．Ｆｉｅｌｄ（）　ｉｍａｇｅ—ｕｒｌｓ：ｓｃｒａｐｙ．Ｆｉｅｌｄ（）　ｉｍａｇｅ—ｐａｔｈ＝ｓｃｒａｐｙ．Ｆｉｅｌｄ（）　在爬虫ＦＪ录ｓｐｉｄｅｒｓ文件夹下创建ｓｐｉｄｅｒ文件　ｇａｏｋａｏ．ＰＹ．定义类ＧａｏｋａｏＳｐｉｄｅｒ从网站（ｇａｏｋａｏ．ｃｏｎ１）　中提取Ｉｔｅｍ信息，将ｓｃｒａｐｙ．Ｓｐｉｄｅｒ子类化并定义要生成　的初始请求，可以选择如何跟踪页面中的链接，以及如　何解析下戡的贞面内容以提取数据，使用ｓｃｒａｐｙ提供的　功能模块ＣＳＳ可以解析｝｝｛网页内信息　将ｈｅｎ］和ＣＳＳ　选择器绑定到一起，直接把选择　来的数据放入Ｉｔｅｍ　中　ｇａｏｋａｏ—ｉｔｅｍ为ｉｔｅｍ实例化埘象，存储爬取到的网　页数据，使用ｖｉｅｈｌ将ｉｔｅｍｓ内容传递到ｈｅｍＰｉｐｅｌｉｎｅ管　道程序ｐｉｐｅｌｉｎｅ．ＰＹ进行数据处理【５】。ｇａｏｋａｏ．ＰＹ爬取各高　校的门主招牛简章，其核心代码如下所示：　ｉｍｐｏｒｔ　ｓｃｒａｐｙ　ｆｒＯｍ　ｕｒｌｌｉｂ　ｉｍｐｏｒｔ　ｐａｒｓｅ　ｆｒＯｍ　ｓｃｒａｐｙ．ｈｔｔｐ　ｉｍｐｏ￣Ｒｅｑｕｅｓｔ　ｆｒＯｍ　ＣｏｌｌｅｇｅＢｒｉｆ．ｉｔｅｍｓ　ｉｍｐｏ￣Ｃｏｌｌｅｇｅｂｒｉｆｌｔｅｍ　ｃｌａｓｓ　ＧａｏｋａｏＳｐｉｄｅｒ（ｓｃｒａｐＶ．Ｓｐｉｄｅｒ）：　ｎａｍｅ＝　ｇａｏｋａｏ　ａｌｌｏｗｅｄ—ｄｏｍａｉｎｓ＝【　ｇａｏｋａｏ．ｃｏｍ　】　ｓｔａｒｔ＿ｕｒｌｓ＝【，ｈｔｔｐ：／／ｗｗｗ．ｇａｏｋａｏ．ＣＯｍ／ｚｚｚｓ／ｚｚｚｓｊｚ／　１　ｄｅｆ　ｐａｒｓｅ（ｓｅｌｆ．ｒｅｓｐｏｎｓｅ）：＃获取本网页所有高校　＃招生简章网址　ｕｒｌｓ＝ｒｅｓｐｏｎｓｅ．ＣＳＳ（”．ｂｌｕｅｔｄ　ａ：：ａｔｔｒ（ｈｒｅｆ）“）．ｅｘ－　ｔｒａｃｔ（）　ｆｏｒ　ｕｒｌ　ｉｎ　ｕｒｌｓ：　ｙｉｅｌｄ　Ｒｅｑｕｅｓｔ（ｕｒｌ。ｃａｌｌｂａｃｋ＝ｓｅｌｆ．ｐａｒｓｅ　ｄｅｔ）　样爬取高校自主招生简章　ｄｅｆ　ｐａｒｓｅ——ｄｅｔａｉｌ（ｓｅｌｆ，ｒｅｓｐｏｎｓｅ）：　ｇａｏｋａｏ＿ｉｔｅｍ＝ＣｏｌｌｅｇｅｂｒｉｆｌｔｅｍＯ＃ｉｔｅｍ实例化　ｇａｏｋａｏ—ｉｔｅｍ【．Ｉｔｉｔｌｅ”】＝ｒｅｓｐｏｎｓｅ．ＣＳＳ（“．ｚｓＨｅａｄ　ａ：：　ｔｅｘｔ”）．ｅｘｔｒａｃｔ　ｆｉ　ｒｓｔ（…‘）　ｔｅｎｔ＿ｔｘｔ　ｔａｂｌｅ　ｔｄ：：ｔｅｘｔ“）．ｅｘｔｒａｃｔ（）　ｇａｏｋａｏ＿ｉｔｅｍ【“ｉｍａｇｅ—ｕｒｌｓ“】＝ｒｅｓｐｏｎｓｅ．ＣＳＳ（”．　ｃｏｎｔｅｎｔ＿ｔｘｔ　Ｐ　ｉｍｇ：：ａｔｔｒ（ｓｒｃ）“）．ｅｘｔｒａｃｔ（）　ｙｉｅｌｄ　ｇａｏｋａｏ——ｉｔｅｍ　（３）编写一１　程爬虫Ｃ（）ｌｌｅｇｅＢｒｉｔ　的桐天模块代　Ｐｉｐｅｌｉｎｅ．Ｉ１）ｖ处理从ＳＩ：，ｉｄｅｒｓ　捩取的ｉｔｅｍｓ，处婵后　以本地Ｊｓｏｎ文件格式仔储Ｐｉｔ）（ｄｉｎｅ．Ｉ）Ｙ定义类Ｃｏｌｌｅｇｅ—　ｂｒｉｆＰｉｐｅｌｉｎｅ处理从Ｓｐｉｄｅｒｓ中扶取的ｉｌｅｍｓ数据；定义导　｝Ｉ｛ｉｓｏｎ数据的类ＪｓｏｎＥｘｐｏｒｔｅｌ’Ｐｉｐｌｉｎｅ通过渊用　ｒａｐｙ提　供的ｊｓｏｎ　ｅｘｐｏｌｌ导ｍ　ｊ㈨ｎ艾件；定义接收　ｔ　数据的类　ＪｓｏｎＷｉｔｈＥｎ（．（）ＩｔｉｎｇＰｉｐｅｌｉｎｅ．其代码如卜所永，通过　ｃｏｄｅｃｓ．ｏｐｅｎＯ打开存储文件，　ｒ　一ｉｔｅｍ（）函数处理　ｉｔｅｍ的函数，即同＿ｉＪ吉ｊ　ｉｔｅｍ的最终太向，迎过　ｍ的　（１ｕｍｐｓｆ１方法解析ｉｔｅｍ数据Ｉ　Ｉ，第一个参数必　足ｄｉｔ－ｔ．　解析编码必须设置　ｓｕｔ－－－一ａ　＿＿Ｆａｌｓｅ，　则巾艾解析会　乱码，最后将ｉｓｏｎ数据写入义件　ｃｌａｓｓ　ＪｓｏｎＷｉｔｈＥｎｃｏｄｉｎｇＰｉｐｅｌｉｎｅ（ｏｂｊｅｃｔ）：样接收ｊｓｏｎ格　抖式文件　ｄｅｆ　ｐｒｏｃｅｓｓ——ｉｔｅｍ（ｓｅｌｆ，ｉｔｅｍ，ｓｐｉｄｅｒ）：　ｎａｍｅ＝ｉｔｅｍ［　ｔｉｔｌｅ　】＋“．ｊｓｏｎ”　ｓｅｌｆ．ｆｉｌｅ：ｃｏｄｅｃｓ．ｏｐｅｎ（ｎａｍｅ，　Ｗ　，ｅｎｃｏｄｉｎｇ＝”　ｕｔｆ－８“）　ｌｉｎｅｓ＝ｉｓｏｎ．ｄｕｍｐｓ（ｄｉｃｔ（ｉｔｅｍ），ｅｎｓｕｒｅ＿ａｓｃｉｉ＝　Ｆａｌｓｅ１＋、ｎ　ｓｅｌｆ。ｆｉｌｅ．ｗｒｉｔｅ（１ｉｎｅｓ）　ｓｅｌｆ．ｆｉｌｅ．ｃｌｏｓｅ（）　ｒｅｔｕｒｎ　ｉｔｅｍ　编写爬虫设置文件ｓｅｔｔｉｎｇｓ．ＰＹ，爬虫开始　需将　ＲＯＢＯＴＳＴＸＴ　ＯＢＥＹ改为ＦＡＬＳＥ，　！Ｊ！ｌＪ爬虫会很快停　掉　规定ｉｔｅｍ的处理类，在ｓｅｔｉｔｎｇｓ．ＰＹ巾找到ＩＴＥＭ—　ＰＩＰＥＬＩＮＥＳ将其注解前缀去掉，然后输入编写的Ｃｏｌ—　ｌｅｇｅＢｒｉｆＰｉｐｅｌｉｎｅ路径．其核心代码如下所示：　ＢＯＴＮＡＭＥ＝　ＣｏｌｌｅｇｅＢｒｉｆ　—ＳＰＩＤＥＲＭＯＤＵＬＥＳ＝【　ＣｏｌｌｅｇｅＢｒｉｆ．ｓｐｉｄｅｒｓ　】　—ＮＥＷＳＰｌＤＥＲＭＯＤＵＬＥ＝　ＣｏｌｌｅｇｅＢｒｉｆ．ｓｐｉｄｅｒｓ　—ＲＯＢＯＴＳ．『）（＿ＬＯＢＥＹ＝Ｆａｌｓｅ　ＩＴＥＭ—ＰＩＰＥＬＩＮＥＳ＝ｆ　（下转第５８页）　麓　ｉ　－＿葚２衰０药１８焉．０蠢９　２１　、

…………………………………………………………　实用第一　智慧密集　．　．　．　．　，，　．　．　，．．．　．，，　．。　．　．。。　．。　。．　。　。　要进行兼容性测试，防止出现较大的失误。　３．４合理选用开发语言　成本管理是软件项目管理的一个重要组成部分，有　效地节约成本开销需要合理选择软件的开发语言。因为　程语言。　参考文献　【ｌ】王一鸣．常用计算机编程语言和选用技巧ｆＪ１．电　子技术与软件工程，２０１７，（１７）：１５１－１５１．　选择不同的开发语言，不仅是在软件开发和测试阶段，　【２】黎遥．计算机编程语言的分析和选用技巧探析『Ｊ］．　而且在软件交付后的维护阶段都会产生不同的成本费　用。所以，作为软件开发人员，在保证软件能够满足需　求的情况下，尽量选择开源、灵活和简便的编程语言。　电脑迷，２０１７，ｆ１）．　［３】王吴欣，姜学东．计算机编程语言的选用技巧分析　［Ｊ】．无线互联科技，２０１７，（１３）．　４　结语　计算机软件开发本质上就是使用计算机编程语言告　诉计算机要做哪些事情．所以编程语言选用的是否适　当，会直接影响软件的用户体验。因此，在软件开始编　程之前，需要开发者了解主流计算机编程语言适合什么　领域和编程语言自身的特点，并且结合要开发软件的需　求分析、硬件和软件环境等因素，选择合适的计算机编　．【４】高霞．探讨不同编程语言对计算机应用软件开发的　影响［Ｊ］．电脑编程技巧与维护，２０１６，３４５（０３）：　２６－２７．　【５】李烨，王思元．编程语言的差异对软件开发的影响　探讨ｌＪＪ．科学与信息化，２０１８，（１６）：４４－４５．　［６】王丹．计算机应用软件开发中编程语言的选取［Ｊ］．　科技与创新，２０１　８，（８）：５－６．　．‘　ＬＪ　Ｌ—　Ｊ止．ｉ止．‘止　止．‘止　止．‘＾Ｌ．§止ｊ　Ｌ．　Ｊ止．ｉ止ｊ止ｊ止Ｊ止ｊ止Ｊ　上　止Ｊ止Ｊ止　址　上－．‘　上－—Ｓ　上Ｉ—　Ｊ　Ｌ　０　．址　Ｌ　—　Ｊ　Ｌ—Ｓ止　—§　Ｌ—址—‘　Ｌ—‘止．ｊ　Ｌ　．‘　Ｌ．§止．‘＾Ｌ—　．　（上接第２１页）　ＣｏｌｌｅｇｅＢｒｉｆ．ｐｉｐｅｌｉｎｅｓ．ＣｏｌｌｅｇｅｂｒｉｆＰｉｐｅｌｉｎｅ２　２．　架构建工程化网络爬虫的设计实现过程。首先创建新的　Ｓｃｒａｐｙ工程，分析目标网站网页需要提取的Ｉｔｅｍ数据，　创建ｓｐｉｄｅｒ爬取网页数据存储在Ｉｔｅｍ的实例化对象中，　再将ｉｔｅｍ对象送人Ｐｉｐｅｌｉｎｅ中进行处理以可选择的数据　）　ＩＭＡＧＥＳＵＲＬＳＦＩＥＬＤ＝“ｉｍａｇｅｕｒｌｓ“　—＿＿ｐｒｏｊｅｃｔ＿ｄｉｒ：ｏｓ．ｐａｔｈ．ａｂｓｐａｔｈ（ｏｓ．ｐａｔｈ，ｄｉｒｎａｍｅＬｆｉｌｅ＿））　Ｉ　ＭＡＧ　ＥＳ—ＳＴＯＲＥ＝ｏｓ．ｐａｔｈ．ｊｏｉｎ（ｐｒｏｊｅｃｔ＿ｄｉｒ，＇ｉｍｇ　）　格式存储，接着设置ｓｅｔｔｉｎｇ．ＰＹ，最后创建启动文件启动　爬虫爬取网页数据存储到本地。实验结果证明基于　（４）启动爬虫程序　在ＣｏｌｌｅｇｅＳｐｉｄｅｒ目录下创建启动爬虫文件ｂｅｇｉｎ．ＰＹ，　此文件包含ｅｘｅｃｕｔｅ（【”ｓｃｒａｐｙ”，”ｃｒａｗｌ”，”ｇａｏｋａｏ”】）　命令：运行启动爬虫文件启动网络爬虫抓取高校自主招　生简章，爬取到各高校自主招生简章以ｊｓｏｎ文件、ｔｘｔ　Ｓｃｒａｐｙ框架的４步流程可以快捷地构建专业级网络爬虫　实现定向网站数据爬取和存储。　参考文献　［１］鲁继文．基于Ｓｃｒａｐｙ的论文引用爬虫的设计与实现　『Ｊ］．现代计算机，２０１７，０３（下）：１３１－１３３．　文件和图片文件存放到本地磁盘，部分高校自主招生简　章文件如图３所示，．　．　【２】贾棋然．基于Ｐｙｔｈｏｎ专用型网络爬虫的设计及实现　【Ｊ］．电脑知识与技术，２０１７，１２：４７—４９．　：｝：ｌ嚣　　，　一　圆　缓鬻圈豳瞄镭圈圈圈圈圈豳隧蠲豳鞠圈誓豳—冒璧曼苎　：２　：！：警窑：：盘皇＝：２量　’”’。。　．．．．…～～　一…………………～。。。‘　［３］周显春．基于个人简历的Ｓｃｒａｐｙ设计与实现【ＪＪ．　…“　：　●　Ｋ｝　：　怒＝２　瑚悯邺－町＾　佳■唯∞ｌ奠薯帽瞳嘲钍｝●　豳，ｌ　：＝＝　＝　埠Ｈ瞳－已　Ｈ＿—－　∞：：　＝嚣　：　铷－毒－　ｔ目雌—ｌ细　现代计算机，２０１８，０６（上）：８５—８８．　—　ｊ　……舢　Ｉ—螂Ｈ●彤　＿嚆算Ｉ　∞　埘＿响吐轲哇■　ｌ　ｎ　ｊ　…砷　＾Ｐ啼’　∞ｌ确毒　日＾　ｔ目目Ｉ　∞ｌ■　■■　翱ｑ■弹　∞∞坤■　■　啊　—哇矗啊●　＊　ｌ　｝　Ｌ■一●■　　删辟霸田Ｉ椭　豳■Ｌ＿嘲　∞ｌ＿　■ｑ椭　翻■■扣　劬＿坷瞳　擅ｄ　为ｌ摔－　一蝴崮删啪　埘曲■■＾’■　自　●脚　【４】彭纪奔，吴林，陈贤，黄雷君．基于爬虫技术的网　络负面情绪挖掘系统设计与实现ｆＪ１．计算机应用　与软件，２０１６，３３（１０）：９—１３＋７１．　＾ｗ■ｔ　抽■一，■　■　自由■■∞　图３网络爬虫爬取存储在本地的部分高校　自主招生简章截图　【５］杨君，陈春玲，余瀚．基于Ｓｃｒａｐｙ技术的数据采集　系统的设计与实现［Ｊ］．计算机技术与发展，２０１８．　［６　刘宇，郑成焕．基于Ｓｃｒ６］ａｐｙ的深层网络爬虫研究　［Ｊ】．软件，２０１７，３８（７）：１ｌ１—１１４．　４结语　研究了网络爬虫的工作原理和Ｓｅｒａｐｙ爬取并解析　结构化网页的框架原理，提出基于Ｓｅｒａｐｙ框架构建工　程化网络爬虫的４步流程，以高考网２０１８年各高校自　主招生简章爬虫构建为例，详细阐述了基于Ｓｃｒａｐｙ框　．０９５８￣　＇２０１８．一＼毫－啊技焉与　

本文标签：爬虫网络数据网页爬取

版权声明：本文标题：基于Scrapy的网络爬虫设计与实现内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1708996712a536358.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于Scrapy的网络爬虫设计与实现

更多相关文章

本地网页的发布第一篇：Apache的下载与安装（Windows版本）

重装系统后ip地址错误，网络无法接通怎么办

pc端vue项目打开pdf文件；网页查看pdf文件；浏览器直接打开pdf文件

Win10连接上了wifi但是打开浏览器显示网络异常，诊断网络发现错误“远程计算机或者设备将不接受连接

卷王指南，大学计算机专业，面临分专业，计科，软工，大数据，物联网，网络工程，该选什么？

元数据管理系统

如何利用 Playwright 对已打开的浏览器进行爬虫

linux添加windows网络打印机,Linux Mint如何添加windows分享的网络打印机？

可连接同一网络(WIFI)的两台电脑通过共享文件夹传输文件

浏览器显示没有网络连接，但是软件正常打开情况的解决方法

webstorm打开了浏览器,但是不能运行网页

浏览器中输入网址到看到网页内容经历了哪些过程

mac浏览器没有网络，通讯软件（QQ、微信、飞书等）正常

网络卡顿怎么办

计算机网络名怎么解决,指定的网络名不再可用怎么办解决教程

网络显示连接，不能还是上网，找不到DNS怎么办？

UOS国产操作系统试用图解+网络配置

保姆级教程：ABAP 通过 HTTP POST 调用 OData 服务创建业务数据的具体例子

ROS开发之如何将树莓派采集的雷达、IMU数据在虚拟机rviz中显示？

探秘格式化：数据危机与恢复之道

发表评论

推荐文章

Flutter build fails: Cannot find symbol PluginRegistry.Registrar and FlutterMain - Stack Overflow

javascript - Make setter an action using Mobx makeObservable in presence of getter - Stack Overflow

Google AppScript failing with Zoho Projects API - Stack Overflow

Is it possible to upload a whole folder instead of multiple files using Javascript? - Stack Overflow

javascript - window.location.replace - POST version? - Stack Overflow

热门文章

Javascript - scope is lost in callback - Stack Overflow

javascript - Can I use array.prototype.reduce() to process two arrays at once? - Stack Overflow

javascript - Angular 1.4.8 Error: [$injector:modulerr] - Stack Overflow

angular - Why is my router-outlet not working when wrapped in a child component - Stack Overflow

javascript - Check whether some element is &quot;focused&quot; without jQuery - Stack Overflow

amazon rds - HikariPool - Exception during pool initialization while connecting to RDS MySQL Reader Instance - Stack Overflow

linux - How to tell julia that it should use a locally installed glibc version for compilation? - Stack Overflow

sql - How to create a custom display for type in pSQL? - Stack Overflow

controller - How to make a transactional Services when developing a backend with Onion or similar architectures? - Stack Overflo

javascript - Detect if shift key is down React Native - Stack Overflow

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

javascript - Check whether some element is "focused" without jQuery - Stack Overflow