admin 管理员组文章数量: 1086019
2024年3月13日发(作者:软件开发相关证书)
python爬数据入门教程
Python是一种功能很强大的语言,关于零基础学习Python还
是有难度的,但只要学习方法对,入门还是很快哒。下面介绍几种
学习Python的方法。以下是我为你整理的〔python〕爬数据入门
教程
首先是书籍,通过书籍学习,虽然速度会有些慢,但知识具体,
可以掌握很多细节,一旦入门后,后面进步就很快了,下面介绍
给大家一本书,是以前我学习Python时用的书,感觉还挺不错哒。
然后就是借助网络学习,网上有很多视频课程,而且有很多是
免费哒,网络视频比较直观,入门快。给大家推举一个视频,网
易云课堂里有个零基础入门学习python的视频,是免费的,我之
前也看过,挺不错哒
还有就是加一些群或是论坛,里面的知识虽然不全面,但关于
知识的扩宽还是很有帮助哒。
最后说说我的学习经验,书籍学习的方法比较扎实,网络视频
学习的方法入门比较快,论坛可以作为知识的补充渠道,当然,
如果想学精,唯有多多施行一条途径。
优点是什么
第 1 页 共 5 页
Python世界最棒的地方之一,就是大量的第三方程序包。同样,
〔管理〕这些包也非常容易。按照惯例,会在
文件中列出项目所必须要的包。每个包占一行,通常还包涵版本
号。这里有一个例子
Python 程序包有一个缺陷是,它们默认会进行全局安装。我们
将要使用一个工具,使我们每个项目都有一个独立的环境,这个
工具叫virtualenv。我们同样要安装一个更高级的包管理工具,
叫做pip,他可以和virtualenv配合工作。
首先,我们必须要安装pip。大多数python安装程序已经内置
了easy_install(python默认的包管理工具),所以我们就使用
easy_install pip来安装pip。这应该是你最后一次使用
easy_install 了。如果你并没有安装easy_install ,在〔linux〕
系统中,貌似从python-setuptools 包中可以获得。
如果你使用的Python版本高于等于3.3, 那么Virtualenv 已
经是标准库的一部分了,所以没有必要再去安装它了。
下一步,你希望安装virtualenv和virtualenvwrapper。
Virtualenv使你能够为每个项目创造一个独立的环境。尤其是当
你的不同项目使用不同版本的包时,这一点特别有用。Virtualenv
wrapper 提供了一些不错的脚本,可以让一些事情变得容易。
当virtualenvwrapper安装后,它会把virtualenv列为依赖包,
所以会自动安装。
第 2 页 共 5 页
打开一个新的shell,输入mkvirtualenv test 。如果你打开
另外一个shell,则你就不在这个virtualenv中了,你可以通过
workon test 来启动。如果你的工作完成了,可以使用deactivate
来停用。
循环语句的应用
举个例子如果我们要生产一个list [1,2,3,4,5,6,7,8,9,10]
我们可以使用range(1,11)来表示,如果直接写range(11) 是从
0开始,我们可以演示一下。print range(11)print
range(1,11)print range(8,11)
然后我们想一下 如果要表示[1*1,2*2,3*3,100*100]
要怎么做呢?好肯定是要利用到循环的概念,正常的写法是这样的:
a = [] #定义一个空的列表for x in range(1,101): #假设X
在从1开始循环到100 (x * x) # 进行一次添加操作 x*
xprint a
作为一个程序员,就要是使用最短的代码最高效的完成程序表
达的功能,如果使用循环写的话会感觉比较繁琐,特别是逻辑能
力不太强的朋友,我们可以使用一行语句代替循环,我们测试看
看
print [x * x for x in range(1,101)]
第 3 页 共 5 页
当然除了计算之外,我们还可以做一些比较特别的字符串操作,
比如:
print [m + n for m in ABC for n in XYZ]
我们可以看到我们把A B C 都加了一遍XYZ 如果要用正常的循
环也是可以完成的就是了,这样的操作更加简单便捷。
选择一款合适的〔编程〕语言
事实上,Python、PHP、JAVA等常见的语言都可以用于编写网
络爬虫,你首先必须要选择一款合适的编程语言,这些编程语言
各有优势,可以依据习惯进行选择。在此笔者推举使用Python进
行爬虫项目的编写,其优点是:简洁、掌握难度低。
掌握Python的一些基础爬虫模块
当然,在进行这一步之前,你应当先掌握Python的一些简单语
法基础,然后才可以使用Python语言进行爬虫项目的开发。
在掌握了Python的语法基础之后,你必须要重点掌握一个
Python的关于爬虫开发的基础模块。这些模块有很多可以供你选
择,比如urllib、requests等等,只必须要精通一个基础模块即
可,不必要都精通,因为都是大同小异的,在此推举的是掌握
urllib,当然你可以依据你的习惯进行选择。
深入掌握一款合适的表达式
学会了如何爬取网页内容之后,你还必须要学会进行信息的提
第 4 页 共 5 页
取。事实上,信息的提取你可以通过表达式进行实现,同样,有
很多表达式可以供你选择使用,常见的有正则表达式、XPath表
达式、BeautifulSoup等,这些表达式你没有必要都精通,同样,
精通1-2个,其他的掌握即可,在此建议精通掌握正则表达式以
及XPath表达式,其他的了解掌握即可。正则表达式可以处理的
数据的范围比较大,简言之,就是能力比较强,XPath只能处理
XML格式的数据,有些形式的数据不能处理,但XPath处理数据
会比较快。
第 5 页 共 5 页
版权声明:本文标题:python爬数据入门教程 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1710307166a567167.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论