admin 管理员组

文章数量: 1086019


2024年3月10日发(作者:structural的名词形式)

python抓取淘宝商品评论并分词分析

数据时说的是很多问题和事物都可以通过数据分析达到选择最优的解决方案.不要认为这些离我们生活很远,

其实不然。比如我们经常去淘宝买东西,我们最终都是在看好的几家商铺中去选择,而我们最终选择哪家商铺大多

都是根据商品的评价来选择,这是最基础的数据应用,并且这也只能看见表面的现象。总所周知某宝或某东等各平

台上,商品评价存在各种造假或者各种刷单(天猫店铺甚至连差评的标签都没有,就是说不能差评了,真鄙视它),

同时评论数量很多,也没办法一条条看下去。今天,我们就用数据分析的手段对我们想购买的商品评论进行分析,

让奸商见鬼去吧。

假设我们想要个电动滑板代步车(这也算是大件了),于是在淘宝进行搜索,并最终锁定几家店铺的商品:

表面上两个商品的评价都很好但是仔细分析发现刷单很严重。下面我就开始对各家店铺的商品评论进行分析。

这里不讨论我的爬虫设计的过程以及相关的url获取,因为这个过程比较复杂,需要不停的尝试和查找,比较偏技

术(我花了好些时间才找到正确的ajx接口)。整个数据处理以及分析过程都是基于python来实现的。 python和R

语言一样,R能实现的分析算法python也能实现,而且还能实现其他非分析的功能,所以很多人从R语言转向python,

当然从统计学的专业性来说R语言更权威。

首先把网页的网址复制下来

如上图:红框内的网址,复制到数据处理脚本中

url=’/?spm=&id=527262264900’

如下图:

其中527262264900是id,下面就根据这个网址进行数据抓取。由于淘宝后台的限制,虽然评论数有2585条,

但是我们只能抓取最近评论的1980条数据。虽然不算多但是对单个产品分析还是足够的。

抓取的数据后如下图所示:

User 是淘宝ID,contens是首次评价内容,datetime是首次评价日期。Appendtime是指追评日期,

appendcontents是追评内容,paytime是只购买日期(天猫店铺不提供),price是只单价(天猫店铺不提供)。

在程序的运行目录下生成下列文件,各文件的标题包含商品id


本文标签: 商品 分析 评论 店铺