首页编程正文内容

PHP抓取网页内容汇总

编程

更新时间：2025-05-02 23:35:37 17

admin 管理员组

文章数量: 1086019

2024年4月23日发(作者：三相异步电机对照表)

PHP抓取网页内容汇总

/quqiufeng/blog/item/

header("Content-type: text/html; charset=utf-8");

1、

$xhr = new COM("P");

$xhr->open("GET","localhost/?id=2",false);

$xhr->send();

echo $xhr->responseText

2、file_get_contents实现

$url="/pts";

echo file_get_contents( $url );

3、fopen()实现

if ($stream = fopen('', 'r')) {

// print all the page starting at the offset 10

echo stream_get_contents($stream, -1, 10);

fclose($stream);

}

if ($stream = fopen('', 'r')) {

// print the first 5 bytes

echo stream_get_contents($stream, 5);

fclose($stream);

}

②、使用php获取网页内容

/pts/archive/2007/08/26/

简单的做法:

$url="/pts";

echo file_get_contents( $url );

或者:

if ($stream = fopen('', 'r')) {

// print all the page starting at the offset 10

echo stream_get_contents($stream, -1, 10);

fclose($stream);

}

if ($stream = fopen('', 'r')) {

// print the first 5 bytes

echo stream_get_contents($stream, 5);

fclose($stream);

}

③、PHP获取网站内容，保存为TXT文件源码

/u1/44325/showart_

$my_book_url='/files/article/html/4/4550/';

ereg("/files/article/html/[0-9]+/[0-9]+/",$my_book_url,$m

yBook);

$my_book_txt=$myBook[0];

$file_handle = fopen($my_book_url, "r");//读取文件

unlink("");

while (!feof($file_handle)) { //循环到文件结束

$line = fgets($file_handle); //读取一行文件

$line1=ereg("href="[0-9]+.html",$line,$reg); //分析文件内部书的文章页面

$handle = fopen("", 'a');

if ($line1) {

$my_book_txt_url=$reg[0]; //另外赋值,给抓取分析做准备

$my_book_txt_url=str_replace("href="","",$my_book_txt_url);

$my_book_txt_over_url="$my_book_txt$my_book_txt_url"; //转换为抓取地址

echo "$my_book_txt_over_url

"; //显示工作状态

$file_handle_txt = fopen($my_book_txt_over_url, "r"); //读取转换后的抓取地址

while (!feof($file_handle_txt)) {

$line_txt = fgets($file_handle_txt);

$line1=ereg("^ .+",$line_txt,$reg); //根据抓取内容标示抓取

$my_over_txt=$reg[0];

$my_over_txt=str_replace(" "," ",$my_over_txt); //

过滤字符

$my_over_txt=str_replace("
","",$my_over_txt);

$my_over_txt=str_replace("

language="javascript">","",$my_over_txt);

$my_over_txt=str_replace(""","",$my_over_txt);

if ($line1) {

$handle1=fwrite($handle,"$my_over_txtn"); //写入文件

}

fclose($file_handle_txt);

fclose($handle);

fclose($file_handle); //关闭文件

echo "完成

下面是比较嚣张的方法。

这里使用一个名叫Snoopy的类。

先是在这里看到的：

PHP中获取网页内容的Snoopy包

然后是Snoopy的官网：

/projects/snoopy/

这里有一些简单的说明：

代码收藏-Snoopy类及简单的使用方法

/?action=show&id=274

下载：/projects/snoopy/

今天才发现这个好东西，赶紧去下载了来看看，是用的parse_url

还是比较习惯curl

snoopy是一个php类，用来模仿web浏览器的功能，它能完成获取网页内容和发送表单的任务。

下面是它的一些特征：

1、方便抓取网页的内容

2、方便抓取网页的文字（去掉HTML代码）

3、方便抓取网页的链接

4、支持代理主机

5、支持基本的用户/密码认证模式

6、支持自定义用户agent,referer,cookies和header内容

7、支持浏览器转向，并能控制转向深度

8、能把网页中的链接扩展成高质量的url（默认）

9、方便提交数据并且获取返回值

10、支持跟踪HTML框架（v0.92增加）

11、支持再转向的时候传递cookies

具体使用请看下载文件中的说明。

include““;

$snoopy=newSnoopy;

$snoopy->fetchform(“/happy/?action=login“);

print$snoopy->results;

include““;

$snoopy=newSnoopy;

$submit_url=“/happy/?action=login“;$submit_vars["logi

nmode"]=“normal“;

$submit_vars["styleid"]=“1“;

$submit_vars["cookietime"]=“315360000“;

$submit_vars["loginfield"]=“username“;

$submit_vars["username"]=“********“;//你的用户名

$submit_vars["password"]=“*******“;//你的密码

$submit_vars["questionid"]=“0“;

$submit_vars["answer"]=“”;

$submit_vars["loginsubmit"]=“提交“;

$snoopy->submit($submit_url,$submit_vars);

print$snoopy->results;

本文标签：抓取文件获取

版权声明：本文标题：PHP抓取网页内容汇总内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1713821605a653085.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

前端解决下载文件（批量下载），被浏览器打开预览的问题

编程

1月前

前端解决下载文件，被浏览器打开预览的问题问题解决思路实现问题后端返回的是文件路径，而不是文件流。需求要下载文件而不是浏览器预览文件。追加需求可以批量下载文件。解决思路一般下载文件都

.jar文件打开方式没有Java(TM) Platform SE binary怎么办？

编程

1月前

5.7mysql安装教程，https:blog.csdnweixin_44051608articledetails85163823 .jar文件打开方式没有Java(TM) Platform SE bin

完整指南：如何将文件从 iPhone 传输到 PC

编程

1月前

如果您是 iPhone 用户，您可能会发现自己经常需要将照片、视频和音乐等文件从手机传输到计算机。这使您可以备份数据、节省存储空间或在更大的屏幕上欣赏内容。但是，您知道完成这项任务的最简单、最快的

Win7系统windows script host无法找到脚本文件的解决方法

编程

1月前

在windows 7操作系统开机的时候每次都会弹出windows script host 无法找到脚本文件 "C:Windowsexplorer.exe:2097056329.vbs"。的错误提示&#xff0c

备份 Windows 7 key 激活文件实现重装自行激活的批处理

编程

29天前

如何通过备份Windows 7“两个激活文件”实现重装操作系统后的自行激活呢？以下向大家提供： （一）关于两个“批处理”文件制作：

终端下载文件(windows和linux)

编程

29天前

文章目录 linuxwget自定义文件git clone windowswgetpowershell -client linux wget linux使用wget下载很方便，首先确保安装了wget&#xff

windows python库wheel文件下载

编程

29天前

1.https:pypi 2.https:pypi.tuna.tsinghua.edusimple 使用以下命令快速下载安装，解决pip安装慢的问题： pip install -i

用EXCEL打开TXT文件的办法

编程

29天前

用EXCEL打开TXT文件的办法欢迎关注啄木鸟手机监控监听软件用EXCEL打开TXT文件的办法因为我对文件做了EXCEL兼容处理，所以可以很方便的用EXCEL打开TXT文件,方便您查询资料。客户就是上帝啊。。步

Windows与网络基础-12-13-NTFS文件及文件夹权限

编程

28天前

目录一、NTFS权限 1.1 NTFS文件系统 1.2 Windows和Linux文件系统 1.3 U盘格式转换FAT->NTFS 二、文件权限 2.2 文件权限配置实例三、文件夹的权限 3.1 文件夹权限配置

前端pdf文件直接下载而不是在浏览器直接打开

编程

27天前

在 pdf 后缀添加 ?response-content-typeapplicationoctet-stream <a v-if"scope.row.files.fileName" :href"sco

ipynb文件过大打开浏览器崩溃解决方法

编程

27天前

1、ipynb文件太大导致jupyter打不开之前用Anaconda 的jupyter notebook 写代码，然后后来可能文件output太多，导致ipynb文件太大&#xff0c

浏览器访问svn服务器文件,无法使用tortoise svn连接到svn，但可以通过Web浏览器连接...

编程

27天前

我配置了我的svn存储库以通过apache访问它。我可以通过任何带有这些地址的网络浏览器访问它。 http:svn.domain http:www.domain:3690 但是当我尝试在Windows上使用tortoiseSVN或

word文件设置了密码，忘记了密码怎么办？

编程

27天前

word文件是有两种密码的，一个是打开密码、一个是编辑限制密码设置了word密码之后，一定要记住自己设置的密码，要么设置简单的密码、要么将设置的密码记录在一个地方。但

ipynb文件过大导致jupyter notebook打不开，页面卡怎么办

编程

27天前

这种情况一般是因为print的内容太多，jupyter页面无法显示。因此，将ipynb文件导出来，用其他软件打开，删除block里面pint的结果&am

一不小心给桌面粘贴了1280个文件怎么办？

编程

27天前

搞了一下午很混乱，慌乱中不小心将一个文件夹里的1280个包粘贴在了桌面上， 完后都没有撤销粘贴这个鼠标右键功能，反而还可以再粘贴。很懵逼，只能把桌面上

使用反汇编工具IDA查看动态库的汇编代码上下文，结合安卓系统生成的Tombstone文件，快速定位安卓app程序底层C++库的崩溃问题

编程

26天前

目录 1、反汇编工具IDA工具介绍 2、产品及问题场景描述 3、查看安卓系统生成的Tombstone文件 4、使用IDA打开.so动态库文件，查看汇编代码的上下文，到C++源码中定位发生崩溃的那行代码 4.1、使用IDA打开.so

windows系统，删除文件慢，使用命令行快速删除大文件

编程

26天前

在删除、复制、移动文件夹的时候经常遇到这样的情况：如果文件夹里的文件非常多，文件夹总容量非常大时，文件删除速度就会变得缓慢，这是因为Windows系统在

windows系统下快速删除海量小文件方法

编程

26天前

使用windows命令行工具(DOS指令)来处理。 1、使用del命令删除文件 del只删除文件夹里的文件，文件夹不删。 del fsq dirname 附del的参数 P 删除每一个文件之前提示确认。

Windows系统缺少找不到libusb0.dll文件的解决办法

编程

26天前

其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题，如果是新手第一时间会认为是软件或游戏出错了，其实并不是这样，其主要原因就是你电脑系统的该dll文件丢失了或没有安装一

如何备份U盘文件?教您4个简单方法

编程

24天前

在数字化时代，U盘作为便携式数据存储设备，广泛应用于日常生活与工作中。然而，U盘的便携性也伴随着数据丢失或损坏的风险。为了确保数据的安全性和完整性，做好

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

PHP抓取网页内容汇总

更多相关文章

前端解决下载文件（批量下载），被浏览器打开预览的问题

.jar文件打开方式没有Java(TM) Platform SE binary怎么办？

完整指南：如何将文件从 iPhone 传输到 PC

Win7系统windows script host无法找到脚本文件的解决方法

备份 Windows 7 key 激活文件 实现重装自行激活的批处理

终端下载文件(windows和linux)

windows python库wheel文件下载

用EXCEL打开TXT文件的办法

Windows与网络基础-12-13-NTFS文件及文件夹权限

前端pdf文件直接下载而不是在浏览器直接打开

ipynb文件过大打开浏览器崩溃解决方法

浏览器访问svn服务器文件,无法使用tortoise svn连接到svn，但可以通过Web浏览器连接...

word文件设置了密码，忘记了密码怎么办？

ipynb文件过大导致jupyter notebook打不开，页面卡怎么办

一不小心给桌面粘贴了1280个文件怎么办？

使用反汇编工具IDA查看动态库的汇编代码上下文，结合安卓系统生成的Tombstone文件，快速定位安卓app程序底层C++库的崩溃问题

windows系统，删除文件慢，使用命令行快速删除大文件

windows系统下快速删除海量小文件方法

Windows系统缺少找不到libusb0.dll文件的解决办法

如何备份U盘文件?教您4个简单方法

发表评论

推荐文章

javascript - How center the new location of Google Map on React? - Stack Overflow

javascript - How to stop swiper slider when autoplay activated and reaching end of slide? - Stack Overflow

javascript - jQuery UI dialog issue - Stack Overflow

python - Different Feature Selection Results Between Local (Ubuntu VM) and Databricks Using sklearn&#39;s SequentialFeatureS

javascript - Function returning before async method done Node JS - Stack Overflow

热门文章

Win10电脑录屏，教你3招，精准实用

51c嵌入式~电路~合集14

javascript - Getting &quot;EHOSTUNREACH&quot; when trying to connect to API using Axios + Express.js - Stack Overflow

javascript - Sticky navigation doesn&#39;t work properly on safari - Stack Overflow

linux - How to prevent YCM from showing red errors in C++ 20 templates? - Stack Overflow

r - How to make numbers reactive in Sankey Plot from networkD3 - Stack Overflow

How to create xspec rmf fits file on python for a new mission - Stack Overflow

javascript - How to get cookie in nuxtServerInit()? - Stack Overflow

javascript - start value in y-axis in HighChart - Stack Overflow

roomle - Is there a possibility to make newly created products directly accessible in the configurator via iframe? - Stack Overf

最新文章

javascript - How do I toggle the readonly attribute of all child element with jquery - Stack Overflow

javascript - Might it be possible to block an entire US state from accessing my site, using PHP? - Stack Overflow

c++ - Is dereferencing std::span::end always undefined? - Stack Overflow

javascript - Delay function execution if it has been called recently - Stack Overflow

javascript - Google Maps Autocomplete List - Stack Overflow

windows设置断电重启开机后自动输入锁屏密码登录

Windows系统设置开机默认开启数字小键盘

Windows11 开机自动同步时间（开机时间不更新问题）

windows配置开机自启动软件或脚本

【Redis】Windows设置Redis为开机自启动

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

备份 Windows 7 key 激活文件实现重装自行激活的批处理

python - Different Feature Selection Results Between Local (Ubuntu VM) and Databricks Using sklearn's SequentialFeatureS

javascript - Getting "EHOSTUNREACH" when trying to connect to API using Axios + Express.js - Stack Overflow

javascript - Sticky navigation doesn't work properly on safari - Stack Overflow