一个PHP实现的轻量级简单爬虫

2023-12-13php编程
11

以下是“一个PHP实现的轻量级简单爬虫”的完整攻略。

1. 爬虫原理

爬虫是一种网络爬行器,它可以模拟人的行为来抓取并下载网页信息。其基本原理是模拟HTTP请求,获得网页HTML内容后解析获取需要的信息。

2. 爬虫实现步骤

2.1. 分析目标页面

在开始编写程序之前,需要对目标网站进行分析。了解目标网站的结构、HTML标签、URL链接等信息,确定需要爬取的数据。

2.2. 编写基础代码

利用PHP的cURL函数,实现访问目标网站并获取内容的功能。可参考以下代码:

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);  //设置URL
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //设置返回数据不直接输出
curl_setopt($ch, CURLOPT_HEADER, 0); //设置是否输出头信息
$html = curl_exec($ch);  //执行并获取网页HTML内容
curl_close($ch);  //关闭cURL资源

2.3. 正则表达式匹配提取所需数据

利用正则表达式匹配,从目标网页HTML中提取所需数据。可用preg_match()函数实现,代码示例:

preg_match('/<title>(.*?)<\/title>/', $html, $title);  //提取网页标题
echo $title[1];

2.4. 自动获取URL链接进行爬取

利用递归函数,实现自动获取URL链接,进行爬取多个网页的功能。代码示例:

function crawler($url) {
  //获取网页HTML内容
  $ch = curl_init();
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
  curl_setopt($ch, CURLOPT_HEADER, 0);
  $html = curl_exec($ch);
  curl_close($ch);

  //提取数据
  preg_match('/<a href="(.*?)"/', $html, $link);  //提取网页内的链接
  if($link[1]) {
    crawler($link[1]);  //递归访问链接
  }
}

3. 示例说明

下面以爬取"煎蛋网"首页的图片和标题为例。

3.1. 分析目标页面

进入“煎蛋网”首页,发现网站的每篇文章中都有图片和标题,因此我们需要爬取的数据有图片链接和标题文本。

此外,煎蛋网的首页最多展示10页内容,需要获取首页的合法URL以实现自动获取链接的功能。

3.2. 编写基础代码

参考上述第2.2节的代码,可实现获取首页HTML内容的功能。

3.3. 正则表达式匹配提取所需数据

在获取首页HTML内容后,利用以下正则表达式分别匹配提取图片链接和文本标题:

preg_match_all('/<img.*?src="(.*?)"/i', $html, $images);  //提取图片链接
preg_match_all('/<span class="title">.*?>(.*?)<\/a>/i', $html, $titles);  //提取标题文本

其中,第一个正则表达式可以匹配包含"src"属性的"img"标签,提取其"src"属性值,实现图片链接的提取;第二个正则表达式可以匹配包含"title"类属性的"a"标签,提取其文本内容,实现标题文本的提取。

3.4. 自动获取URL链接进行爬取

为了实现自动获取链接的功能,需要修改getHtml()函数,实现递归访问首页的多个页面。

如下代码可以实现从1页到10页的文章的自动爬取:

<?php
function getHtml($url, $page = 1) {
  $ch = curl_init();
  curl_setopt($ch, CURLOPT_URL, $url.$page);  //设置URL,根据$page变量来获取多个页面
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
  curl_setopt($ch, CURLOPT_HEADER, 0);
  $html = curl_exec($ch);
  curl_close($ch);

  preg_match_all('/<img.*?src="(.*?)"/i', $html, $images);
  preg_match_all('/<span class="title">.*?>(.*?)<\/a>/i', $html, $titles);

  //打印结果
  for($i=0; $i<count($images[1]); $i++) {
    echo "<img src='".$images[1][$i]."'><br />";
    echo $titles[1][$i]."<br /><br />";
  }

  //自动获取下一页链接,并递归访问
  preg_match('/<a href="(.*?)".*?>下一页<\/a>/i', $html, $nextPage);
  if($nextPage[1] && $page<10) {
    getHtml($url, $page+1);
  }
}

$url = "http://jandan.net/ooxx/page/";
getHtml($url);
?>

通过递归访问首页的多个页面,我们可以获取煎蛋网的文章图片和标题信息,实现简单的爬虫功能。

以上是“一个PHP实现的轻量级简单爬虫”的完整攻略,希望对你有帮助。

The End

相关推荐

php实现多语言网站的思路和构想
我们在进行系统或者网站开发的时候,有需要多语言切换的功能。PHP作为一种常用的编程语言,可以很方便地实现多语言网站功能。本文将介绍如何使用PHP实现多语言网站功能,并提供相应的代码示例。 创建语言文件 首先,需要创建不同语言的语言文件。每个语言文件...
2025-08-20 php编程
83

php通过调用谷歌翻译API实现网站中英文翻译
我们在制作网站时候,要实现中英文双语网站,通过调用api方式实现文章内容自动翻译,这个要怎么操作呢?以调用谷歌翻译api实现翻译。 获取谷歌翻译秘钥 我们需要到Google Cloud控制台创建一个项目,并启用Cloud Translation API。然后,生成一个API密钥,这个...
2025-08-20 php编程
200

PHP+HTML集成DeepSeek API,实现一个简单的聊天对话项目
PHP+HTML集成DeepSeek API,实现一个简单的聊天对话项目,最终实现效果如下: 准备工作 PHP环境 :确保你的开发环境中安装了PHP。 DeepSeek API密钥 :注册并获取DeepSeek API的访问密钥。 创建api调用接口 创建一个PHP脚本(api.php),用于调用DeepSeek API...
2025-03-31 php编程
100

PHP怎么删除系统中的文件和目录
我们在使用php编程时候,有时候需要删除系统中某个目录。在php中,删除目录是通过使用一些内置函数来完成的。本文将介绍如何使用php中的内置函数删除目录。 一、unlink()函数 PHP中的unlink()函数可以用于删除一个文件,而当用于删除目录时,它只能删除目录...
2025-02-21 php编程
184

js+php实现用户登录
一.ajax完成用户名异步检验 html代码: !DOCTYPE htmlhtml lang="en"head meta charset="UTF-8" title用户名是否存在/title/headbodyform action="" method="post" table tr td用户名/td tdinput type="text" name="username" placeholder="请输入用户名" cla...
2025-01-09 php编程
93

PHP如何使用session实现保存用户登录信息
session在php中是一个非常重要的东西,像我们用户登录一般都使用到session这个东西,相对于cookie来说session 要安全很多,同时我们购物车经常使用session来做临时的记录保存哦。 使用session保存页面登录信息 1、数据库连接配置页面:connectvars.php ?php/...
2024-11-05 php编程
95