go语言爬虫学习--正则表达式

43 篇文章 1 订阅
30 篇文章 0 订阅

go语言爬虫学习–正则表达式

使用正则表达式检验字符串是否匹配

直接上代码:

package main

import (
	"fmt"
	"regexp"
)

func main() {
	str1 := "istohard@gmail.com"
	//str2 := ".*@gmail.com"   匹配所有的
	//str2 := "[0-9a-zA-Z]@gmail.com"		//匹配的可以是数字也可以是小写字母和大写字母
	str2 := "@gmail.com"
	//解析正则表达式。这个函数简化了保存已编译正则表达式的全局变量的安全初始化
	re := regexp.MustCompile(str2)

	//找到后会返回找到的string
	result := re.FindString(str1)
	fmt.Println(result)
}

代码简单分析

先使用regexp.MustComppile函数将str2解析为正则表达式,然后使用FindString函数对str1进行查找。如果输出为空,则两个字符串不匹配,如果输出的字符为str2,则两个字符串匹配。

以下是对这两个函数的介绍:

MustCompile
func MustCompile(str string) *Regexp

MustCompile类似Compile但会在解析失败时panic,主要用于全局正则表达式变量的安全初始化。

FindString
func (re *Regexp) FindString(s string) string

Find返回保管正则表达式re在b中的最左侧的一个匹配结果的字符串。如果没有匹配到,会返回"";但如果正则表达式成功匹配了一个空字符串,也会返回""。如果需要区分这种情况,请使用FindStringIndex 或FindStringSubmatch。

使用正则表达式获取网页中属性相近的数据

package main

import (
	"bufio"
	"golang.org/x/net/html/charset"
	"golang.org/x/text/encoding"
	"golang.org/x/text/encoding/unicode"
	"golang.org/x/text/transform"
	"regexp"

	"fmt"
	"io/ioutil"
	"log"
	"net/http"
)

func main() {
	//使用res存储网页信息 
	resp, err := http.Get("https://www.biqooge.com")
	if err != nil {
		fmt.Println(err)
	}
	//使用get后必须使用close关闭,
	defer resp.Body.Close()

	//判断网页是否响应成功,defer后面的语句不会马上调用, 而是延迟到函数结束时调用
	//defer 语句正好是在函数退出时执行的语句,所以使用 defer 能非常方便地处理资源释放问题。
	if resp.StatusCode != http.StatusOK {
		fmt.Printf("Error status Code :%d", resp.StatusCode)
	}

	//获取响应体
	bodyReader := bufio.NewReader(resp.Body)

	//使用determiEncoding函数对获取的信息进行解析
	e := determiEncoding(bodyReader)
	utf8Reader := transform.NewReader(bodyReader,e.NewDecoder())

	//读取并打印获取的信息
	result, err := ioutil.ReadAll(utf8Reader)
	if err != nil {
		panic(err)
	}
	//fmt.Printf("%s", result)
	parseContent(result)
}


//处理获取的数据
func determiEncoding (r * bufio.Reader) encoding.Encoding {//Encoding编码是一种字符集编码,可以在 UTF-8 和 UTF-8 之间进行转换
	//获取数据,Peek返回输入流的下n个字节
	bytes, err := r.Peek(1024)
	if err != nil {
		log.Printf("fetch error :%v", err)
		return unicode.UTF8
	}


	//调用DEtermineEncoding函数,确定编码通过检查最多前 1024 个字节的内容和声明的内容类型来确定 HTML 文档的编码。
	e,_, _:= charset.DetermineEncoding(bytes,"")
	return e
}

//获取指定格式的数据并返回
func parseContent(content []byte){
	re := regexp.MustCompile(`<a href="([^"]+)">([^"]+)</a>`)
									
	//返回表达式的所有连续匹配的切片,match是切片
	match := re.FindAllSubmatch(content,-1)

	for _,m := range match{
		fmt.Printf("%s--%s--%s\n",m[0],m[1],m[2])
	}
}

前两个函数在之前的笔记中已经提到了,接下来一行一行地分析parseContent函数
第一行:

re := regexp.MustCompile(`<a href="([^"]+)">([^"]+)</a>`)

使用MustCompile函数设置需要获取的数据的正则表达式的格式
第二行:

	match := re.FindAllSubmatch(content,-1)

使用FindAllSubmatch函数获取所有与正则表达式连续匹配的数据并存储在match中,match为切片

最后一步:

for _,m := range match{
		fmt.Printf("%s--%s--%s\n",m[0],m[1],m[2])
	}

使用range遍历match,打印所有匹配的数据

结果:
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值