超简陋爬百度抓关键词

Python

发布日期: 2021-03-11

文章字数: 182

阅读时长: 1 分

前言

看完你会感叹浪费了人生中宝贵的1分钟

导入这几个module

import requests

from bs4 import BeautifulSoup

import re

定义第一个函数

def getHTMLText(url):

    try:

        r = requests.get( url, timeout=30 )

        r.raise_for_status()    #如果状态码不是200，产生异常

        r.encoding = 'utf-8'    #字符编码格式改成 utf-8

        return r.text

    except:
    
        #异常处理
        
        return " error "

定义第二个函数

def findHTMLText(text):

    soup = BeautifulSoup( text, "html.parser" )    #返回BeautifulSoup对象

    return soup.find_all(string=re.compile( '百度' ))   #结合正则表达式，实现字符串片段匹配

定义变量最后输出

url = "http://www.baidu.com"

text = getHTMLText(url)        #获取html文本内容

res = findHTMLText(text)    #匹配结果

print(res)        #打印输出

总结

是的，毫无卵用，不如直接Ctrl+f！

陈唯熙

https://cwx1125.github.io/2021/03/11/%E8%B6%85%E7%AE%80%E9%99%8B%E7%88%AC%E7%99%BE%E5%BA%A6%E6%8A%93%E5%85%B3%E9%94%AE%E8%AF%8D/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源陈唯熙 !

web crawler

爬JD商品评论

放过Ctrl+C和Ctrl+V

2021-11-27 Python

web crawler

本篇

超简陋爬百度抓关键词

看完你会感叹浪费了人生中宝贵的1分钟

2021-03-11 Python

web crawler

超简陋爬百度抓关键词

前言

导入这几个module

定义第一个函数

定义第二个函数

定义变量最后输出

总结

是的，毫无卵用，不如直接Ctrl+f！

你的赏识是我前进的动力