超简陋爬百度抓关键词


前言

看完你会感叹浪费了人生中宝贵的1分钟

导入这几个module

import requests

from bs4 import BeautifulSoup

import re

定义第一个函数

def getHTMLText(url):

    try:

        r = requests.get( url, timeout=30 )

        r.raise_for_status()    #如果状态码不是200,产生异常

        r.encoding = 'utf-8'    #字符编码格式改成 utf-8

        return r.text

    except:
    
        #异常处理
        
        return " error "

定义第二个函数

def findHTMLText(text):

    soup = BeautifulSoup( text, "html.parser" )    #返回BeautifulSoup对象

    return soup.find_all(string=re.compile( '百度' ))   #结合正则表达式,实现字符串片段匹配

定义变量最后输出

url = "http://www.baidu.com"

text = getHTMLText(url)        #获取html文本内容

res = findHTMLText(text)    #匹配结果

print(res)        #打印输出

总结

是的,毫无卵用,不如直接Ctrl+f!

文章作者: 陈唯熙
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 陈唯熙 !
  目录