华人澳洲中文论坛

热图推荐

    Python爬虫如何发送实时信息 ?

    [复制链接]

    2021-5-18 01:11:01 548 16

    编程小白比来开始学python爬虫,爬一个信息实时更新的路途状况网站,网站不按时更新。当初曾经完成的顺序是每隔5分钟抓取一次,而后发送到邮件。

    发现这样会形成许多反复的邮件,没无效率。。。想修正顺序完成:一旦网站更新信息才抓取而后发送,而后爬虫监测直到下一个更新信息泛起再抓取发送,如斯循环。

    我是入门小白,能想到的方法就是把抓取的内容放到txt文档里,而后不停比对新抓取的内容,假如纷歧致才发送邮件。

    请各位高手提点,感激。

    全部回复16

    necely 发表于 2021-5-18 00:31:57

    necely 沙发

    2021-5-18 00:31:57

    只有能达到你的目的就能了
    想要详细的,你给出网站,能够看看有没有更好的方法
    ch12345 发表于 2021-5-18 00:33:29

    ch12345 板凳

    2021-5-18 00:33:29

    这类网站应该有定阅办事,被动推送更新的吧
    wgqpy 发表于 2021-5-18 00:35:32

    wgqpy 地板

    2021-5-18 00:35:32

    保留上一次的数据,再爬的时分比较一下再抉择要不要发新邮件
    庸人 发表于 2021-5-18 00:39:02

    庸人 5#

    2021-5-18 00:39:02


    我当初是保留到txt,而后再爬的时分读文件进行比较,但我感觉这样有点傻。。。

    有无更好保留数据的办法呢?
    paranoid 发表于 2021-5-18 00:42:59

    paranoid 6#

    2021-5-18 00:42:59


    就是为了熬炼爬虫技巧啊 哈哈
    chayiyu 发表于 2021-5-18 00:44:15

    chayiyu 7#

    2021-5-18 00:44:15


    干吗需求更好的呢
    freesky20021001 发表于 2021-5-18 00:47:36

    freesky20021001 8#

    2021-5-18 00:47:36


    感觉我本人的这办法没啥效力 由于初学嘛 不克不及本人凭空捏造哈哈
    aidiansansan 发表于 2021-5-18 00:51:59

    aidiansansan 9#

    2021-5-18 00:51:59

    md5 算一下 值变量在抓
    lkm 发表于 2021-5-18 00:53:06

    lkm 10#

    2021-5-18 00:53:06


    以前的MD5值寄放在哪里以便进行比对呢?
    xujun74 发表于 2021-5-18 00:54:28

    xujun74 11#

    2021-5-18 00:54:28


    放在一个python变量里不行吗?
    gxzh 发表于 2021-5-18 00:56:00

    gxzh 12#

    2021-5-18 00:56:00


    嗯 放到变量里进行比对,假如有新值就交换而后发邮件,否则就保留,好方法。
    sanjin 发表于 2021-5-18 00:58:31

    sanjin 13#

    2021-5-18 00:58:31


       这不就是python最简略的前提判别么......
    sissyboy 发表于 2021-5-18 01:01:38

    sissyboy 14#

    2021-5-18 01:01:38

    倡议不敷养分
    ytmail 发表于 2021-5-18 01:04:35

    ytmail 15#

    2021-5-18 01:04:35

    check if the server support http response 304 ‘Not Modified’
    yipianlvdi 发表于 2021-5-18 01:07:08

    yipianlvdi 16#

    2021-5-18 01:07:08

    一些网站经过 long polling 或者更先进的 websocket 来推送更新, 假如你要做到有了通知才去抓,那末你的爬虫得可以了解和履行 javascript 或者处置 websocket 衔接。这毫无须要,无故减少繁杂度。

    简略粗暴的解决问题就行了,就比较你抓上去的 txt, 没甚么欠好。
    爱上广州 发表于 2021-5-18 01:11:01

    爱上广州 17#

    2021-5-18 01:11:01

    高级做法:
    每次爬了页面把你关怀的数据存到文件或者数据库,下次再抓回来就做一次比较。而后发邮件


    进阶做法:
    爬虫尽管爬页面,此外写个后盾承受爬虫拿到的数据。 后盾收到数据后和数据库比较,而后trigger 自定义的action (发邮件,发短信 or whatever)



    唬人做法:
    爬虫放docker, 做集群,拉了数据回来喂aws Kinesis, 甚么hadoop,zooke,机器学习,能加的都加之。再上链发个币, 融资,上市,走上人生巅峰。

    发表回复

    您需要登录后才可以回帖 登录 | 立即注册

    返回列表 本版积分规则

    :
    论坛元老
    :
    论坛短信
    :
    未填写
    :
    未填写
    :
    未填写

    主题339

    帖子4613

    积分10343

    图文推荐