|
尽快住手编写爬虫顺序,由于就在比来,一段爬虫代码把两集体送进了局子,一个CTO,一个顺序员。
事件是这样的,一家地产互联网科技公司在正常发展业务的过程当中,需求常常反复、干燥、手动的拜候政府寓居证网站,查问房产地址、屋宇编码和学区房的使用状况。详细我就不展开了,你懂的。
手动查问网站的效力极为低下,因而这家科技公司的产品组在一系列的后统一抉择采取编写爬虫成就自动查问。
没错,就是各种培训机构宣传的Python写爬虫,我这里就纷歧一点名了。
而后CTO签字授了权,顺序员奋笔疾书,谈笑间,一只爬虫应运而生。可接着惨剧产生了,因为寓居证网站所采取的技术架构太过于古典。
你晓得,爬虫刚一进去,我靠,办事器居然间接躺平了。
听说爬虫每秒才不外200的并发,而后运维一通重启,爬虫再次近身办事器再躺平,如斯重复十几个回合,你猜怎么着?
寓居证信息化部门不讲武德,没有进行所谓的横向扩展,纵向扩展内存散布式缓存啥的,间接报警了。
做过几天顺序员的都知道,因为此案波及的技术链路太过于没有技术含量,经过IP端口锁定,没费吹灰之力就找到了编写爬虫公司的CTO和顺序员。
终究法院按照危害计算机信息零碎平安罪,依法判处CTO吃窝头三年,Python顺序员吃窝头一年零六个月。
所以编写爬虫需小心,碰上碰瓷的网站你就知道,技术不光能够改动命运,还能够改动“命运”。 |
|