爬虫 什么是爬虫: 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。 爬虫究竟是合法还是违法的? 在法律中是不被禁止 具有违法风险 善意爬虫恶意爬虫 爬虫带来的风险可以体现在如下2方面:爬虫干扰了被访问网站的正常运营爬虫抓取了收到法律保护的特定类型的数据或信息 如何在使用编写爬虫的过程中避免进入局子的厄运呢? 时常的优化自己的程序,避免干扰被访问网站的正常运行 在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户隐私 商业机密等敏感内容需要及时停止爬取或传播 爬虫在使用场景中的分类 通用爬虫: 抓取系统重要组成部分。抓取的是一整张页面数据。 聚焦爬虫: 是...

  3dygdw7fVgD7   2023年11月02日   96   0   0 Python

1、描述下scrapy框架运行的机制? 从start_urls里获取第一批url并发送请求,请求由引擎交给调度器入请求队列,获取完毕后,调度器将请求队列里的请求交给下载器去获取请求对应的响应资源,并将响应交给自己编写的解析方法做提取处理: (1)如果提取出需要的数据,则交给管道文件处理; (2)如果提取出url,则继续执行之前的步骤(发送url请求,并由引擎将请求交给调度器入队列...),直到请求队列里没有请求,程序结束。 2、谈谈你对Scrapy的理解? scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码,就能够快速的抓取到数据内容。Scrapy使用了...

  3dygdw7fVgD7   2023年11月02日   99   0   0 Python

某大厂面试题1 1.分布式事务的一致性问题 事务的四大特性(ACID) 原子性(Atomicity):一个事务(transaction)要么没有开始,要么全部完成,不存在中间状态。 一致性(Consistency):事务的执行不会破坏数据的正确性,即符合约束。 隔离性(Isolation):多个事务不会相互破坏。 持久性(Durability):事务一旦提交成功,对数据的修改不会丢失。 其中原子性、持久性、隔离性都是为了保证一致性的。 事务型数据库必须要解决的问题是数据的一致性问题。这里的一致性指的是ACID中的C,如果不满足C,会有多种数据异常,如脏读、不可重复读、幻读、读偏序、写偏序等数据...

  3dygdw7fVgD7   2023年11月02日   43   0   0 Python

python动态规划 性质 最优子结构性质。如果问题的最优解所包含的子问题的解也是最优的,我们就称该问题具有最优子结构性质(即满足最优化原理)。最优子结构性质为动态规划算法解决问题提供了重要线索。 子问题重叠性质。子问题重叠性质是指在用递归算法自顶向下对问题进行求解时,每次产生的子问题并不总是新问题,有些子问题会被重复计算多次。动态规划算法正是利用了这种子问题的重叠性质,对每一个子问题只计算一次,然后将其计算结果保存在一个表格中,当再次需要计算已经计算过的子问题时,只是在表格中简单地查看一下结果,从而获得较高的效率。 无后效性:即某阶段状态一旦确定,就不受这个状态以后决策的影响。也就是说,某...

  3dygdw7fVgD7   2023年11月02日   54   0   0 Python

python实现各种排序 1.快速排序 1:首先取序列第一个元素为基准元素pivot=R[low]。i=low,j=high。 2:从后向前扫描,找小于等于pivot的数,如果找到,R[i]与R[j]交换,i。 3:从前往后扫描,找大于pivot的数,如果找到,R[i]与R[j]交换,j--。 4:重复23,直到i=j,返回该位置mid=i,该位置正好为pivot元素。完成一趟排序后,以mid为界,将序列分为两部分,左序列都比pivot小,有序列都比pivot大,然后再分别对这两个子序列进行快速排序。 以序列(30,24,5,58,16,36,12,42,39)为例,进行演示: 1、初始化...

  3dygdw7fVgD7   2023年11月02日   60   0   0 Python

网格线分级 一般情况下,我们设置网格线都不会太在意密度和精度的问题,导致下图这种看的有些眼花,横坐标在比较密集的时候很容易看窜行。 所以如果可以把精度设置一下,或者设置一下主级和副级网格线,就会条理很多 MultiLocator 首先引入模块 frommatplotlib.tickerimportMultipleLocator 在Matplotlib库中,MultipleLocator是用于设置刻度线间隔的类。与xticks和yticks方法相比,MultipleLocator更加灵活,可以用于自定义刻度线的位置、格式和间隔。 通常情况下,我们会使用Matplotlib自带的刻度线定位器(...

  3dygdw7fVgD7   2023年11月02日   117   0   0 Python

hovertool HoverTool是Bokeh库中的一个工具,它可以在鼠标悬停在图上时显示数据。当鼠标指针放在图表的特定部分(比如散点图的点或者线图中的线的时候),该工具会显示与该部分相关的附加信息。 一般配套使用的是frombokeh.plottingimportfigure,show 在Python中,plotting通常指的是数据可视化,即将数据以图表的形式展现出来。 而bokeh.plotting是Bokeh库中的一个模块,它提供了构建复杂统计图像的一种简单且高效的方法。这个模块包含了很多函数,例如figure(),来创建新的Figure对象;show()和save(),用于展示和...

  3dygdw7fVgD7   2023年11月02日   43   0   0 Python

concat 最近在写数据的时候看到用一个concat函数进行整合,但是下面这段代码之后就碰上个很奇怪的地方 fori,baginenumerate(bags): coure_result=func() core_df=pd.DataFrame([core_result]) dfs.append(core_df) df=pd.concat(dfs) 这段代码首先就是用dfs记录了每一组数据,最后使用concat函数进行连接。在这之后我希望在特定位置插入一列数据 df_summary=pd.DataFrame(summary,columns=["summary"]) df.insert(1...

  3dygdw7fVgD7   2023年11月02日   44   0   0 Python

wangyi 记录一次某大厂笔试的AC过程 给定一个二维矩阵,代表一片海域,海域由土地(0)和水域(1)组成,岛屿是由最大(上下左右)4个方向的联通的土地(0)组成的土地群,封闭岛屿则是指完全由1包围的岛屿,请找出封闭岛屿的数量。 题中给的图可以看到外围的1已经用蓝色标出来的了,但是真正是封闭岛屿的只有这一块, classSolution: defclosedIsland(self,grid:List[List[int]])->int: writecodehere ifnotgridornotgrid[0]: return0 m,n=len(grid),len(grid[0])...

  3dygdw7fVgD7   2023年11月02日   29   0   0 Python

1、Python中类方法、类实例方法、静态方法有何区别? 类方法:是类对象的方法,在定义时需要在上方使用“@classmethod”进行装饰,形参为cls,表示类对象,类对象和实例对象都可调用 类实例方法:是类实例化对象的方法,只有实例对象可以调用,形参为self,指代对象本身 静态方法:是一个任意函数,在其上方使用“@staticmethod”进行装饰,可以用对象直接调用,静态方法实际上跟该类没有太大关系 2、Python的内存管理机制及调优手段? 内存管理机制:引用计数、垃圾回收、内存池。 引用计数 引用计数是一种非常高效的内存管理手段,当一个Python对象被引用时其引用计数增加1,当其...

  3dygdw7fVgD7   2023年11月01日   278   0   0 求职面试

1.模型结构 五层模型: 应用层、传输层、网络层、数据链路层、物理层。 应用层:为应用程序提供交互服务。在互联网中的应用层协议很多,如域名系统DNS、HTTP协议、SMTP协议等。 传输层:负责向两台主机进程之间的通信提供数据传输服务。传输层的协议主要有传输控制协议TCP和用户数据协议UDP。 网络层:选择合适的路由和交换结点,确保数据及时传送。主要包括IP协议。 数据链路层:在两个相邻节点之间传送数据时,数据链路层将网络层交下来的IP数据报组装成帧,在两个相邻节点间的链路上传送帧。 物理层:实现相邻节点间比特流的透明传输,尽可能屏蔽传输介质和物理设备的差异。 ISO七层模型 是国际标准化...

  3dygdw7fVgD7   2023年11月01日   143   0   0 求职面试

Curve_fitting 前几天在工作的时候接到了一个需求,希望将不同坐标系,不同角度的两条不规则曲线,并且组成该曲线的点集数量不一致,需求是希望那个可以通过算法的平移和旋转搞到一个概念里最贴合,拟合态进行比较。 这是初步将两组数据画到图里的情况,和背景需求是一致的。其实从肉眼看过去左图逆时针旋转120度可以得到一个大致差不多的图。 但这里存在了两个问题: 就算搞到了同一个坐标系,一个基准点选取在哪里,图像绕着这个点旋转才可以得到最拟合点样子 找到基准点,判断最拟合的标准是什么,怎么算距离 首先我们将两图换到一个相同坐标系下 defConvert_to_the_same_scale...

  3dygdw7fVgD7   2023年11月01日   108   0   0 计算机图形学

最近在学着使用blackwidow这个工具,在ubuntu20.02系统的安装过程当中遇到了selenium使用的一些问题。 selenium是个什么工具? Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11),MozillaFirefox,Safari,GoogleChrome,Opera,Edge等。这个工具的主要功能包括:测试与浏览器的兼容性——测试应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自...

  3dygdw7fVgD7   2023年11月01日   69   0   0 Linux

Linux文件权限 文件权限和文件类型共有10个字符组成,这10个字符可以分成三部分 \[d+rwx+rwx+rw-\\d:表示文件类型\\2-4位(第一组rwx):表示文件所有者的对文件的权限\\5-7位(第二组rwx):表示文件所有者所在组的用户对文件的权限\\8-10位(rw-):表示其他用户对文件的权限\] 其中r表示可读,w表示可写,x表示可执行,表示没有权限。 所以如果可读,二进制位100,十进制为4 如果可写,权限二进制为010,十进制是2; 如果可执行,权限二进制为001,十进制是1;

  3dygdw7fVgD7   2023年11月01日   56   0   0 Linux

linux的crypt 最近学校布置了一个网安的小作业,要用到linux里面的这个crypt函数,写一篇总结一下。首先我们要了解这个函数是用来做什么的。 密码影子文件中存储了每一个用户的用户明文和其单向哈希过的秘文 cipher="$1$C68vnJ27$1ttFZ1/Rylq/xi350A0NI0"; 密码字段用\(id\)salt$hashed的格式存储,其中id字段是1,salt是C68vnJ27,hash为1ttFZ1/Rylq/xi350A0NI0 其中$id表示计算密码密文所用的哈希算法,对应关系如下: $1$表示MD5 $5$表示SHA-256 $6$表示SHA-512 $...

  3dygdw7fVgD7   2023年11月01日   74   0   0 Linux

pcov 用于PHP的自包含CodeCoverage兼容驱动程序,安装源代码 安装步骤 gitclonehttps://github.com/krakjoe/pcov.git cdpcov phpize ./configure--enable-pcov make maketest makeinstall 在安装好之后运行peclinstallpecv时遇到了一些问题,首先是 TryingtoaccessarrayoffsetonvalueoftypeboolinPEAR/REST.phponline187 这个报错的意思是:尝试访问类型为null的值的数组偏移量,就是说有个变成为nul...

  3dygdw7fVgD7   2023年11月01日   36   0   0 网络安全

ubuntu20下Php安装pcov 最近在学习pcov工具的使用,在parallelDesktop上装了一个自带的ubuntu虚拟机,但是这个ubuntu系统太新了,以前一般都用18.04或者16版本,很多服务和工具的都没跑起来,所以在想是不是这个系统里的服务版本不太兼容,今天试一下改一个PHP版本 ubuntu安装PHP 最早PHP版本用的是5.x版,后来又改到了7.x,这个是用的比较多的,但是ubuntu自带的是8.1,所以现在准备自己再装一个7版本的 直接“强暴”一点,用aptinstall命令直接把php,php扩展全都一口气安装好 parallels@parallels-Paral...

  3dygdw7fVgD7   2023年11月01日   106   0   0 网络安全

bufferoverflow 基本的汇编语言 MOVEAX,EBX:把EBX中存储的内容传给EAX ADDEAX,EBX:把EAX和EBX相加,最终存到第一个变量EAX中 PUSHEAX:入栈操作,ESP=ESP-4,然后把EAX放进ESP中 POPEAX:出栈操作,MOVEAX,[ESP];ESP=ESP+4 CALLfunc:PUSHEIP;JMPfunc RET:return操作,将EIP出栈 内存布局 AtypicalmemoryrepresentationofaCprogramconsistsofthefollowingsections. Textsegment(i.e.in...

  3dygdw7fVgD7   2023年11月01日   62   0   0 网络安全

Redis数据库 Redis(RemoteDictionaryServer)是一个使用C语言编写的,高性能非关系型的键值对数据库。与传统数据库不同的是,Redis的数据是存在内存中的,所以读写速度非常快,被广泛应用于缓存方向。Redis可以将数据写入磁盘中,保证了数据的安全不丢失,而且Redis的操作是原子性的。 1.Redis优缺点 优点: 基于内存操作,读写速度很快 支持多种数据类型,string,hash,list,set,zset等 支持持久化:Redis支持RDB和AOF两种持久化机制,持久化功能可以有效地避免数据丢失问题。 支持事务:Redis的所有操作都是原子性的,同时Red...

  3dygdw7fVgD7   2023年11月01日   92   0   0 其他数据库

MySQL 1.索引 1.1什么是索引 索引是一种特殊的文件(InnoDB数据表上的索引是表空间的一个组成部分),它们包含着对数据表里所有记录的引用指针。 索引是一种数据结构。数据库索引,是数据库管理系统中一个排序的数据结构,以协助快速查询、更新数据库表中数据。索引的实现通常使用B树及其变种B+树。 更通俗的说,索引就相当于目录。为了方便查找书中的内容,通过对内容建立索引形成目录。索引是一个文件,它是要占据物理空间的。 1.2索引优缺点 索引的优点 可以大大加快数据的检索速度,这也是创建索引的最主要的原因。通过使用索引,可以在查询的过程中,使用优化隐藏器,提高系统的性能。索引的缺点 时间方面...

  3dygdw7fVgD7   2023年11月01日   549   0   0 MySQL
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~