前情提要:飞物作者屡次四级考试未能通过,进而恼羞成怒,制作了基于Hadoop实现的对历年四级单词的词频分析项目,希望督促自己尽快通过四级(然而并没有什么卵用) 项目需求:Pycharm、IDEA、Linux、Hadoop运行环境、Hive、beeline、八爪鱼采集器数据来源:https://zhenti.burningvocabulary.cn/cet4 “如果你想要数据,就得自己来拿,这规矩你早就懂得”——某V姓男子 一、数据采集 1.从目标网站上获取所需要的网址 用来获取数据的网站是一个由主界面指向各个题目页面的分支结构,所以需要使用Python爬虫从主界面获取每一个题目页面的...

  OTTdqlHwhoOK   12天前   23   0   0 大数据
关注 更多

空空如也 ~ ~

粉丝 更多

空空如也 ~ ~