深入理解Linux高性能网络架构的那些事
|
这样,我们就可以为自己的博客添加 RSS 订阅功能。 Github Actions 持续集成 Github Actions 是由 Github 于 2018年10月 推出的持续集成服务,在此之前,我们可能更多的使用 Travis CI 来实现持续集成服务。以我个人的感觉来看,Github Actions 功能非常强大,比 Travis CI 的可玩性更高,Github Actions 拥有丰富的 action 市场,将这些 action 组合起来,我们就可以很简单的完成很多很有趣的事情。 我们先来看看Github Actions 的一些基本概念:
了解了 Github Actions 的这些基本概念后,我们来看看 WarOfResistanceLive 的持续集成服务是怎样实现的,以下是本项目使用的 workflow 完整实现: WarOfResistanceLive 是一个主要由 Python 爬虫 + Hexo 博客 + Github Actions持续集成服务组成的开源项目,开源在 GitHub 上,并且部署于 Github Pages。目前包含以下功能:
接下来,我将简单的给大家介绍该项目的一些核心逻辑与实现。 Python 爬虫该项目使用的爬虫是基于 weibo-crawler 项目的简化及修改实现(仅供研究使用),感谢作者 dataabc。 实现原理 数据源包括: 1. Open Corporates 这个数据源拥有全球各地的1亿家以上公司的数据,可以说它是有史以来最大的企业数据库。用户可以按公司名称或高管进行搜索。 2. 美国疾病预防控制中心 对于查询涵盖健康主题的任何数据,可以在这里轻松找到。例如有关母乳喂养、环境健康、饮酒、基因组学、免疫接种、预期寿命、口腔健康、健身运动、死亡率等方面的数据。 3. 美国人口普查局 用户可以在这个数据源平台上查询有关美国人口、经济和地理的统计信息。 4. Google数据集搜索 这是一个一站式数据集,用户只需要根据要查找的数据类型进行搜索即可。甚至可以找出某个数据集的最新更新时间,或者通过说明快速了解这一数据集的全部含义。研究人员可以找到有关诸如美国国家航空航天局(NASA)等政府机构的各种数据,并且可以免费获得这些信息。 5. UNData 如果用户发现需要有关联合国的信息资料和统计数据,则只需要访问这个数据源即可使用。如果不想处理可能引起误解的或不受信任的数据源,则可以将其视为联合国的数据库。 6. Statista 从这个数据源的名称可以看出,用户可以依赖它来获取全局统计信息。其统计信息覆盖了150多个国家的170个行业。它提供了不同领域的统计数据:金融、技术、食品、软件、网络安全、冠状病毒疫情、娱乐等。并且这个平台上还公布了美国2020年11月总统选举投票率的统计数据。 7. HealthData.gov 这是另一个涉及健康主题的数据源。用户可以获得有关心理健康、药物使用、医疗设备的数据,以及可以想到的任何其他与健康相关的数据。在这个数据源上可以找到的内容以博客、数据集和资源的形式出现,用户需要做的就是查找自己感兴趣的主题。 8. Moz 这个数据源是为了解搜索引擎优化(SEO)相关信息而设计的。例如,如果是数字营销顾问,可以找到所有与搜索引擎优化有关的见解。搜索引擎优化(SEO)是动态的,可以依赖Moz了解最新的搜索引擎优化(SEO)趋势,如果是搜索引擎优化(SEO)内容的创建者,这个数据源也会派上用场。 9. Google Trends
Google Trends多年来一直是大数据的重要来源。它保存了各种搜索查询的搜索历史的非常详细的记录。这对于监控在线搜索非常有用,可以用来推断更大的趋势。 (编辑:潍坊站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

