Skip to content
Yuukiy edited this page Sep 10, 2023 · 10 revisions

刮削器那么多,为什么还有这个项目?

  • 我在使用一些其他刮削器的时候发现单一来源的数据部分字段不全,希望有一个刮削器能够汇总各个网站的数据。找了一圈没有找到,所以决定自己写一个
  • 顺便作为练手的python项目
  • 收集Github Star(逃)

功能特点

  • 汇总多个刮削器生成数据
  • 多线程抓取
  • 支持下载高清封面
  • 努力保持多个站点的数据具有一致的分类名称(genre)
  • 使用自动单元测试来跟踪网页爬虫是否因为网站改版而失效

愿意帮助这个项目?

此项目不需要捐赠。如果你觉得这个项目帮到了你,又或者你觉得尚有不足的地方需要改进,欢迎通过以下方式参与进来:

  • 帮助撰写和改进Wiki

  • 帮助完善单元测试数据

    我希望这个项目能够拥有较长的一段生命,也希望能够及时发现数据来源站点变更导致的爬虫失效问题,所以在最开始就考虑了单元测试。但是由于精力的限制,目前只为爬虫和一部分核心功能准备了单元测试数据。 单元测试的脚本和数据在unittest文件夹下

  • 帮助翻译genre

    genre指影片分类。为了使抓取的影片数据在最终呈现时便于理解、保持多个站点具有一致的分类规则,对各个网站的影片分类进行了翻译。主要方式是机器翻译+人工校对+查找资料的形式。 如果你发现某些genre有更好的翻译,或者某个genre在不同的站点间的翻译不一致,欢迎帮忙进行修正

  • 要不顺便点个Star?

  • 改进了项目代码或者开发了新的功能?欢迎发Pull Request