Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

挖掘汇总websoft9下所有应用程序的资源 #495

Open
zhaojing1987 opened this issue May 17, 2024 · 9 comments
Open

挖掘汇总websoft9下所有应用程序的资源 #495

zhaojing1987 opened this issue May 17, 2024 · 9 comments
Assignees
Labels
enhancement New feature or request

Comments

@zhaojing1987
Copy link
Contributor

zhaojing1987 commented May 17, 2024

功能需求:挖掘汇总Websoft9下所有应用相关的blog,根据时间降序汇聚所有发布的文章在一个页面展示。

大概步骤:

  • 明确目标和来源:

    • 需要收集的应用的具体列表;
    • 需要挖掘的资源类型:新闻文章、博客帖子、论坛讨论、用户评论等;
    • 确定可能包含这些资源的网站和平台:媒体网站、专业博客、社交媒体、论坛等;
  • 自动化工具:

    • 利用网络爬虫(Web Crawlers)和爬虫框架(如Scrapy、BeautifulSoup等)来自动化地从网站上抓取信息;
    • 使用APIs来获取特定平台(如Twitter、Reddit等)上的数据;
    • 考虑使用现成的内容聚合工具和服务,如Feedly、Flipboard等,它们可以帮助你订阅和管理多个内容源;
  • 数据清洗和处理:

    • 对抓取的数据进行清洗,去除无关内容、广告、重复信息等;
    • 使用自然语言处理(NLP)技术来分析和提取关键信息,如关键词、摘要、情感倾向等;
    • 多语言的处理;
  • 内容展示:

    • 设计一个用户友好的界面来展示这些内容;
    • 考虑内容的组织方式,例如按应用分类、按时间排序、按热度排名等;
    • 实现搜索功能,让用户能够根据关键词、作者、日期等条件搜索内容;
  • 维护和更新:

    • 定期更新内容,确保信息的时效性;
    • 监控和修复可能出现的技术问题,比如爬虫失效、链接失效等;
  • 分析和反馈:

    • 收集用户反馈,了解用户的需求和偏好;
    • 分析用户行为,优化内容推荐算法和展示方式;
@qiaofeng1227
Copy link
Contributor

  1. 自动化抓取和清洗工具选型使用开源工具,也能是付费工具
  2. blog里面的图床(带url的image),可能需要转换成websoft9地址
  3. 英文的翻译可在线翻译或提前翻译成文章

@qiaofeng1227
Copy link
Contributor

qiaofeng1227 commented May 22, 2024

  • wordpress 建站服务器购买
  • wordpress cdn 加速和图床(Cloudflare ?)
  • blog文章分类?
  • blog文章打标签
  • 文章页面版面设计(websoft9营销介绍 转发免责声明)
  • 多语言在线翻译
  • 原始 url?
  • 非 rss 协议支持

@zhaojing1987
Copy link
Contributor Author

  1. WordPress Blog 过渡服务器:http://39.99.190.142:9009 用户名:websoft9
  2. 安装插件:Feedzy RSS Feeds 需要升级到 Pro:以便支持有些网站的RSS只显示摘要,不显示全文,约99美元/年
  3. 从 应用 官网查找 blog 子页,通过浏览器(Chrome)插件:Erinome RSS Detector 来检索当前网站blog是否支持rss
    例:找到应用 gitlab 的blog页:https://about.gitlab.com/blog/ ,然后点击插件查看,是否支持RSS,并复制RSS地址:
    image
  4. 导入文章后图片没有显示,是因为图片是以HTML的字符导入的,需要在Wordpress的配置文件wp-config.php中加入代码:
define( 'FEEDZY_ALLOW_UNSAFE_HTML', true );

并重新WordPress容器
5. 在Feedzy 插件,进行相关 设置
6. 使用主题显示文章(默认主题图片显示过大,影响美观)

@zhaojing1987
Copy link
Contributor Author

应用blog数据汇聚的RSS方案

有三类数据:有RSS源,并返回blog详细数据、有RSS源,只返回blog简介和链接、官方有Blog,无Rss订阅源

blog汇集方案:

  • 使用Feedzy RSS Feeds插件免费版:可解决约50个应用的RSS订阅,可直接导入文章,RSS源有更新自动发布,可解决有RSS源,并返回blog详细数据的应用

  • 使用Huginn自动化流程工具:解决官方有blog无RSS的问题和有部分RSS只返回连接不返回具体内容的问题,思路:

    • 新建一个Website Agent:抓取blog列表页:标题和链接
    • 新建一个Website Agent:以上一步的抓取的数据作为 源,继续抓取blog详情页数据:标题、发布日期、作者、内容等
    • 新建一个Data Output Agent:以上一步抓取的数据作为 源,输出RSS格式数据,最终返回一个URL
    • 使用Feedzy RSS Feeds插件,以上一步的URL作为RSS源导入文章

该方案完全免费,但是需要在Huginn里面按照上述步骤,配置剩余50来个应用的blog获取(步骤简单,但是需人为手动配置)。

经过调查针对网站blog转RSS源的应用或插件不多,而且只能将blog列表页的数据转换为RSS源,不能循环或自动获取blog详情页的数据。Feedzy RSS Feeds插件的Pro版,经过与官方沟通,也不能抓取RSS源中只返回简介和链接的数据,所以放弃使用。

@zhaojing1987
Copy link
Contributor Author

对于多语言翻译问题
1、主流的翻译插件大部分基于Google 或者DeepL的API ,由于网络原因,国内使用会有问题
2、对于没有网路问题的翻译插件,免费额度有限,费用较贵,例如 :Weglot Translate 免费版每月2000个单词自动翻译,15欧/月的版本,每月也只有10000单词翻译量。还有一些商用的插件,没有提供试用功能,无法获知具体情况,但是基本是按照单词数来进行控制。

@zhaojing1987
Copy link
Contributor Author

linguise 插件国内网络可使用,价格: $15/月 20万字/月 ;$25/月 60万字/月;$45/月 无限制

@chendelin1982
Copy link
Contributor

自建代理bing翻译的网关?

@chendelin1982
Copy link
Contributor

linguise 插件国内网络可使用,价格: $15/月 20万字/月 ;$25/月 60万字/月;$45/月 无限制

每篇文章2000字,20万只有 100 篇文章

@zhaojing1987
Copy link
Contributor Author

自建代理bing翻译的网关?
最终还是要使用翻译API,核心问题是怎么在WordPress的页面调用API,这就是技术问题了,Wordpress的插件里面,没有调用微软翻译的插件,要不就是自定义个插件,要不就是在主题代码里编程实现调用API了,这都涉及到比较麻烦的开发了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

5 participants