GitHub 开源项目文章爬虫,懒人必备!

Stella981
• 阅读 614

hello,小伙伴们大家好

GitHub 开源项目文章爬虫,懒人必备!

今天给大家介绍的开源项目是文章爬虫利器

爱收集的小伙伴们的福利哦!

假如你在工作中接到产品小姐姐的需求,需求是获取V2EX,知乎,简书,知否(SegmentFault),掘金,CSDN博客,微信公众号文章,cnblogs等中文网站中输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码 转化为Markdown,你会怎么做,假如你 code 功力还没有经过九九八十一天的修炼,还没有练到元婴期,你脑子里应该想的是我要写这么多规则,可怎么办,要累死人呢!要是有一个通用工具就好了,我要分享的这个github的开源项目:

在线体验地址:在线体验

项目链接:github

一键解析Markdown V2EX,知乎,简书,知否(SegmentFault),掘金,CSDN博客,微信公众号文章,cnblogs的页面->解析为markdown

ToMarkdown

功能描述: 将HTTP页面 解析为Markdown格式


目前支持: 知乎,简书,知否(SegmentFault),掘金,CSDN博客,微信公众号,V2EX 一键解析


体验地址: http://markdown.liangtengyu.com:9999


后端技术栈:

  1. springboot v2.1.4.RELEASE
  2. Jsoup
  3. Remark

前端:

  1. axios 请求组件
  2. mavoneditor markdown显示编辑组件
  3. ant-design-vue

使用方式也特别简单:

打开地址-->输入文章地址-->点击解析-->完成

GitHub 开源项目文章爬虫,懒人必备!


有兴趣的小伙伴可以尝试应用一下,如果在使用期间遇到问题请在下方留言或私信我!

今天的推荐不知道大家喜欢吗?如果你们喜欢话,请在文章底部留言和点赞,以表示对我的支持,你们的留言,点赞和转发关注是我持续更新的动力哦!

关注公众号:java宝典 GitHub 开源项目文章爬虫,懒人必备!

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
2年前
2021 最顶级 React 组件库推荐
点上方蓝字关注公众号「前端从进阶到入院」作者丨MaxRozen译者丨王强策划丨小智AntDesign!(https://oscimg.oschina.net/oscnet/a85c35f23bd04e5da6a1e5e68a24119b.png)项目链接:AntDesignh
Wesley13 Wesley13
2年前
Java爬虫之JSoup使用教程
title:Java爬虫之JSoup使用教程date:201812248:00:000800update:201812248:00:000800author:mecover:https://imgblog.csdnimg.cn/20181224144920712(https://www.oschin
Stella981 Stella981
2年前
Android So动态加载 优雅实现与原理分析
背景:漫品Android客户端集成适配转换功能(基于目标识别(So库35M)和人脸识别库(5M)),导致apk体积50M左右,为优化客户端体验,决定实现So文件动态加载.!(https://oscimg.oschina.net/oscnet/00d1ff90e4b34869664fef59e3ec3fdd20b.png)点击上方“蓝字”关注我
可莉 可莉
2年前
2021 最顶级 React 组件库推荐
点上方蓝字关注公众号「前端从进阶到入院」作者丨MaxRozen译者丨王强策划丨小智AntDesign!(https://oscimg.oschina.net/oscnet/a85c35f23bd04e5da6a1e5e68a24119b.png)项目链接:AntDesignh
Wesley13 Wesley13
2年前
CSS 奇思妙想:超级酷炫的边框动画
点上方蓝字关注公众号「前端从进阶到入院」精选原创好文助你进入大厂文章转载自公众号「iCSS前端趣闻」今天逛博客网站shoptalkshow\1\,看到这样一个界面,非常有意思:!(https://oscimg.oschina.net/oscnet/9655b35af5a045999ff55c144a3f7c
Stella981 Stella981
2年前
GitHub:爬虫入门JS 模拟登陆各大网站
GitHub:爬虫入门JS模拟登陆各大网站hello,小伙伴们,大家好,今天给大家介绍的开源项目是:SpiderCrack_Js,想学习爬虫解密js登陆的可以看看这个开源项目,这个开源项目可以给你提供一个不错的思路。代码教程【OpenLaw】登陆参数加密
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这