【Boost】:parser代码的基本结构(二)

parser代码的基本结构

  • 一.总体概述
  • 二. EumeFile的实现
  • 三.ParserHtml的实现
  • 四.SaveHtml实现
  • 五.完整源代码

打开parser.cc,用vscode或者vim都行。

一.总体概述

在这里插入图片描述

首先递归式的把文件名和路径读入一个数组内,接着把数组内的每一个数据按照一定的格式进行划分,最后把划分后的内容输入到output路径里。

在这里插入图片描述

二. EumeFile的实现

由于C++库对于文件的实现并不完整,所以我们需要使用Boost库里的函数。

安装Boost开发库

在这里插入图片描述

需要注意的是,我们现在做的是Boost库的搜索引擎,并非对它的源代码进行搜索,而是对它的使用手册进行搜索。

首先判断该路径是否存在,接着以递归的方式不断搜索文件,再判断搜索到的是否是普通文件,然后再是否是以.html结尾,最后将它的路径存入。

在这里插入图片描述

测试一下

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

测试完成,没有问题。

三.ParserHtml的实现

该函数主要功能:读取信息,然后分离出title,content,url。

总体框架

在这里插入图片描述

1.读取文件

由于读文件是非常常用的,所以我们将它封装在一个工具类里

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.解析title

title的查找很简单,找到两个title之间的部分就行了。

在这里插入图片描述

3.获取content

此处我们使用一个小技巧,定义两种状态:标签和内容。遍历整个文件,当遇到<时变为标签状态,此时不读取;当遇到>时,变为内容状态,此时开始读取。

在这里插入图片描述

4.获取URL

boost库的官方文档是与我们下载后的html有路径对应关系。

官网链接:

在这里插入图片描述

我们下载的链接:

在这里插入图片描述

data/input/accumulators.html

所以,本质是把下载下来的boost库 doc/html拷贝到了data/input下。实际上我们要对我们当前获取的路径进行剪切和拼接,将data/input/accumulators.html变成https://www.boost.org/doc/libs/1_84_0/doc/html/accumulators.html。这样就能得到官网的URL了。

在这里插入图片描述

测试:由于数据很多,我们看一个就行了

在这里插入图片描述

在这里插入图片描述

测试完毕,没有问题。

四.SaveHtml实现

为了方便我们使用getline能一次读出来整个文件,对于文档内部使用\3分割,文档之间使用\n分割。例如:title\3content\3url\n 。

在这里插入图片描述

在这里插入图片描述

测试

在这里插入图片描述

测试完成,没问题。

五.完整源代码

parse.cc

#include <iostream>
#include <vector>
#include <string>
#include <boost/filesystem.hpp>
#include "util.hpp"const std::string src_path = "data/input/";         // 要读取的文件路径
const std::string output = "data/raw_html/raw.txt"; // 存放处理后文件路径typedef struct DocInfo
{std::string title;   // 文档标题std::string content; // 文档内容std::string url;     // 文档路径
} DocInfo_t;// const &:表示输入
//&:输入输出
//*:输出
bool EnumFile(const std::string &src_path, std::vector<std::string> *files_lists);
bool ParseHtml(const std::vector<std::string> &files_lists, std::vector<DocInfo_t> *results);
bool SaveHtml(const std::vector<DocInfo_t> &results, const std::string &output);int main()
{// 第一步:读取目标文件的路径和文件名std::vector<std::string> files_lists;if (!EnumFile(src_path, &files_lists)){std::cerr << "enum file error" << std::endl;return 1;}// 第二步:把读取的文件按照格式进行解析std::vector<DocInfo_t> results;if (!ParseHtml(files_lists, &results)){std::cerr << "parse html error" << std::endl;return 2;}// 第三步:把解析后的文件输出到output路径里if (!SaveHtml(results, output)){std::cerr << "save html error" << std::endl;return 3;}return 0;
}bool EnumFile(const std::string &src_path, std::vector<std::string> *files_lists)
{// 定义一个path对象,从当前路径开始查找boost::filesystem::path root_path(src_path);if (!boost::filesystem::exists(root_path)) // 如果当前路径不存在就返回false{std::cerr << src_path << "not exists" << std::endl;return false;}// 定义一个空的迭代器,判断是否结束boost::filesystem::recursive_directory_iterator end;// 开始递归搜索for (boost::filesystem::recursive_directory_iterator iter(root_path); iter != end; iter++){// 如果不是普通文件,跳过if (!boost::filesystem::is_regular_file(*iter)){continue;}// 如果不是以html结尾,跳过if (iter->path().extension() != ".html"){continue;}// 测试代码,之后删除// std::cout<<"debug"<<iter->path().string()<<std::endl;// 将满足条件的网页的路径存入files_lists->push_back(iter->path().string());}return true;
}static bool ParaseTitle(const std::string &file, std::string *title)
{std::size_t begin = file.find("<title>");if (begin == std::string::npos)return false;begin += 7;std::size_t end = file.find("</title>");if (end == std::string::npos)return false;if (begin > end)return false;*title = file.substr(begin, end - begin);return true;
}static bool ParseContent(const std::string &file, std::string *content)
{// 一个简易的状态机enum state{LABEL,CONTENT};// 初始化为LABELenum state s = LABEL;for (char c : file){switch (s){case LABEL:if (c == '>')s = CONTENT;break;case CONTENT:if (c == '<')s = LABEL;else{// 我们不想要原始文档里的换行符,因为我们想用\n作为之后文档分隔符if (c == '\n')c = ' ';content->push_back(c);}break;default:break;}}return true;
}static bool ParseUrl(const std::string &file, std::string *url)
{std::string head = "https://www.boost.org/doc/libs/1_84_0/doc/html/";std::string tail = file.substr(src_path.size());*url = head + tail;return true;
}bool ParseHtml(const std::vector<std::string> &files_lists, std::vector<DocInfo_t> *results)
{for (const std::string &file : files_lists){// 1.读取文件std::string result;if (!ns_util::FillUtil::ReadFile(file, &result)){continue;}DocInfo_t doc;// 提取titleif (!ParaseTitle(result, &doc.title)){continue;}// 提取contentif (!ParseContent(result, &doc.content)){continue;}// 提取URLif (!ParseUrl(file, &doc.url)){continue;}// 放入结果results->push_back(std::move(doc));//细节;因为直接使用push_back会发生拷贝,为了提高效率使用move// 测试代码//  std::cout<<"title:"<<doc.title<<std::endl;//  std::cout<<"content:"<<doc.content<<std::endl;//  std::cout<<"url:"<<doc.url<<std::endl;//  break;}return true;
}
bool SaveHtml(const std::vector<DocInfo_t> &results, const std::string &output)
{// 创建输出对象std::ofstream out(output);if (!out.is_open()){std::cerr << "open:" << output << "failed!" << std::endl;return false;}// 将其格式化for (auto &item : results){std::string result;result += item.title;result += '\3';result += item.content;result += '\3';result += item.url;result += '\n';out.write(result.c_str(), result.size());}out.close();return true;
}

util.hpp

#include<iostream>
#include<string>
#include<fstream>namespace ns_util
{class FillUtil{public:static bool ReadFile(const std::string &file_path,std::string *out){std::ifstream in(file_path);//创建对象,这种创建模式,默认打开文件//判断文件是否打开if(!in.is_open()){std::cerr<<"open file"<<file_path<<"error"<<std::endl;return false;}//读取文件,按行读取std::string line;while(std::getline(in,line))//getline的返回值是istream类型,但该类内部进行了重载,所以可以直接判断{*out+=line;}//关闭文件in.close();return true;}};
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/449168.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flask框架开发学习笔记《5》简易服务器代码

Flask框架开发学习笔记《5》 Flask是使用python的后端&#xff0c;由于小程序需要后端开发&#xff0c;遂学习一下后端开发。 简易服务器代码 接口解析那一块很关键&#xff0c;学后端服务器这一块&#xff0c;感觉主要就是学习相应地址的接口怎么处理。 然后写清楚每个地址…

springboot 文件下载

前言 文件下载: 将服务器某个资源文件下载到用户本地计算机过程称之为文件下载 用户通过浏览器访问页面&#xff0c;点击链接之后&#xff0c;就能从服务器下载本地中。 具体思路&#xff1a; a.确定项目中哪些资源可以被下载 aa.txt 用户须知.doc … b.将可以被下载资源放入服…

MySQL篇----第三篇

系列文章目录 文章目录 系列文章目录前言一、InnoDB与MyISAM的区别二、索引三、常见索引原则有前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 一、InnoDB与MyISAM…

上海市七普分乡、镇、街道数据, Shp、excel格式,多年龄段人口分布数据均有

基本信息. 数据名称: 上海市七普分乡、镇、街道数据 数据格式: Shp、excel 数据几何类型: 面 数据坐标系: WGS84 数据时间&#xff1a;2020年 数据来源&#xff1a;网络公开数据 数据字段&#xff1a; 序号字段名称字段说明1zrks总人口数&#xff08;人&#xff09;…

【类和对象】4

日期类的拓展 c语言中的printf函数只能打印内置类型&#xff0c;为了弥补这一不足&#xff0c;c利用运算符重载可以打印自定义类型。 void operator<<(ostream&out);//声明在date.h中void Date::operator<<(ostream& out)//定义在date.cpp中 {out<<…

Java正则表达式之Pattern和Matcher

目录 前言一、Pattern和Matcher的简单使用二、Pattern详解2.1 Pattern 常用方法2.1.1 compile(String regex)2.1.2 matches(String regex, CharSequence input)2.1.3 split(CharSequence input)2.1.4 pattern()2.1.5 matcher(CharSequence input) 三、Matcher详解3.1 Matcher 常…

wangEditor v4的简单使用

当前文档是 wangEditor v4 版本的。 wangEditor v5 已经正式发布&#xff0c;可参考文档。 v5 发布之后&#xff0c;v4 将不再开发新功能。 介绍 English documentation wangEditor4 —— 轻量级 web 富文本编辑器&#xff0c;配置方便&#xff0c;使用简单。 官网&#…

[python]基于LSTR车道线实时检测onnx部署

【框架地址】 https://github.com/liuruijin17/LSTR 【LSTR算法介绍】 LSTR车道线检测算法是一种用于识别和定位车道线的计算机视觉算法。它基于图像处理和机器学习的技术&#xff0c;通过对道路图像进行分析和处理&#xff0c;提取出车道线的位置和方向等信息。 LSTR车道线…

「效果图渲染」效果图与3D影视动画渲染平台

效果图渲染和3D影视动画渲染都是视觉图像渲染的领域应用。效果图渲染主要服务于建筑、室内设计和产品设计等行业&#xff0c;这些领域通常对视觉呈现的精度和细节有较高要求。与之相比&#xff0c;3D影视动画渲染则普遍应用于电影、电视、视频游戏和广告等媒体领域&#xff0c;…

项目安全-----加密算法实现

目录 对称加密算法 AES &#xff08;ECB模式&#xff09; AES(CBC 模式)。 非对称加密 对称加密算法 对称加密算法&#xff0c;是使用相同的密钥进行加密和解密。使用对称加密算法来加密双方的通信的话&#xff0c;双方需要先约定一个密钥&#xff0c;加密方才能加密&#…

无人机激光雷达标定板

机载激光雷达标定板是用于校准和验证机载激光雷达系统的设备。由于机载激光雷达系统在测量地形、建筑物和植被等方面具有广泛的应用&#xff0c;因此标定板的使用对于确保测量结果的准确性和可靠性至关重要。 标定板通常由高反射率的材料制成&#xff0c;如镀金的玻璃或陶瓷&am…

flv视频格式批量截取封面图(不占内存版)--其他视频格式也通用

flv视频格式批量截取封面图&#xff08;不占内存版&#xff09;--其他视频格式也通用 需求&#xff08;实现的效果&#xff09;功能实现htmlcssjs 需求&#xff08;实现的效果&#xff09; 批量显示视频&#xff0c;后端若返回有imgUrl,则直接显示图1&#xff0c; 若无&#xf…