Simhash的生成及存储

发表于 2018-03-06 | 分类于每日进步一点点，算法

背景介绍

根据 Detecting Near-Duplicates for Web Crawling 论文中的介绍，在互联网中有很多的网页的内容是一样的，但是他们的网页元素却不是完全相同的，每个域名下的网页总会有一些自己的东西，比如广告、导航栏、网站版权之类的东西，但是对于搜索引擎来讲，只有内容部分才是有意义的，而后面的那些虽然不同，但是对搜索结果没有任何影响，所以在判定内容是否重复的时候，应该忽视后面的部分，当新爬取的内容和数据库中的某个网页的内容一样的时候，就称其为Near-Duplicates（重复文章）。对于重复文章，不应在执行入库操作，这种操作的优点是(A)节省带宽、(B)节省磁盘、(C)减轻服务器负荷以及(D)去除相似文章噪点干扰，提升索引的质量。

阅读全文 »

Restful架构的理解及使用场景分析

发表于 2018-03-05 | 分类于每日进步一点点，架构

理解Restful架构

REST的由来

在互联网行业，实践总是走在理论的前列。Web发展至今，面向静态文档的HTTP/1.0协议已经无法满足Web应用的开发需求，因此需要设计新版本的HTTP协议。当前的发展趋势，前端设备层出不穷，因此，必须有一种统一的机制，方便不同的前端设备与后端进行通信。Roy Fielding(Apache软件基金会的合作创始人) 在他的博士学位论文Architectural Styles and the Design of Network-based Software Architectures中，Fielding更为系统、严谨地阐述了这套理论框架，并且使用这套理论框架推导出了一种新的架构风格，并且为这种架构风格取了一个令人轻松愉快的名字“REST”——Representational State Transfer（表述性状态转移）的缩写。

阅读全文 »

insert+where特殊场景的解决方案

发表于 2017-07-05 | 分类于 SQL

在数据库插入的场景中，我们可能会遇见这种情况：检测数据库是否含有即将要写入的数据。比如 province（省份）包含一个唯一字段:name,以往的做法是:

1:先执行一句查询的sql语句
1
select * from province where name='?'
2:如果这条数据不存在，再执行插入语句
1
insert into province(name) values('?')

阅读全文 »