Darling Programmer


  • 首页

  • 归档

  • 分类

  • 标签

  • 搜索

Simhash的生成及存储

发表于 2018-03-06 | 分类于 每日进步一点点 , 算法

背景介绍

根据 Detecting Near-Duplicates for Web Crawling 论文中的介绍,在互联网中有很多的网页的内容是一样的,但是他们的网页元素却不是完全相同的,每个域名下的网页总会有一些自己的东西,比如广告、导航栏、网站版权之类的东西,但是对于搜索引擎来讲,只有内容部分才是有意义的,而后面的那些虽然不同,但是对搜索结果没有任何影响,所以在判定内容是否重复的时候,应该忽视后面的部分,当新爬取的内容和数据库中的某个网页的内容一样的时候,就称其为Near-Duplicates(重复文章)。对于重复文章,不应在执行入库操作,这种操作的优点是(A)节省带宽、(B)节省磁盘、(C)减轻服务器负荷以及(D)去除相似文章噪点干扰,提升索引的质量。

阅读全文 »

Restful架构的理解及使用场景分析

发表于 2018-03-05 | 分类于 每日进步一点点 , 架构

理解Restful架构

REST的由来

在互联网行业,实践总是走在理论的前列。Web发展至今,面向静态文档的HTTP/1.0协议已经无法满足Web应用的开发需求,因此需要设计新版本的HTTP协议。当前的发展趋势,前端设备层出不穷,因此,必须有一种统一的机制,方便不同的前端设备与后端进行通信。Roy Fielding(Apache软件基金会的合作创始人) 在他的博士学位论文Architectural Styles and the Design of Network-based Software Architectures中,Fielding更为系统、严谨地阐述了这套理论框架,并且使用这套理论框架推导出了一种新的架构风格,并且为这种架构风格取了一个令人轻松愉快的名字“REST”——Representational State Transfer(表述性状态转移)的缩写。

阅读全文 »

insert+where特殊场景的解决方案

发表于 2017-07-05 | 分类于 SQL

在数据库插入的场景中,我们可能会遇见这种情况:检测数据库是否含有即将要写入的数据。比如 province(省份)包含一个唯一字段:name,以往的做法是:

1:先执行一句查询的sql语句

1
select * from province where name='?'

2:如果这条数据不存在,再执行插入语句

1
insert into province(name) values('?')

阅读全文 »
Kricen

Kricen

An Optimist

3 日志
4 分类
3 标签
© 2017 - 2018 Kricen
由 Hexo 强力驱动
主题 - NexT.Mist