中央空调软链接厂家
免费服务热线

Free service

hotline

010-00000000
中央空调软链接厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

自己动手制作伪原创程序

发布时间:2020-06-28 11:26:13 阅读: 来源:中央空调软链接厂家

伪原创的目的是为了是搜索引擎认为这是一篇原创文章,从而给此文章比较高的权重。而目前伪原创有很多做法,例如替换词语,交换句子等。在这里将从各方面分析伪原创和手把手教你制作伪原创程序。与昂贵的伪原创软件说拜拜!

教程环境:

1、PHP

2、MYSQL

3、SCWS分词系统

类似PHP脚本,类似MYSQL数据库,类似分词系统亦可,在此只提供思路。

第一步:配置好你的环境!

在此需要做的是下载SCWS分析系统,依照官方的教程安装此系统,并且测试通过。其他的后台脚本,数据库就不多说了。SCWS是设计给C语言使用的,也为PHP做了扩大库,你也可以使用C语言制作你的伪原创程序。

第二步:获得文章,支解文章

所谓支解文章,就是将文章分句,分句需要自己写程序进行,我提供一个思路:以句号、感叹号、问号为分句标识,以上引号,左括号,左书名号等位起始符,以右引号、右括号、右书名号为结束符。遍历文章,当遇到起始符则进入不可分句状态,遇到结束符则退出此状态,当遇到分句标识时,仅当当前为可分句状态是,将读取到的内容分为1句,以此循环,将文章支解问一个一个的句子。在此做分句状态的目的,是为了保护位于括号、引号、书名号等一段内容内的分句标识,例如【他说:我爱你。】这里的【我爱你。】不会被误分解。

第三步:分词

将分解的句子进一步支解,得到分词。例如【苹果与西红柿一个是水果一个是蔬菜】这个句子可以分为【苹果】【与】【西红柿】【一个】【是】【水果】【一个】【是】【蔬菜】,在这个步骤中,需要SCWS的帮助,正常安装此分词系统后,分词操作只需要一个函数。就这个简单!另外,除分解出词语以外,还要取得词语的性质,例如名词、动词等。

第四步:关键词同义替换

在此需要一个知识库的支持,下载《哈工大信息检索实验室同义词词林》扩大版,里面是非常全的同义词大全,每一个词有多个编码,代表该词多义,一个编码下有多个词,表示这些词是同义词,将他们读取并保存到数据库中备用。

根据相干领域,设置你的关键词,例如你是做房产类网站,那末你的关键词可能是租房,出租,二手房,买房子,房屋合同,要找出很多的该领域的关键词,然后根据同义词词林对它们进行替换。为何只替换关键词呢?由于一个非关键词部份替换了,可能会引发奇特,而且不是该领域的词,权重没有领域关键词权重高,损失语句通顺度来做伪原创,得不偿失。

第五步:标点乱舞

文章类似度的计算是根据句子类似度计算的,句子的类似度又是根据词类似度计算出来的,所以即便更换了关键词为同义词,所得到的文章与原文还是会被判定为类似文章,怎么办呢?首先我们看看如何进行文章类似度计算。

前面说的同义词词林的编码,其实这里面大有学问,不是随意乱编的码,同义词词林的拓展版将一个词的词义,用一个编码标识,编码可分为5部份,分别是大类、中类、小类、词群、原子词群,例如学生和老师,这两个词,肯定是属于一个大类的,由于他们都是人,而西红柿和番茄,肯定是一个词群的,由于他们指的就是一个东西。那末类似度的计算就简单了,依照100为完全相同来计算,若大类相同,则为10,若中类再相同,则为20,若小类再相同,则为50,若词群再相同则为90,若原子词群再相同,则为100。这里为何要用再字,由于只要其中有一个不同,则无需再比较下去,例如大类都不同的两个词,中类,小类肯定不同了。

在此比较两个文章中的一个句子出现的词的类似度,计算每一个句子的类似度,进而计算文章类似度,这里触及一个算法,类似google的PR算法,以贡献度来叠加计算类似度。

说了这么多,我们该如何做,我们要打乱标点符号,干扰搜索引擎的分句处理。

人看文章时,特别是新闻或资讯,一般不在意标点符号,乃至有些人只是一眼而过粗略的看,即便断句混乱,文章大意不会有任何问题,所以我们要随便的将文章中的句号和逗号随便的替换,这样影响搜索引擎对文章进行分句,从而影响其类似度计算。

第六步:建立摘要置于段首

文章越靠前的内容越重要,这点毋庸置疑,所以我们需要对文章进行摘要,置于文章顶部,摘要的制作要有一定的压缩率,如1000字的文章,做100字的摘要便可,这里不按字数来统计,按句子数来统计比较方便,由于我们已对文章进行了分句处理。500句范围的文章,做20句摘要左右。摘要的核心在于选取摘要句子,由于摘要本身是让人了解个大概意思,所以又那末一点点语义不通是可以承受的。

前面说过了关键词,提取摘要也需要关键词,我们以权重的方式提取摘要句,包括关键词的句子,权重高,包括的数量越多,权重越高,以此计算出每一个句子的权重。然后根据原文的顺序,按权重高低顺序将他们提取出来,直到提取够你所需要的句数为止。将他们拼接,成为文章的文摘。

在此还可以做的更好一些,在网上找句子类似度计算算法,计算句子类似度,将类似句剔除,避免语义重复。由于包括很多关键词的句子很有可能意思是重复的。

第七步:标题的自定义

伪原创很重要的一点就是改标题,标题一定要改,根据类似度计算的算法,我们改标题一定要改得焕然一新,例如【高考10招】改成【高考10招】,这类改法,你简直是把百度当***了。那要怎样改呢?编瞎话你会不?【专家10点建议,助你备战高考】【做到这十项,高考得满分】【清华离你只有10步!】改成这些标题意思没变,但是很吸引人去点击,并且不会被搜索引擎发现是雷同文章。不错把?

第八步:打乱权重较低的句子的顺序

权重低的句子也能派上用处,虽然我们认为这些句子不是很重要,但是搜索引擎可不知道,我们把他们的顺序略微打乱,其实不影响语义,反而起到了伪原创的效果,很好。

对目前的伪原创软件,无章法的打乱句子顺序,是不可取的。例如一篇文章介绍了10个软件,已标记好了1、2、3、4的顺序,经过伪原创以后,顺序乱了,读者读起来就匪夷所思了。而本文介绍了句子打乱,是从局部范围内打乱,而且都是非关键句。

即解决了伪原创的问题,又解决了文章可读性的问题,除非你的文章只是给搜索引擎看的而不是给人看的,否则,赶忙动手制作自己的伪原创程序吧!感谢龙居客网站长提供(longjuke)

减肥的最快方法

快速减肥瘦身方法

希爱力双效片10粒价格

健康科学的减肥方法