当前位置:首页 > 闲鱼脚本 > 一个好的计划应该包括什么 (一个好的打算可以协助您成功复杂数据源中单元消息的准确规范化)

一个好的计划应该包括什么 (一个好的打算可以协助您成功复杂数据源中单元消息的准确规范化)

admin2年前 (2023-11-27)闲鱼脚本1187
微信号:xy916228
添加微信好友。 免费测试。
复制微信号
容忍鱼类技术沃尔玛临沧rototiller,参与群,试用软件复制社区是租赁业务中十分关键的消息,它可以反映屋宇的位。容忍鱼类技术沃尔玛临沧rototiller 一个好的计划应该包括什么

社区是租赁业务中十分关键的消息。它可以反映屋宇的位置和品质。关于租户来说,是否阅读准确的社区消息是高效找到房子的关键。因此,搜集和显示准确的社区消息是提高用户找房效率的一个关键方面。为了失掉片面的社区消息,租赁业务理论依赖各种数据源来失掉社区数据。这些数据格局不同,消息凌乱,蕴含少量冗余消息。为了提高找房效率,须要对同一社区的不同数据启动汇总,明白社区消息之间的附属相关。本文抓住社区的独个性,应用相似度算法设计了一种基于文本婚配的方法来处置这个疑问。

现有社区数据中有许多重复的社区,如“福鼎家”、“福鼎家小凤园”、“3单元、2楼、福鼎家园”、“西溪北苑西区”、“西溪北苑东区”等。只管这些社区的称并不齐全相反,但其中一些社区指的是同一社区或同一社区的子社区。咱们称这些社区为同义社区,如“福鼎家园”、“福鼎家园小峰花园”和“单元3、2楼、福鼎家园”。指整个社区的母社区,如福鼎家园、西溪北苑。代表社区以下局部区域的称为子社区,如福鼎嘉园晓风花园和西溪北园东区。社区地址,如“单元3,2楼,福鼎家园”被称为修建地址。

为了准确高效地搜查和显示屋宇消息,咱们须要剖析每个单元数据对应的单元消息,以及单元之间的档次相关,甚至补充一些单元消息。详细来说,一个是将现有社区一致为子社区:子社区处于阶段、小区和花园级别,如“福鼎嘉园晓风花园”和“福鼎嘉园玉路花园”:1个子社区是单元、修建和修建的下层:单元、修建、修建和x楼等称属于社区修建;2.每个子社区都有一个共同的父社区。例如,子社区“福鼎家园晓风花园”的母社区是“福鼎家园”;第二,可以补充父细胞和子细胞消息:可以补充细胞库中不存在的父细胞或子细胞消息;

作为惟一的地址单元,该单元具备以下特色:

子单元的父单元理论是多个子单元中最长的公共前缀:单元命名是一种档次结构,同一父单元的子单元理论具备相反的前缀,这合乎人们对位置的命名习气;街道和住宅楼的称具备共同的特点:例如,大少数街道都合乎这样的形式:“p p[w w|x|y|z]区”、“p[w|x|y]阶段”、“p[w|x|y]否”和“p[w | x | y]块”等。其中p是公共前缀,即虚构父单元确实定称。w代表数字,x代表代表数字的汉字,y代表大小写字母,z代表位置词(如东、西、南、北、西南、西北等)。住宅楼地址理论驳回以下方式:“p[w w | x | y]楼”、“p[w | x | y]楼”、“p[w | x | y]楼”、“p[w | x | y]单元”和“p[w | x | y]楼”

(p是子单元的称,w、x、x和y代表与上述相反的含意);作为一个相对较小的地址单元,一个小区的范畴较小,同一小区的不同子小区之间的距离不能太远;同一细胞的不同子细胞的称理论十分相似。

基于以上观察,咱们提出了一种基于前缀婚配和文本相似性的单元规范化打算。基本思维是

驳回前缀婚配算法对单元格启动聚类,计算文本相似度,参与距离权重进后退一步挑选,最终识别出父子单元格。

咱们依据市区、地域、社区称和经纬度消息确定社区。一切单元数据都存储在一个表p l o t中:单元id、市区、地域、单元称、单元g p s、源s o r c e(标志单元的源)、类型t y p e(0代表父单元,1代表虚构父单元,2代表子单元,3代表修建地址)和父单元id。咱们须要对原始细胞数据启动预处置:

原始数据须要处置:城区格局与杭州、余杭区相似;一些小区gps为非高德gps,须要转换为高德gps。一些单元数据只要省市街道和社区的称,没有详细的区域和经纬度消息。须要经常使用地图揭示启动校对,以尽或者地成功面积和经纬度消息。为了搅扰咱们的剖析,单元格称也会与许多标点符混合,咱们将首先删除这些标点,只剖析汉字的婚配

小区消息规范化流程如下图所示:

其关键思维是经常使用前缀婚配算法对细胞启动婚配,失掉近似细胞树,而后过滤出同一近似细胞树中不适宜的细胞,而后依据相似算法对细胞树启动婚配,而后兼并同义细胞树,失掉最终的规范化细胞树,形式婚配可以用来识别每个细胞树中的父子细胞。以下重点引见了前四个步骤。

如前所述,同一父单元格的大少数子单元格都有相反的前缀。咱们以此为终点来确定近似的单元格。详细方法如下:

关于同一市区同一区域内的每个单元格,从其称的前两个单词开局搜查一切单元格。这些单元有一个共同的前缀,称为近似单元树,以单元为根。找到一切近似单元树,延续参与前缀长度,将近似单元树拆分为较小的树,并在适过后中止参与前缀长度。最后,每个细胞树中的细胞都是近似细胞,可以提取父细胞和子细胞。但是如何确定最大前缀长度呢?分为以下几种状况:

假设可以判别该单元的称是子单元或修建,则间接提取父单元的称。假设没有同名的父单元格,则创立一个新的父单元格称,而后搜查一切以父单元格称为前缀的单元格,构成一个以父单元格为根的近似单元格树;判别社区称是代表子社区还是社区修建的方法是经过活期婚配上述社区称。

假设有其余以该单元格为前缀的单元格,则该单元格将被视为父单元格,一切以该单元格为前缀的单元格将汇集在一同。下图显示了案例1和案例2的示例。蓝色是父单元格,白色是修建地址,黄色是子单元格:

关于其余单元,前缀长度应依据以下准则确定:前缀长度的单元数量不得超越20个(不包括重复单元和具备齐全相反的市区、地域和单元称的单元)。普通来说,一个细胞中没有太多的亚细胞。一个父细胞领有超越20个子细胞是十分稀有的。例如,如下图所示,不可将社区“翡翠城木兰花园”辨以为子社区或修建地址。它的近似群落树是依托前缀失掉的。树的数量少于20,前缀增长中止。

假设对每个单元口头此操作,将失掉对应于每个单元的前缀树,也称为单元树(经常使用前缀树成功)。这个细胞被称为细胞树的根。很容易知道一个细胞或者位于多个细胞树中。在此环节中,还可以识别一些住宅楼、子住宅区和父住宅区。

实质上,这一步就是文本聚类的环节。如下图所示,文本聚类理论会对文本单词启动划分,而后经常使用TF-IDF(t e r m f r e q e n c y-i n v e r s e d o c u m e n t f r q e n c y,单词频率反文本频率)计算单词频率,设置单词权重,而后结构VSM(VS m,向量空间模型),为每个文本结构等长向量,最后设置度量(欧氏距离、余弦相似性等)并经常使用聚类算法对文本启动聚类。

这种方法不适宜咱们的场景:1这种方法理论会对蕴含多个特色词的文档启动聚类,但单元称较短,因此很难提取有效的特色词;2.社区称有一个显著的特点,即亲子社区的称与修建编之间存在着顺序相关。但是,这一个性在文本矢量化聚类算法中不能失掉表现和运行;3.经常出现的聚类算法,如k-MEANS,须要技巧和探求来选用适宜的k值,但咱们的方法经过经常使用子单元数量不太大的理想来防止这个疑问。

上一步失掉的是一个前缀相反的单元树。依据前缀,咱们圈出少量单元格。许多不属于同一父单元的单元被选用到同一单元树中。普通来说,一个细胞的不同子细胞之间的距离不会太远。因此,咱们过滤掉了偏远社区。详细而言,假设近似单元树中的单元a与单元树的根单元之间的距离大于2km,则从单元树中删除该单元。

并非一切同义单元格都有相反的后缀。因此,咱们还经常使用文本相似性来补充一些缺失的同义单元:

计算近似树前缀的编辑距离和g p s距离。关于g-p-s距离小于1km且相似度大于2的近似树,它们可以组分解同义细胞树。相似性的计算如下:

其中a和b区分是两个细胞树的根细胞的称,MA x(a,b)是a和b的最大长度,Le v e n s h t e in d is t a n c e(a,b)是编辑距离,s i m i l a r t y(a,b)越大示意a和b越相似。

如上图所示,“西溪格调”不是“大华西溪格调”的前缀,因此在第一步的前缀婚配聚合中,它没有被参与到“大华西溪格调”的近似群落树中。鉴于这个前缀不能笼罩,咱们计算出“西式”和“大华西式”之间的相似性为3。这种相似性标明文本的总长度是文本差异的倍数。它越大,相对差异越小。当相似度大于2时,咱们兼并两棵相似的树。

将每个细胞作为根并搜集相应的细胞树后,细胞树之间会有很多堆叠。在此步骤中,兼并具备交加的单元树,以取得最终的单元规范化结果。兼并单元树中的单元可视为同义单元。这一步可以说是细胞反常化的最后一步。

应用高德图中同义细胞的数据和人工识别来权衡细胞归一化算法的准确性。关键从两个方面:

f a l s e p o s i t v e s:不可识别最后属于父单元的子单元;阴性失误识别(f a l s e n e g a t i v e s):不属于父细胞但被失误辨以为父细胞的子细胞的子细胞;

数据标明,本文算法的正失误率小于8%,负失误率小于5%,标明该归一化方法的准确性是有保证的。

经过观察细胞称和档次相关的法令,提出了一种应用文本婚配和近似剖析处置细胞消息规范化疑问的方法。该方法成功便捷,准确率高,能够极速识别相似社区,为提高列表搜查效率和列表颁布的准确性提供了基础数据保证。

短视频宝宝=慢?阿里巴巴的工程师们就在这样一秒钟内关上了路由治理代码的短视频。阿里巴巴工程师如何高效地处置这个疑问?(适用)我要通知大家的是,关于FL-u-t-r的初始化环节,在FL-u-t-r中嵌入n-a-t-v-e组件的正确姿态是,没有补给的闲置鱼类的做法是什么,以及如何做到这一点?不务正业的鱼没有货源。闲置市场规模超越万亿。二手电子商务迎来了循环经济的红利。“校园圈”真的能成为游鱼成长的第二个引擎吗?

扫描二维码推送至手机访问。

版权声明:本文由闲鱼监控助手发布,如需转载请注明出处。

本文链接:http://www.28rx.com/post/3969.html

分享给朋友:

“一个好的计划应该包括什么 (一个好的打算可以协助您成功复杂数据源中单元消息的准确规范化)” 的相关文章

闲鱼脚本 国内外各大厂商在上空神仙打架怎么办?

闲鱼脚本 国内外各大厂商在上空神仙打架怎么办?

在前几年互联网大厂和科技巨头声情并茂向我们描绘理想元宇宙场景时,可能也想不到直到今天,我们也没摸到进入元宇宙的大门。最近,的出现又一次引发了大胆的畅想。打开手机,几乎所有的公众号都在围着发问:图/《我问系列文章》 公众号另一个引发人们广泛讨论的方向则是能否替代人类工作。图/《能代替我的工作系列文章》...

闲鱼如何封锁卖家 (闲鱼如何封锁掉线与智能更新|闲鱼一键擦亮怎样没有了)

想要封锁掉线与智能更新,可以检查你自己闲鱼页面所设置的检测更新内容的通知栏,将更新内容启动封锁,也可以将你自己软件内容启动更新,手机设施外部的手机软件封锁以后软件的智能更新配置之后,所发生版本更新时就不会自主的启动更新本文目录1、如何更新来过闲鱼时期,怎样关掉闲鱼智能更新,2、闲鱼一键擦亮怎样没有了...

闲鱼怎样开启相册权限 (闲鱼怎样开启闲鱼精选信息提示|详解|闲鱼开启闲鱼精选信息提示方法)

闲鱼怎样开启闲鱼精选信息提示,闲鱼软件里用户可以启动,二手买卖,,为了繁难买卖,不错过买卖大家是可以开启咸鱼精选信息提示的,那么详细怎样操作呢,还不分明的小同伴连忙来看看吧!。闲鱼怎样开启闲鱼精选信息提示?闲鱼软件里用户可以启动 二手买卖 ,为了繁难买卖,不错过买卖大家是可以开启咸鱼精选信息提示的,...

闲鱼上货软件有哪些 (闲鱼上货软件)

闲鱼上货软件有哪些 (闲鱼上货软件)

闲鱼助手。 关于泛滥闲鱼卖家而言,闲鱼上货助手早已成为他们必无法少的上货治理工具,它的适用性远远超出新用户的想像。由于在闲鱼平台上架两三样宝贝没有疑问,可是一旦成千盈百地去上架,甚至还是在若干个账号上方同时上架宝贝,这样的操作场景唯有闲鱼助手方能够轻松驾驭。然而,咸鱼助手的... 闲鱼助手 做...

市面干流品牌排行榜 (市面干流品牌鱼游闲鱼助手具有哪些配置呢)

市面干流品牌排行榜 (市面干流品牌鱼游闲鱼助手具有哪些配置呢)

市场需求就是商机,有商机才有翻新,作为目前市面最受欢迎的干流品牌,鱼游闲鱼助手不时是泛滥闲鱼卖家的好帮手,质量出众,降级及时,而且总能与时俱进,贴近广阔用户的实践需求给予翻新,那么,这款辅佐软件都具有哪些弱小的配置呢,智能采集,批量发货经常使用过鱼游闲鱼助手的用户都知道,这款软件不只能智能回复买家的...

经常使用闲鱼会怎么样 (经常使用闲鱼助手前会遇到哪些疑问)

经常使用闲鱼会怎么样 (经常使用闲鱼助手前会遇到哪些疑问)

作为闲鱼卖家必备的一款软件,鱼游闲鱼助手是目前市面上最为抢手的品牌,配置完全、操作便捷,那么,闲鱼助手在经常使用时有哪些经常出现疑问呢,闲鱼助手稳固吗,闲鱼助手从开发至今,曾经近五年时期,有数次的降级曾经可以让助手十分稳固的操作运转,很多闲鱼辅佐的用户在经常使用助手后,经常会遇到闲鱼助手智能掉线或许...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。