设为首页 | 加入收藏
当前位置: 主页 > 热图天下 > 365体育在线网址
借助机器学习,对垃圾信息说“不”
作者:www.vqianduan.com 时间:2018/8/16 11:13:34
本文摘要:借助机器学习,对垃圾信息说“不”

  

据了解,五一前住房城乡建设部还约谈了西安、海口、三亚、长春、哈尔滨、昆明、大连、贵阳、徐州、佛山等10个城市政府负责同志。

82股破净49只市净率低于:11来源:数据宝证券时报股市大数据新媒体“数据宝”统计,截至5月10日收盘,有82只个股跌破每股净资产,其中华夏银行、厦门国贸、交通银行等个股市净率最低,分别为倍、倍、倍。

近年来,贵州省从财政、金融、创新、三政合一等多方面改善营商环境,给企业提供了很多便利。

对此,台网友讽刺道,再来一次“雄三误射”就可以“成为英雄”。

  作为人工智能的核心技术,机器学习是计算机模拟人类思考方式的一种学习行为,它让计算机变得“聪明伶俐”。

“基于机器学习的垃圾信息过滤技术实际上是一个二元分类过程,机器学习模型需回答‘是’或‘不是’,以便将垃圾文本从大量信息中分离出来。”北京语言大学大数据与语言教育研究所所长荀恩东教授在接受科技日报记者采访时说,“首先应准备人工标注的数据,进而构建机器学习参数化模型,最后对其训练、测试,直至模型应用,解决实际问题。

”  “目前市场上识别垃圾邮件、短信的机器学习模型绝大部分采用的是针对文本显式特征的分析和提取。

”荀恩东解释,所谓“显式”特征,是指垃圾信息的关键词、表达形式、特殊符号、异体字、敏感词语表达方式等“外在”特征。

将这些多元、离散的特征元素汇总,便可构成显式特征列表,进而构建模型对垃圾信息进行甄别。

  “这种分类方式效率较高、成本较低、所依赖数据较少,但也存在适应性差,识别精度不高等不足之处。”荀恩东指出,如果垃圾信息发送方掌握了用户拦截系统的显式特征列表,便可对垃圾信息的敏感词汇作出相应调整,变换表达形式,从而有效规避拦截系统。

因此分类器需要实时动态更新显式特征列表,即便如此,该列表元素数量也十分有限,导致分类器过滤效果不佳,精确度不高。

  基于显式特征的分类方式“先天不足”,苹果公司有可能将目光投向隐式特征分类,即深度学习模型。

荀恩东表示,深度学习模型可对海量数据的信息进行深度挖掘,从信息的语义和内容上对垃圾信息进行甄别。

也就是说,同样一条推销短信,深度学习模型基于庞大的数据库,可分析出它的多种表达方式,从而做出更加准确的判断,仅靠改变文字形式无法逃脱深度学习模型的“火眼金睛”。

深度学习模型省去了前期建立大量显示特征列表的工作,只需标注垃圾、非垃圾信息即可,不仅效率提高,识别精度也得到很大提升。  基于深度学习的垃圾信息过滤技术目前也面临诸多技术难点。复旦大学计算机科学技术学院张军平教授表示,虽然有大数据支撑,深度学习模型在很多方面还是无法像人一样有效分析和理解信息中的内容。例如,个别汉字的顺序颠倒不一定能影响阅读,然而深度学习模型并没有人脑这样“聪明”。另外,组合爆炸问题也是难点之一。垃圾信息涉及领域广泛,形式变化多端,大数据深度学习模型可能对已有的垃圾信息有效分类,但面对新出现的垃圾信息可能就会“蒙圈”。  “这需要借助类似长短时记忆网络或更新的一些技术,对深度学习模型进行定期更新。”张军平认为,还可以考虑自然语言处理中的一些句与句的关系,进一步完善深度学习算法,从而改善其预测、分类能力。(科技日报)[责任编辑:金璐]。

二是从宏观经济的动态变化来看,前期制约市场的一个重要因素是“去杠杆”政策下导致的货币和信用双收紧,体现在社会融资余额增速从2017年11月起出现连续快速下滑。

  防止隐变量串通作弊  后来的实验逐渐证明,闹鬼的量子纠缠并非只是匪夷所思的假设,而是真实存在的现象。

(AndOneMorefortheRoad)1957年1月Billie为VerveRecords所进行的倒数第二个音乐录制计划,就是唱了这首OneforMyBaby(AndOneMorefortheRoad)。

理由主要有两个:一是从已经公布的上市公司2017年年报和2018年一季报来看,上市公司整体业绩增速仍然较为不错,ROE在继续上行。

(责任编辑:admin)
  • 娱乐资讯
  • 社会百态