文章目录
  1. 1. 相关岗位对比
  2. 2. 互联网公司”数据挖掘岗”做什么?
    1. 2.1. 1) 相关问答
    2. 2.2. 2) 宝宝年龄预测
    3. 2.3. 3) 反垃圾

目前,几乎各个公司都有自己的数据挖掘组,大到几十几百人的Big Data团队,小到几个核心人员,针对不同的产品、业务进行开发,处于不同的环境、平台。从资讯到旅游,从传统的互联网行业到金融……

看似差别很大,其实核心问题很多都是一致的。如User Profile: 特殊人群的发现,用户年龄的预测, 用户信用评估;相关内容的推荐(商品,资讯,旅游景点);垃圾内容的识别等等。嗯,体会实际工作与在学校期间所学模型算法的关联,逐步积累经验,掌握这个领域做事的一套方法流程,最终形成自己的风格。

相关岗位对比

  • 数据爬取、存储、管理(熟悉python, webkit等) 细分的话应该属于数据采集工程师? 不同的一个岗位( 与 数据挖掘/机器学习工程师比较的话).
  • 数据平台工程师: Hadoop的搭建,分布式,云计算平台这样的基础设置—infrastructure
  • 数据分析师介绍: 与数据挖掘相关
  • 对于数据挖掘工程师来说, 核心还是Data Mining/Machine Learning常用的算法模型(各个方法的优缺点,适用场合,参数含义)
    类比本科时对经典数据结构/算法的掌握—-各自的特点、适用场合, 以及拥有良好的开发实现能力,包括相关开源工具、库的有效使用。 Be Productive! 嗯,尽管也需要了解Spark, Hadoop, 需要会撰写MapReduce程序等等,但较之数据平台人员来说,我们只需要会用,在其平台上进行开发、完成业务即可,不太需要关注公司集群具体是如何搭建的。

            

Related Knowledge:

- 数据挖掘/机器学习; 信息检索; 推荐; 后台开发; 
- 文本的处理(自然语言处理); 图像、视频的处理 (计算机视觉CV , 模式识别) -- Multimedia ^^

互联网公司”数据挖掘岗”做什么?

言归正传,下面我们一起来看看宝宝树的数据挖掘团队部分工作介绍,以此体会一下在互联网公司—数据挖掘组平常做的事情是什么, 自己应该掌握哪些技术。
原文链接: 挖掘数据中的宝藏   (by Alexwhu)
Tags:      相关内容推荐;    用户年龄预测(User Profile);    垃圾内容识别;


我是宝宝树算法与数据组的一名工程师,记得刚来公司的时候,介绍自己工作时写到:“主要负责维护与改进宝宝树的自然语言处理、数据挖掘、推荐系统等相关领域的算法及应用”,大家都不甚明白,转眼已经来公司大半年了,可能是因为我们的工作都隐藏在众多产品的背后,很多同事仍然对我们的工作有点云里雾里。今天希望通过这篇博客可以把我们的工作讲得更清楚一点。

如果用一句话来概括我们的工作,那就是“挖掘数据中的宝藏”。大家是不是越听越糊涂了,让我举几个我们最近工作中的实际例子吧。

1) 相关问答

妈妈们在养育宝宝的过程中会遇到各种各样的问题,宝宝树的育儿问答是一个解决妈妈们疑问的好地方,但是往往看了一个答案之后并不能完全解决自己的疑问,因此想看看与这个问题相似的其他问题,可是从几百万问题中找到这些问题可不容易。这时候我们就上场了,我们会从这些问题的内容数据和用户的点击数据中挖掘宝藏,通过这些数据找出与这个问题主题一致且回答质量较高的问题,以及点击了这个问题的妈妈还会看的一些问题,在相关问答模块中展示出来,这样妈妈们就不用自己挨个儿找了,是不是很方便啊?。这部分工作的难点包括

1. 提问的内容,都相对较短,基本上就是一二句话的事,算法难以捕捉每个问题的核心诉求,给计算问题间的相关性带来挑战,而且这种
短文本相关度计算,即使在当今学术界也是热门研究方向,每年有不少研究性论文出炉路;

2. 海量的问题库,给问题相关性计算带来巨大的计算量,如果按照常规方法计算,需要接近1台较好的计算机花1年的时间来计算几百万问
题的相关性,我们研究和优化了各种计算方法,使得计算时间缩短在几天内完成。

2) 宝宝年龄预测

我们的研究结果显示,妈妈们从准备怀孕到怀孕期间以至于宝宝出生后的这几年内,基本上每个月所关心的话题都在变化,这种变化在孕期和宝宝出生的1年内,尤其显著。这与事实也非常相符。妈妈们在宝宝树上浏览内容的时候肯定希望看到更多的与自己宝宝年龄段相关的内容,而其他年龄段适用的妈妈们暂时用不上,最好展现的少一点或者不展示。

宝宝们年龄存在很大的差异,而浏览宝宝树的妈妈有相当一大部分是非登录用户,我们并不知道她们的宝宝年龄,这时候我们是不是就束手无策了呢?不是的,妈妈们浏览的信息中就会漏出一些蛛丝马迹,我们对妈妈们的点击数据进行挖掘就能给出一个宝宝的年龄的大致范围,从而根据这个预测出来的宝宝年龄,给各位妈妈提供个性化内容服务。 这部分工作的难点包括:

1. 年龄预测的结果要相对细腻,最好能精细到宝宝的具体月份,造成可预测的月份范围非常大,陡然提升了预测的难度与准确性;要知道
Google和Facebook也非常重视其用户的年龄信息并做预测以提供更精准的广告,但他们预测的精度以每5年为一个阶段;

2. 宝宝年龄是自然增长的,因此预测出来的结果,要跟得上这种自然增长的趋势而不断更新算法和预测结果; 

3. 妈妈们在宝宝树所浏览的页面,具有相当大的随机性,每个页面所能展示的信息也具有很大的随机性,这种随机性给我们工作带来了挑战。

—Interesting. User Profile~Age Prediction!!

3) 反垃圾

宝宝树给大家提供了一个很好的交流平台,良好的口碑和用户体验吸引了众多用户来访问。可是正因为用户多、曝光量大,很多网络推广人员也发现了可乘之机,比如2012年7月的某晚问答系统中出现了大量的广告:

满屏的这些垃圾信息对用户的正常访问产生了极大的困扰,如果采用人工删除的方法不仅仅费时费力,而且效果还比较差。如果采用规则匹配的方法,这些垃圾又千变万化,防不胜防。这时候怎么办呢?对,还是从数据中挖掘宝藏。

宝宝树运行这么多年来,辛勤忙碌的园丁已经为我们提供了大量的已经标注好的是否为垃圾信息的数据。园丁们的辛苦工作,为我们工程师积攒了大量而宝贵的第一手资料。我们通过对以往垃圾信息的进行分析,找到这些垃圾信息的特征;在每一个新的内容进入网站的时候,我们就会对其分析,判断它属于垃圾信息的概率,如果超过一定阀值,我们就会把它挡在网站之外或者需要经过园丁审核才能显示。垃圾信息的特征是有限的,当我们积累了足够数量的标注数据之后,无论它怎么变化,我们都能够将其准确地识别出来。就算有了新的变形,只要有园丁发现并标注为垃圾之后,这类特征就会加入原来的特征库,这样垃圾信息新的变种也无所遁形啦 :-)

但是,道高一尺魔高一丈,总有一些”捣乱”分子不断地尝试冲破我们的各种防线,试图发布垃圾、广告内容到宝宝树。这个时候,我们辛勤的园丁,会以最迅速的审核予以阻止,为各位妈妈们维护好一个干净而温馨的宝宝树。我们非常感谢园丁,为她们而鼓掌!

—Nice~ 但是对于初创的网站来说,直接封“捣乱”分子的IP是最直接暴力的做法吧。


除了以上内容之外,从数据中挖掘出来的宝藏还应用到各个方面,从吸引用户到留住用户,从产品到运营……,这些从数据中挖掘出的宝藏都发挥着极其重要的作用。



欢迎交流,希望读者能用几句话介绍一下自己所在的岗位,以及主要日常工作与理解,谢谢。 嗯,后面随着自己对这个领域的经验累积,也会不断完善现在的想法, 介绍更多实际工作中的例子。

文章目录
  1. 1. 相关岗位对比
  2. 2. 互联网公司”数据挖掘岗”做什么?
    1. 2.1. 1) 相关问答
    2. 2.2. 2) 宝宝年龄预测
    3. 2.3. 3) 反垃圾