哈哈哈,社工库可以去脱一下,然后在结合社交网站的信息,基本一个人的画像就很全了
外国的库不知道,中国的社工库真的是达到了一个号就能挖出整个人的情况了(汗)
社会工程学
这个最核心的问题数据怎么收集,分析倒是简单,做个相关性分析,频率统计,聚类分析等就出来了。
社交网络的数据你只能爬虫爬取,因为这涉及到用户隐私,公司是不会公开数据或者买卖数据给你。
签到信息可以直接进行用代码分类。这个可能需要人工标注家庭,公司,其他等标签
如果有社交内容,可以进行文本分析,先用分词工具处理。推荐python的jiaba分词库。然后提取关键词,比如到家了,回家了,到公司了等,这个专业术语叫词槽,这个需要自己手动整理。整理好词槽就可以设计分类函数。当语句中出现词槽的关键词就自动分类为家庭,公司等。
这个需要用深度神经网络实现,网上也有免费的,比如百度AI的UNIT。
但如果你能拿到更深的数据,比如WiF连接信息,经纬度等,那就更好分析了。通过WiFi连接的时间分类,比如晚上10点到12点这个区间大多都在家。在根据WiFi的IP地址定位经纬度。
看上面资深数据工程师已经回答的很好了。只是自己脑洞一下:除了被动收集信息之外(采集数据、分析等),能不能试试主动收集?毕竟,社交网络是可以互动的。如果用软件注册账号,向用户发送关于住址的问题,不管是直接还是间接去问,总之会有一定的概率得到回答。哈哈,自己瞎想,只是另一种思路而已。