加工过的那些,要原始一点,也全一点,当然,是做过清洗和脱敏的,”
这个举动彻底让邹杰和周帆都愣住了。
邹杰难以置信地看着那个u盘,又看看李乐,完全无法理解对方的意图。
在刚刚揭露了“借鉴”行为之后,反而把自己的核心数据给对方看?这算什么?施舍?还是另一种形式的摩擦?
李乐没有催促,只是平静地看着他。
挣扎了几秒钟,一种对高质量数据的本能渴望,以及对李乐究竟意欲何为的强烈好奇,最终战胜了疑虑。邹杰几乎是颤抖着手,接过了那个轻飘飘却感觉重若千钧的u盘,默默地插在了电脑上。
周帆也忍不住凑了过来。
u盘里的数据文件被打开,清晰的表格、复杂的网络关系图、长时间跨度的用户活动日志呈现在屏幕上。
邹杰只看了几眼,瞳孔就猛地收缩了一下。这些数据的维度、精细度和时间跨度,远非他通过公开渠道抓取和有限访谈所能比拟。一些他之前只能推测或模糊感知的模式,在这些数据下露出了清晰的脉络。
“这个,”李乐又点开一个文件,“这是我们设计的一套测量线上社群认同感和归属感的量表,结合了社会认同理论和组织行为学的一些概念,进行过两轮预测试和信效度检验,克伦巴赫α系数和结构效度都还过得去。”
“比你直接套用线下社区认同量表,应该更贴切一些。”
邹杰身体不自觉地前倾,眼睛死死盯着屏幕,指着一段关于用户行为序列分析的描述急切地问,“这个这个序列模式挖掘,你们是用什么算法实现的?怎么处理稀疏数据问题的?”
李乐笑了笑,“用了改进的prefipan算法,针对用户行为序列的稀疏性做了优化。具体细节有点技术性,不过原理不难理解,回头可以发你篇相关的方法论文献。”
“这里呢?”邹杰指着其中一个关于“关键节点用户影响力衰减”的数据序列,“这个周期性波动,你们是怎么捕捉到的?这和我观察到的某个现象很像,但我一直无法确定是偶发还是规律”
“加了动态权重算法,结合了他们的发帖频率、回复质量、被引用次数,还有,嗯,一些非公开的互动指标,综合计算的影响力值。这个波动和平台几次大的规则调整时间点高度重合,说明不是偶发。”
邹杰像是沙漠中濒渴的人看到了水源,连珠炮似的又问了几个关于数据获取、清洗、模型构建的问题。李乐答了,之后