2022年12月微博疫情相关数据分析 ——以关键词“阳了”为切入点IT技术2022年11月底至12月初,国内防疫政策调整后,各地都在经历这一特殊的过渡阶段,各地居民在2022年12月内经历新冠病毒感染结果阳性的情况十分普遍。通过分析微博这里社交媒体相关数据,有助于了解疫情在空间上和时间上的发展趋势,有助于关切社会舆论热点信息,对个人防疫卫生和政府决策都有一定帮助。2023-1-10 Python 新闻 微博 爬虫 新冠 可视化
可视化并度量 BERT 的几何结构IT技术这篇文章的发现:• BERT 在单独的句法和语义子空间中存储语言特征的证据 ◦ 已发现 2 个表示句法和语义子空间的线性变换 ◦ 这些应该是彼此正交的 ◦ 注意力矩阵似乎包含相当数量的句法信息• 休伊特和曼宁发现的表示几何的数学论证 ◦ 毕达哥拉斯嵌入(平方 嵌入)很可能是对观察到的距离的解释 ◦ 可视化• BERT 具有细粒度的词义几何表示 ◦ 不同的词义构建分离良好的集群 ◦ 在这些集群中,上下文嵌入似乎编码了额外的细粒度含义2023-1-10 可视化 BERT 词义 上下文 语法 树嵌入 论文阅读
深度矩阵分解与合成致死数据集的关系预测IT技术本次实验参考了开源项目deep_matrix_factorization的实现,该开源项目和现有论文大都是将深度矩阵分解用作推荐系统,所使用数据集矩阵以用户为行,以电影编号/商品编号为列,以该用户对电影/商品的评分作为矩阵值。本次作业中老师提供的数据集又一次不做说明,严重影响了实验工作的开展。参考相关论文信息,我大致了解到:2022-12-30 Python 课程作业 可视化 数据分析 数据挖掘
癌症病人组织样本RNA表达量数据集的决策树建立IT技术本代码文档使用ID3,C4.5算法实现了对给定癌症病人组织样本RNA表达量数据集的决策树建立。2022-12-7 可视化 数据分析 数据挖掘 癌症基因 决策树 TCGA ID3 C4.5
TCGA癌症数据的主成分分析和概念描述IT技术本代码文档实现了对给定癌症病人组织样本RNA表达量数据集的导入和主成分分析,并对结果进行了交互式可视化,核心类PCAcomponent可用于计算指定维度数或指定累计方差贡献率的主成分。2022-10-30 Python 课程作业 可视化 数据挖掘 数据分析 主成分 癌症基因 决策树 属性概化 概念描述 TCGA