人文学科能教给大数据什么?

星期二,2019年2月26日- 10:02

像许多美国人一样, 我对科技又爱又恨:当我的学龄前孩子吵着要iPad屏幕时间,而不是看书讲故事的时间时,我内心感到害怕. 我们的城市, 我们的政府, 我们的保险公司, 甚至书籍供应商也充斥着技术. 在最近的一次黑客马拉松上, 当地交通部门的专家在事故记录中承认了这一点, 还有关于居民财富和种族的数据, 他们有太多的数据来为决策提供信息.  

 

了解人文学科传统上是如何处理大问题的,可以让数据科学专家了解,如何在回答基于严肃调查的问题的同样技巧的基础上,得出有意义的结论. 毕竟,人文主义者是探索人类最重大问题的专家. 一个例子可能是掌握亚里士多德以来哲学家们关于正义或性别等话题的言论, 揭示这些概念背后的价值,  并对这些观念在我们这个时代是如何变化的有了新的理解.  人文学科的传统作用是提升人类的抱负, 问做一个公民意味着什么, 他是各大洲学术遗产的继承者, 或者是一个有不同意见的人.

 

现在比以往任何时候都重要, 对于那些从事大数据工作的人来说,在人文学科问题上进行培训是很重要的——对于那些从事人文学科工作的人来说,明确他们的批判性思维工具与数据科学家的相关性是很重要的.   人文学科的价值在于通过有技巧的学术研究来处理这些问题——以及许多较小的问题. 

 

人文学科的特殊技能有多种形式, 但他们都同意强调与文本及其上下文的认真接触.  他们询问手头证据的性质,支配调查的价值观,以及对这些概念进行建模的许多方法.   这些技能, 除此之外, 允许学者们对发现真理的地方产生强烈的共识, 同时也为不同意见的解释留出空间, 身份和意义.  对数据的熟练解释使学者们对事实达成一致(例如, 哪些手稿是某个特定中世纪抄写员的真实作品?, 同时为对这些事实的解释(例如, 描述圣经直译主义与历史解释的观点). 

 

我最近提出了“关键搜索”的概念,作为人文价值如何转化为数据世界的一般模型.  关键搜索有三个主要组成部分,反映了传统人文主义者过去处理重大问题的方式, 风扬, 还有导读. 

 

传统上, 人文主义者开始通过参考过去的经典(这并不是说不加批判地接受过去的价值观)来解开像“正义”这样的范畴。. 他们通过回顾所学的写作主题来“播种”他们的研究, 仔细选择与他们产生共鸣的特定文本, 就像园丁精心挑选种子种在地里一样.  

 

对这一过程进行建模可以为大数据研究提供很多帮助. 就像园丁一样, 批判性思考者需要仔细选择关键词, 类别, 并为大数据领域的研究“播下”种子.  处理数据时, 定义“正义”甚至“性别”需要明确使用的定义.  这些选择必须是明确的和自我反射的,因为它们对下游有很强的影响.  为了使查询可复制,需要对它们进行记录.  

 

在大数据时代, “播种”的大部分工作都是通过算法的选择来完成的——无论是机器学习, 散度的措施, 或者主题建模, 例如, 是用来提炼数据发现的吗. 从人文的角度来看, it isn’t enough to simply perform a search based on an 算法; the 算法 itself has biases, 在搜索过程中会产生哪些结果.  只有通过比较不同算法产生的结果,我们才能深入了解特定工具是如何影响结果的.

 

模型的第二步, “风扬,这是学者们在广泛阅读时所做的典型工作, 获取有关上下文的信息, 遵循模式识别的见解, 话语, 或者关键理论来突出特定的测试用例.  这一步通常是解释性的, 这意味着对于“最佳”理论没有客观的“正确”答案, 但学术研究是在学者们相互借鉴的基础上发展起来的.  

 

以大数据为例, “筛选”是指研究人员审查任何特定算法的结果,以询问数据和算法如何适合她的问题.  这可能意味着, 例如, 讨论相同的算法如何在不同的尺度上产生不同的答案, 或者使用不同的测量方法如何产生不同的结果.  例如, 在一个数字历史实验中, 三个不同的被普遍接受的散度方程从数据中得出了三个截然不同的答案.  比较不同算法的结果意味着突出特定算法固有的偏差, 方程, 或者选择比例.  

 

在数据科学工作中, 就像传统上由人文学科解决的问题一样, 正确的答案提供了辩论和解释的空间.  关键是工程师, 即使在处理大数据时也是如此, 要注意透明地记录特定算法的选择,以及可能导致结果偏差的方式.  迭代播种和筛选为naïvely拥抱计算算法的结果提供了安全屏障.  目前, 目前还不清楚我们大多数最好的文本建模工具有多可靠, 在这些地方需要谨慎地加以限制.  例如, 处理主题模型的计算机科学家自己也呼吁进行更多的研究, 为什么, 以及主题模型如何与传统方法中获得的见解相一致. 埃里克·鲍默和他的同事们警告说,“几乎没有理由期望主题模型中的单词分布会以任何有意义的方式与人类的解释保持一致。.“反复筛选和阅读可以防止从数字过程中得出鲁莽的结论. 一个真正关键的搜索需要人类监督,无论算法和人文问题之间的契合度是不明确的.

 

这个过程的下一步是“引导阅读”,这反映了园丁如何挑选发霉和损坏的水果,哪些适合食用,哪些适合做馅饼.  面对档案,传统的人文学者积极地选择段落进行研究. 

 

数字学者也必须考虑如何选择展示哪些发现.  在这个过程的这个阶段, 学者仔细检查搜索过程返回的结果, 有时是抽样, 有时对它们进行泛化(例如通过再次计算关键字或主题建模), 在再次迭代该流程之前.  确保有一个人为的步骤来检查数据——或者“引导阅读”——对于确保研究过程产生有意义的发现是很重要的. 不断“检查”计算机工作的过程使专家能够更好地判断生成的子语料库是否适合手头的学术问题,以及如何适合.  对结果进行抽样, 定期的过程使学者能够自信地评估搜索结果. 

 

批判性搜索本身调和了学者对特定算法的偏见和透视性质的敏感性. 然而,在许多情况下,一次遍历算法是不够的. 关键字搜索, 主题模型, 而且差异度量都可以用来将语料库缩小到更小的文本体, 例如,确定一个特别感兴趣的十年. 为了精确地“调整”算法以解决研究人员的问题, 可能需要连续几轮的关键搜索过程.

 

批判性搜索意味着在我们已有的研究议程中采用算法——女权主义者, 陆军中尉的, 环境, 外交, 等等,然后寻找那些工具和参数来提高我们的假肢对档案的多维度的敏感度. 记录种子的选择, 算法, 的否决, 在我们如何理解正典的过程中,迭代对于纪律实践的透明度有很大的帮助, 我们如何培养对新研究议程的敏感性, 以及我们作为一个领域如何追求我们对过去的理解的改进.

 

通过模仿人文学科和接受批判性思维的技能, 参与关键搜索过程的个人可以使他们如何处理所呈现的数据的选择可见和透明.  就像传统的人文主义者, 他们将比较并结合二手资料和权威文本的见解,以决定提取哪些类别以及这些类别的含义.  解释任何给定的数据处理方法, 他们将完整地记录他们围绕不同算法所做的选择及其结果, 从而帮助社区作为一个整体,为存在的事实和不同的解释方法之间的共识留出空间. 

文章链接