Quero ler um pom.xml ('Modelo de objeto de projeto' do Maven) e extrair as informações da versão. Aqui está um exemplo:
<?xml version="1.0" encoding="UTF-8"?><project
xmlns="http://maven.Apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.Apache.org/POM/4.0.0 http://maven.Apache.org/maven-v4_0_0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.mycompany</groupId>
<artifactId>project-parent</artifactId>
<name>project-parent</name>
<version>1.0.74-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>com.sybase.jconnect</groupId>
<artifactId>jconnect</artifactId>
<version>6.05-26023</version>
</dependency>
<dependency>
<groupId>joda-time</groupId>
<artifactId>joda-time</artifactId>
<version>1.5.2</version>
</dependency>
<dependency>
<groupId>com.Sun.jdmk</groupId>
<artifactId>jmxtools</artifactId>
<version>1.2.1</version>
</dependency>
<dependency>
<groupId>org.easymock</groupId>
<artifactId>easymock</artifactId>
<version>2.4</version>
</dependency>
</dependencies>
</project>
Como posso extrair a versão '1.0.74-SNAPSHOT' de cima?
Gostaria de poder fazer isso usando scripts simples do bash sed ou awk. Caso contrário, um simples python é preferido.
EDIT
Restrição
A caixa do linux está em um ambiente corporativo, portanto, só posso usar ferramentas que já estão instaladas (não que eu não possa solicitar utilitários como o xml2, mas preciso passar por muita burocracia). Algumas das soluções são muito boas (já aprendem alguns truques novos), mas podem não ser aplicáveis devido ao ambiente restrito
lista xml atualizada
Adicionei a tag de dependências à listagem original. Isso mostrará que alguma solução hacky pode não funcionar neste caso
Distro
A distribuição que estou usando é RHEL4
xml2 pode converter xml para/de formato orientado a linhas:
xml2 < pom.xml | grep /project/version= | sed 's/.*=//'
Outra maneira: xmlgrep e XPath:
xmlgrep --text_only '/project/version' pom.xml
Desvantagem: lenta
Usando python
$ python -c 'from xml.etree.ElementTree import ElementTree; print ElementTree(file="pom.xml").findtext("{http://maven.Apache.org/POM/4.0.0}version")'
1.0.74-SNAPSHOT
Usando xmlstarlet
$ xml sel -N x="http://maven.Apache.org/POM/4.0.0" -t -m 'x:project/x:version' -v . pom.xml
1.0.74-SNAPSHOT
Usando xmllint
$ echo -e 'setns x=http://maven.Apache.org/POM/4.0.0\ncat /x:project/x:version/text()' | xmllint --Shell pom.xml | grep -v /
1.0.74-SNAPSHOT
Maneira Clojure. Requer apenas jvm com arquivo jar especial:
Java -cp clojure.jar clojure.main -e "(use 'clojure.xml) (->> (Java.io.File. \"pom.xml\") (clojure.xml/parse) (:content) (filter #(= (:tag %) :version)) (first) (:content) (first) (println))"
Maneira Scala:
Java -Xbootclasspath/a:scala-library.jar -cp scala-compiler.jar scala.tools.nsc.MainGenericRunner -e 'import scala.xml._; println((XML.load(new Java.io.FileInputStream("pom.xml")) match { case <project>{children @ _*}</project> => for (i <- children if (i match { case <version>{children @ _*}</version> => true; case _ => false; })) yield i })(0) match { case <version>{Text(x)}</version> => x })'
Maneira Groovy:
Java -classpath groovy-all.jar groovy.ui.GroovyMain -e 'println (new XmlParser().parse(new File("pom.xml")).value().findAll({ it.name().getLocalPart()=="version" }).first().value().first())'
Aqui está uma alternativa no Perl
$ Perl -MXML::Simple -e'print XMLin("pom.xml")->{version}."\n"'
1.0.74-SNAPSHOT
Ele trabalha com o exemplo revisado/estendido nas perguntas que possuem vários elementos de "versão" em diferentes profundidades.
Hacky caminho:
Perl -e '$_ = join "", <>; m!<project[^>]*>.*\n(?: |\t)<version[^>]*>\s*([^<]+?)\s*</version>.*</project>!s and print "$1\n"' pom.xml
Confia no recuo correto do <version>
necessário
Elabore uma solução de uma linha muito desajeitada
python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [n for n in dom.getElementsByTagName('version') if n.parentNode == dom.childNodes[0]][0].toxml()" | sed -e "s/.*>\(.*\)<.*/\1/g"
O sed no final é muito feio, mas não consegui imprimir o texto do nó apenas com mindom.
Atualização de _Vi:
Versão menos hacky Python:
python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [i.childNodes.item(0).nodeValue for i in dom.firstChild.childNodes if i.nodeName == 'version'].pop()"
Atualização de mim
Outra versão:
python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [n.firstChild.data for n in dom.childNodes[0].childNodes if n.firstChild and n.tagName == 'version']"
se "Há muitas tags de versão no xml", é melhor você esquecer de fazê-lo com "ferramentas simples" e regexps, isso não serve.
tente isso python (sem dependências):
from xml.dom.minidom import parse
dom = parse('pom.xml')
project = dom.getElementsByTagName('project')[0]
for node in project.childNodes:
if node.nodeType == node.ELEMENT_NODE and node.tagName == 'version':
print node.firstChild.nodeValue
Maneira XSLT:
<?xml version="1.0" encoding="ISO-8859-1"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text"/>
<xsl:template match="/">
<xsl:for-each select="*[local-name()='project']">
<xsl:for-each select="*[local-name()='version']">
<xsl:value-of select="text()"/>
</xsl:for-each>
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
xalan -xsl x.xsl -in pom.xml
Aqui está um one-liner usando sed:
sed '/<dependencies>/,/<\/dependencies>/d;/<version>/!d;s/ *<\/\?version> *//g' pom.xml
awk funciona bem sem usar nenhuma ferramenta extra.cat pod.xml
<project>
<modelVersion>4.0.0</modelVersion>
<groupId>com.networks.app</groupId>
<artifactId>operation-platform</artifactId>
<version>1.0.0</version>
<packaging>tar.xz</packaging>
<description>POM was created by Sonatype Nexus</description>
</project>
maneira simples e legível de obter o valor da tag <packaging>
:
cat pod.xml | awk -F'[<>]' '/packaging/{print $3}'
Return_text_val=$(xmllint --xpath "//*[local-name()='$TagElmnt']" $FILE )
Aqui, tente o seguinte:
$TagElmnt - TagName
$FILE - xml file to parse
sed -n "/<name>project-parent/{n;s/.*>\(.*\)<.*/\1/p;q}" pom.xml
A opção -n
evita a impressão de linhas não correspondentes; a primeira correspondência (/.../
) está na linha anterior àquela com o texto desejado; o comando n
pula para a próxima linha, onde s
extrai informações relevantes por meio de um grupo de captura (\(...\)
) e uma referência anterior (\1
). p
é impresso, q
é encerrado.